Tecnologia semantica made in Italy

14
Tecnologia semantica made in Italy NLP per i problemi di business del mondo reale Pisa, 12/10/2013 Nico Lavarini

description

Tecnologia semantica made in Italy. NLP per i problemi di business del mondo reale. Pisa, 12/10/2013. Nico Lavarini. NLP e Tecnologia Semantica. Baseline Keyword-based / bag-of-words Primitivo, generale, veloce Avanzato Shallow linguistic / LSI / statistica avanzata - PowerPoint PPT Presentation

Transcript of Tecnologia semantica made in Italy

Page 1: Tecnologia semantica  made  in Italy

Tecnologia semantica made in ItalyNLP per i problemi di business del mondo reale

Pisa, 12/10/2013Nico Lavarini

Page 2: Tecnologia semantica  made  in Italy

2

NLP e Tecnologia Semantica

Baseline• Keyword-based / bag-of-words• Primitivo, generale, veloce

Avanzato• Shallow linguistic / LSI / statistica avanzata • Approccio sintetico con analisi su grandi

volumi• Machine Learning per apprendimento

conoscenza

Page 3: Tecnologia semantica  made  in Italy

3

NLP e Tecnologia Semantica

Perché la tecnologia semantica per NLP?• Analisi approfondita testi• Approccio analitico a fenomeni linguistici

Page 4: Tecnologia semantica  made  in Italy

4

Siri (Apple 2011)

Combinazione STT / NLP

Virtual assistant, capisce e gestisce• Elementi locali (telefono, rubrica, appuntamenti, messaggi)• Conoscenza generica esterna (ricerca, meteo)• Numerosi tipi di query: “meteo”, “invia sms a”, informazioni

varie, ricerca

Risultato mainstream: cosa mai vista

Page 5: Tecnologia semantica  made  in Italy

5

Genio (Virgilio 1999)

Genio rispondeva alle domande via web• flusso: analisi linguistica, identificazione elementi,

ricerca template e restituzione risposta• Uso generico NLP su web in italiano 13 anni fa

Page 6: Tecnologia semantica  made  in Italy

6

Genio (Virgilio 1999)

Esempi di query: “che tempo fa a Roma” “voglio info sul circuito di Hockenheim”• no mobile/locale ma web su tanti domini• comprensione NL qualunque

Creazione base di conoscenza strutturata usata come repository per le richieste. • Aree coperte: sport, mappe, treni,voli, traffico, meteo, hotel,

turismo, nozioni enciclopediche, celebrità, eventi, lavoro, tv, musica, ecc.

Page 7: Tecnologia semantica  made  in Italy

7

Chi può farlo

Non basta (non serve) forza bruta e risorse• Il problema globale è troppo complesso e ampio

Cosa serve?• Altra strategia• Capacità, Competenze• Scelta del compromesso valore aggiunto

fattibilitàPerché in Italia?

• Intelligenza, visione di insieme, capacità di sintesi

Page 8: Tecnologia semantica  made  in Italy

8

Machine Learning

Machine Learning oggi molto comune

• Risorse + $ + hardware + tanti dati danno risultati• TTM veloce, buona qualità in poco tempo ma risultati

difficilmente affinabili, molte tecniche sono black-box

Page 9: Tecnologia semantica  made  in Italy

9

L’approccio analitico

Controllo e sfruttamento fenomeni linguistici porta a comprensione

Più faticoso e richiede molte competenze specifiche Compromesso fra analisi puntuale di tutto e fattibilità Migliore nonostante la complessità Permette precisione e qualità più alte (a piacere in certi casi)

Page 10: Tecnologia semantica  made  in Italy

10

NLP e qualità

La perfezione non è raggiungibile• Anche gli umani interpretano male i testi (e i comandi a

voce)• Mutual agreement fra esperti medio ~80% su analisi

sintattica/semantica• Grande varietà fenomeni linguistici del mondo reale Long

Tail• Coreferenze lunghe, negazioni (multiple), ironia/sarcasmo,

conoscenza implicita (world knowledge), pragmatica, ecc.

Page 11: Tecnologia semantica  made  in Italy

11

NLP e qualità

C'è ancora tanta strada da fare

• Mantenere qualità analisi con scarsa qualità dei documenti (social web)

• Approcci formali al linguaggio (Generative/Transformational grammars) non funzionano in assoluto

• Gestione Long Tail dei fenomeni linguistici

Page 12: Tecnologia semantica  made  in Italy

12

Il futuro

Sfida: • combinare gli approcci esistenti prendendo il meglio• analisi approfondita usando come base la conoscenza

proveniente da sintesi di grandi volumi di testi• Tecnologie Big Data possono aiutare a gestire in maniera

efficiente i volumi

Fondamentale il passaggio da informazione a conoscenza

• Strumenti black box danno informazione difficilmente usabile, serve significato

Page 13: Tecnologia semantica  made  in Italy

13

Il futuro

Scenari futuri con qualità migliore:• Efficiente integrazione NLP nel ciclo TTS/STT per assistenti

vocali• NLP open-domain efficiente (QA, sentiment analysis) su

informazioni non strutturate• Semantic network automatiche da dati web (conoscenza, non

informazione)• Analisi social media (linguaggi non-standard, scarsa qualità,

diverse lingue, conoscenza e cultura implicite)

Page 14: Tecnologia semantica  made  in Italy

GrazieNico Lavarini

Chief [email protected]

+39 059 894069

Expert Systemwww.expertsystem.net

Contacts