Tecnologia semantica made in Italy
description
Transcript of Tecnologia semantica made in Italy
Tecnologia semantica made in ItalyNLP per i problemi di business del mondo reale
Pisa, 12/10/2013Nico Lavarini
2
NLP e Tecnologia Semantica
Baseline• Keyword-based / bag-of-words• Primitivo, generale, veloce
Avanzato• Shallow linguistic / LSI / statistica avanzata • Approccio sintetico con analisi su grandi
volumi• Machine Learning per apprendimento
conoscenza
3
NLP e Tecnologia Semantica
Perché la tecnologia semantica per NLP?• Analisi approfondita testi• Approccio analitico a fenomeni linguistici
4
Siri (Apple 2011)
Combinazione STT / NLP
Virtual assistant, capisce e gestisce• Elementi locali (telefono, rubrica, appuntamenti, messaggi)• Conoscenza generica esterna (ricerca, meteo)• Numerosi tipi di query: “meteo”, “invia sms a”, informazioni
varie, ricerca
Risultato mainstream: cosa mai vista
5
Genio (Virgilio 1999)
Genio rispondeva alle domande via web• flusso: analisi linguistica, identificazione elementi,
ricerca template e restituzione risposta• Uso generico NLP su web in italiano 13 anni fa
6
Genio (Virgilio 1999)
Esempi di query: “che tempo fa a Roma” “voglio info sul circuito di Hockenheim”• no mobile/locale ma web su tanti domini• comprensione NL qualunque
Creazione base di conoscenza strutturata usata come repository per le richieste. • Aree coperte: sport, mappe, treni,voli, traffico, meteo, hotel,
turismo, nozioni enciclopediche, celebrità, eventi, lavoro, tv, musica, ecc.
7
Chi può farlo
Non basta (non serve) forza bruta e risorse• Il problema globale è troppo complesso e ampio
Cosa serve?• Altra strategia• Capacità, Competenze• Scelta del compromesso valore aggiunto
fattibilitàPerché in Italia?
• Intelligenza, visione di insieme, capacità di sintesi
8
Machine Learning
Machine Learning oggi molto comune
• Risorse + $ + hardware + tanti dati danno risultati• TTM veloce, buona qualità in poco tempo ma risultati
difficilmente affinabili, molte tecniche sono black-box
9
L’approccio analitico
Controllo e sfruttamento fenomeni linguistici porta a comprensione
Più faticoso e richiede molte competenze specifiche Compromesso fra analisi puntuale di tutto e fattibilità Migliore nonostante la complessità Permette precisione e qualità più alte (a piacere in certi casi)
10
NLP e qualità
La perfezione non è raggiungibile• Anche gli umani interpretano male i testi (e i comandi a
voce)• Mutual agreement fra esperti medio ~80% su analisi
sintattica/semantica• Grande varietà fenomeni linguistici del mondo reale Long
Tail• Coreferenze lunghe, negazioni (multiple), ironia/sarcasmo,
conoscenza implicita (world knowledge), pragmatica, ecc.
11
NLP e qualità
C'è ancora tanta strada da fare
• Mantenere qualità analisi con scarsa qualità dei documenti (social web)
• Approcci formali al linguaggio (Generative/Transformational grammars) non funzionano in assoluto
• Gestione Long Tail dei fenomeni linguistici
12
Il futuro
Sfida: • combinare gli approcci esistenti prendendo il meglio• analisi approfondita usando come base la conoscenza
proveniente da sintesi di grandi volumi di testi• Tecnologie Big Data possono aiutare a gestire in maniera
efficiente i volumi
Fondamentale il passaggio da informazione a conoscenza
• Strumenti black box danno informazione difficilmente usabile, serve significato
13
Il futuro
Scenari futuri con qualità migliore:• Efficiente integrazione NLP nel ciclo TTS/STT per assistenti
vocali• NLP open-domain efficiente (QA, sentiment analysis) su
informazioni non strutturate• Semantic network automatiche da dati web (conoscenza, non
informazione)• Analisi social media (linguaggi non-standard, scarsa qualità,
diverse lingue, conoscenza e cultura implicite)
GrazieNico Lavarini
Chief [email protected]
+39 059 894069
Expert Systemwww.expertsystem.net
Contacts