Trattamento Automatico delle Lingue R. Basili a.a. 2009-2010.

23
Trattamento Automatico Trattamento Automatico delle Lingue delle Lingue R. Basili R. Basili a.a. 2009-2010 a.a. 2009-2010

Transcript of Trattamento Automatico delle Lingue R. Basili a.a. 2009-2010.

Page 1: Trattamento Automatico delle Lingue R. Basili a.a. 2009-2010.

Trattamento Automatico delle LingueTrattamento Automatico delle Lingue

R. BasiliR. Basilia.a. 2009-2010a.a. 2009-2010

Page 2: Trattamento Automatico delle Lingue R. Basili a.a. 2009-2010.

Obbiettivi del CorsoObbiettivi del Corso

Introduzione al trattamento dei fenomeni Introduzione al trattamento dei fenomeni linguistici al calcolatorelinguistici al calcolatore

Applicazioni del TALApplicazioni del TAL Metodi e tecnologie principali del TALMetodi e tecnologie principali del TAL

– Progettazione grammaticheProgettazione grammatiche– Uso di XMLUso di XML

Laboratorio di TALLaboratorio di TAL– Analisi morfosintattica al calcolatoreAnalisi morfosintattica al calcolatore– Analisi semantica Analisi semantica – Annotazioni di corporaAnnotazioni di corpora

Page 3: Trattamento Automatico delle Lingue R. Basili a.a. 2009-2010.

Propedeuticita’Propedeuticita’

Nozioni elementari di algebra e logicaNozioni elementari di algebra e logica Corsi:Corsi:

– Abilità InformaticheAbilità Informatiche– Modelli e Linguaggi dei Dati e della ConoscenzaModelli e Linguaggi dei Dati e della Conoscenza

Page 4: Trattamento Automatico delle Lingue R. Basili a.a. 2009-2010.

Orario delle lezioniOrario delle lezioni MARTEDI’MARTEDI’

– Ufficio Docente h: 10:00-13:00Ufficio Docente h: 10:00-13:00

GIOVEDI’GIOVEDI’– Ufficio Docente h: 10:00-13:00Ufficio Docente h: 10:00-13:00

VENERDI’ VENERDI’ – Ufficio Docente h: 15:00-18:00Ufficio Docente h: 15:00-18:00

InviareInviare un un mail al docente decidendo quando (tra il al docente decidendo quando (tra il martedi’ ed il Giovedi’) preferireste la prima lezione martedi’ ed il Giovedi’) preferireste la prima lezione di ogni settimanadi ogni settimana. .

Page 5: Trattamento Automatico delle Lingue R. Basili a.a. 2009-2010.

Lezioni, Esercitazioni e Lezioni, Esercitazioni e TutoraggioTutoraggio

LezioniLezioni su aspetti metodologici del corso su aspetti metodologici del corso

EsercitazioniEsercitazioni su argomenti trattati durante le su argomenti trattati durante le lezioni e di preparazione all’esame ed al lezioni e di preparazione all’esame ed al progetto finaleprogetto finale

Ricevimento: Ogni Venerdi’ al termine della Ricevimento: Ogni Venerdi’ al termine della lezione lezione

Page 6: Trattamento Automatico delle Lingue R. Basili a.a. 2009-2010.

Testi di RiferimentoTesti di Riferimento

J. Lyons, “J. Lyons, “Introduzione alla Linguistica TeoricaIntroduzione alla Linguistica Teorica Sez II e Sez II e III”, Universale Laterza,1978. III”, Universale Laterza,1978.

D. Jurafsky, J. H. Martin, “D. Jurafsky, J. H. Martin, “Speech and Language Speech and Language Processing: an Introduction to Natural Language Processing: an Introduction to Natural Language Processing, Computational Linguistics and Speech Processing, Computational Linguistics and Speech RecognitionRecognition”, Prentice-Hall, 2000”, Prentice-Hall, 2000

G. Chierchia, S. McConnell-Ginet-, G. Chierchia, S. McConnell-Ginet-, Significato e Significato e Grammatica: una introduzione alla semanticaGrammatica: una introduzione alla semantica, Il Mulino, , Il Mulino, 19971997..

Articoli scientifici di approfondimentoArticoli scientifici di approfondimento

Page 7: Trattamento Automatico delle Lingue R. Basili a.a. 2009-2010.

Organizzazione dell’Esame finaleOrganizzazione dell’Esame finale

Discussione orale su tutto il programma Discussione orale su tutto il programma

Progetto Finale (alla fine del corso) su una Progetto Finale (alla fine del corso) su una delle lineedelle linee

– Analisi sintattica (analisi e annotazione dei dati)Analisi sintattica (analisi e annotazione dei dati)

– Analisi semantica (analisi e annotazione dei dati)Analisi semantica (analisi e annotazione dei dati)

– Approfondimento a scelta (bibliografia estesa)Approfondimento a scelta (bibliografia estesa)

Page 8: Trattamento Automatico delle Lingue R. Basili a.a. 2009-2010.

Uno Sguardo al ProgrammaUno Sguardo al Programma

Introduzione al TALIntroduzione al TAL– Cenni di Storia dell’Elaborazione Automatica Cenni di Storia dell’Elaborazione Automatica

del Linguaggio Naturale (NLP). Applicazioni del Linguaggio Naturale (NLP). Applicazioni del TAL. Ricerca Automatica di Informazione. del TAL. Ricerca Automatica di Informazione. Traduzione Automatica. Comunicazione di Traduzione Automatica. Comunicazione di Agenti Intelligenti.Agenti Intelligenti.

– Laboratorio: Le grammatiche formali; Laboratorio: Le grammatiche formali; Annotazioni dei Annotazioni dei corporacorpora; Il formalismo XML. ; Il formalismo XML. TEI: una introduzione. Uso del linguaggio TEI: una introduzione. Uso del linguaggio Prolog.Prolog.

Page 9: Trattamento Automatico delle Lingue R. Basili a.a. 2009-2010.

Uno Sguardo al Programma (2)Uno Sguardo al Programma (2) Richiami di Linguistica GeneraleRichiami di Linguistica Generale

– Linguistica Computazionale, AI e TAL. Linguistica Computazionale, AI e TAL. Morfologia, Sintassi e Semantica. Lessico Morfologia, Sintassi e Semantica. Lessico e Sintassi. e Sintassi.

– Semantica: scopi della semantica. L’analisi Semantica: scopi della semantica. L’analisi semantica e le teorie logico-deduttive. semantica e le teorie logico-deduttive. Semantica lessicale. Lessici Semantica lessicale. Lessici computazionali. computazionali.

– La semantica basata sui La semantica basata sui framesframes. . ““The The Case for case”Case for case” (C. Fillmore). Il progetto (C. Fillmore). Il progetto Framenet.Framenet.

Page 10: Trattamento Automatico delle Lingue R. Basili a.a. 2009-2010.

Uno Sguardo al Programma (3)Uno Sguardo al Programma (3) Trattamento dei fenomeni della Sintassi Trattamento dei fenomeni della Sintassi

– L’analisi morfologica e la sintassiL’analisi morfologica e la sintassi. Il processo . Il processo di etichettamento della morfosintassi (di etichettamento della morfosintassi (Part-of-Part-of-Speech taggingSpeech tagging). Approcci statistici ed approcci ). Approcci statistici ed approcci basati su regole al POS tagging.basati su regole al POS tagging.

– Grammatiche formali e riconoscimento Grammatiche formali e riconoscimento grammaticalegrammaticale. La gerarchia di Chomsky. . La gerarchia di Chomsky. Grammatiche libere dal contesto (Grammatiche libere dal contesto (Context-free Context-free grammarsgrammars). Esempi di uso.). Esempi di uso.

– LaboratorioLaboratorio. Il . Il Tree TaggerTree Tagger. Le grammatiche . Le grammatiche context-freecontext-free in Prolog. Il parser CHAOS. in Prolog. Il parser CHAOS.

Page 11: Trattamento Automatico delle Lingue R. Basili a.a. 2009-2010.

Uno Sguardo al Programma (4)Uno Sguardo al Programma (4)

Trattamento dei fenomeni semanticiTrattamento dei fenomeni semantici– Dizionari semanticiDizionari semantici: Wordnet; Longman Dictionary of : Wordnet; Longman Dictionary of

Contemporary English. Contemporary English. Il problema del Il problema del Word Sense Word Sense disambiguationdisambiguation. .

– Interpretazione semanticaInterpretazione semantica. Modelli di . Modelli di rappresentazione semantica. Modelli cognitivi della rappresentazione semantica. Modelli cognitivi della semantica.semantica.

– FramesFrames. La . La Frame SemanticsFrame Semantics. Il progetto . Il progetto FrameNetFrameNet..

– LaboratorioLaboratorio. Uso di Wordnet. Il progetto Multiwordnet. . Uso di Wordnet. Il progetto Multiwordnet. Etichettatura semantica. Analisi della risorsa Framenet. Etichettatura semantica. Analisi della risorsa Framenet. Progetto: verso un Framenet per l’italiano.Progetto: verso un Framenet per l’italiano.

Page 12: Trattamento Automatico delle Lingue R. Basili a.a. 2009-2010.

Uno Sguardo al Programma (5)Uno Sguardo al Programma (5)

Cenni alle Applicazioni del TALCenni alle Applicazioni del TAL– Information retrievalInformation retrieval ed ed Information ExtractionInformation Extraction– Question AnsweringQuestion Answering – Sistemi di Dialogo Sistemi di Dialogo

Page 13: Trattamento Automatico delle Lingue R. Basili a.a. 2009-2010.

Elaborazione di Linguaggio Elaborazione di Linguaggio Scritto e Parlato al CalcolatoreScritto e Parlato al Calcolatore

Cos’e’?Cos’e’?– Realizzare programmi in grado di completare Realizzare programmi in grado di completare

processi linguistici come:processi linguistici come: Abilitare una comunicazione uomo-macchinaAbilitare una comunicazione uomo-macchina Migliorare la comunicazione tra persone (ad es. MT)Migliorare la comunicazione tra persone (ad es. MT) Elaborare oggetti linguistici (ad es. Pagine Web, Elaborare oggetti linguistici (ad es. Pagine Web,

documenti o chiamate telefoniche)documenti o chiamate telefoniche)

– Esempi:Esempi: Question AnsweringQuestion Answering Traduzione AutomaticaTraduzione Automatica Agenti che dialoganoAgenti che dialogano

Page 14: Trattamento Automatico delle Lingue R. Basili a.a. 2009-2010.

Quali conoscenze servono?Quali conoscenze servono?

HAL 9000, da “HAL 9000, da “2001: A Space Odyssey2001: A Space Odyssey””

Dave: Dave: Open the pod bay doors, HalOpen the pod bay doors, Hal.. HAL: HAL: I’m sorry Dave, I’m afraid I can’t do I’m sorry Dave, I’m afraid I can’t do

thatthat..

Page 15: Trattamento Automatico delle Lingue R. Basili a.a. 2009-2010.

Qual’e’ la conoscenza di HAL?Qual’e’ la conoscenza di HAL?

Riconoscimento e sintesi del linguaggio parlatoRiconoscimento e sintesi del linguaggio parlato– Dizionari (pronuncia delle parole)Dizionari (pronuncia delle parole)– Fonetica (come riconoscere/produrre ciascun suono Fonetica (come riconoscere/produrre ciascun suono

dell’Inglese)dell’Inglese)

Comprensione della linguaComprensione della lingua– Conoscenza delle parole dell’IngleseConoscenza delle parole dell’Inglese

Cosa significanoCosa significano Come si combinano (cos’e’ un `Come si combinano (cos’e’ un `pod bay doorpod bay door’?)’?)

– Conoscenza della struttura sintagmaticaConoscenza della struttura sintagmatica I’m I do, Sorry that afraid Dave I’m can’tI’m I do, Sorry that afraid Dave I’m can’t

Page 16: Trattamento Automatico delle Lingue R. Basili a.a. 2009-2010.

Qual’e’ la conoscenza di HAL? (2)Qual’e’ la conoscenza di HAL? (2)

Dialogo e pragmaticaDialogo e pragmatica– ““open the dooropen the door” e’ una ” e’ una richiesta richiesta (non una (non una

affermazioneaffermazione o una o una ricerca di informazioniricerca di informazioni))– Rispondere e’ un atto gentile anche se si e’ Rispondere e’ un atto gentile anche se si e’

pianificato di uccidere.pianificato di uccidere.– E’ bene mostrarsi cooperativi (E’ bene mostrarsi cooperativi (I’m afraidI’m afraid, , I can’tI can’t…)…)– Cosa significa Cosa significa `̀thatthat’’ in ` in `I can’t do I can’t do thatthat’’??

Presino un sistema telefonico di prenotazione aerea Presino un sistema telefonico di prenotazione aerea richiede approssimativamente la stessa conoscenzarichiede approssimativamente la stessa conoscenza

Page 17: Trattamento Automatico delle Lingue R. Basili a.a. 2009-2010.

Question AnsweringQuestion Answering

Cosa significa “Cosa significa “portaporta”?”? In quale anno e’ nato Mozart?In quale anno e’ nato Mozart? Quante erano le provincie italiane sino al Quante erano le provincie italiane sino al

1995?1995? C’era uno sconto sull’acquisto dei libri di C’era uno sconto sull’acquisto dei libri di

linguistica da Amazon ieri?linguistica da Amazon ieri? Cosa pensano gli scienziati riguardo alla Cosa pensano gli scienziati riguardo alla

legalizzazione della clonazione?legalizzazione della clonazione?

Page 18: Trattamento Automatico delle Lingue R. Basili a.a. 2009-2010.

Modelli e AlgoritmiModelli e Algoritmi

ModelliModelli: Astrazioni e formalismi per esprimere diversi : Astrazioni e formalismi per esprimere diversi tipi di strutture linguistiche.tipi di strutture linguistiche.– Automi (FSA, traduttori, modelli di markov)Automi (FSA, traduttori, modelli di markov)– Sistemi formali di regole (grammatiche Sistemi formali di regole (grammatiche context-freecontext-free, ,

sistemi di sistemi di featurefeature))– Logica (calcolo dei predicati ed inferenza)Logica (calcolo dei predicati ed inferenza)– Modelli Probabilistici di quelli sopra elencatiModelli Probabilistici di quelli sopra elencati

AlgoritmiAlgoritmi usati per manipolare le rappresentazioni e usati per manipolare le rappresentazioni e creare altre strutture.creare altre strutture.– Alg. Di Ricerca (A*, programmazione dinamica)Alg. Di Ricerca (A*, programmazione dinamica)– Apprendimento Induttivo etc etcApprendimento Induttivo etc etc

Page 19: Trattamento Automatico delle Lingue R. Basili a.a. 2009-2010.

Linguaggio, Pensiero e Linguaggio, Pensiero e ComprensioneComprensione

Il Test di TuringIl Test di Turing La domanda “Può una macchina pensare?” La domanda “Può una macchina pensare?”

puo’ essere resa operativa.puo’ essere resa operativa. Versione operativa:Versione operativa:

– 2 persone ed un computer2 persone ed un computer– Una persona interroga via rete l’altra E il Una persona interroga via rete l’altra E il

computercomputer– La macchina deve convincerla di essere umanoLa macchina deve convincerla di essere umano– La seconda persona deve fare la stessa cosa!La seconda persona deve fare la stessa cosa!

Page 20: Trattamento Automatico delle Lingue R. Basili a.a. 2009-2010.

Eliza: Weizenbaum (1966)Eliza: Weizenbaum (1966)

User: You are like my father in some ways.User: You are like my father in some ways. ELIZA: ELIZA: What resemblance do you seeWhat resemblance do you see User: You are not very aggressive but I think you User: You are not very aggressive but I think you

don’t want me to notice that.don’t want me to notice that. ELIZA: ELIZA: What makes you think I am not aggressiveWhat makes you think I am not aggressive User: You don’t argue with meUser: You don’t argue with me ELIZA: ELIZA: Why do you think I don’t argue with youWhy do you think I don’t argue with you User: You are afraid of meUser: You are afraid of me ELIZA: ELIZA: Does it please you to believe I am afraid of youDoes it please you to believe I am afraid of you ((check at: check at: http://www.manifestation.com/neurotoys/eliza.php3 ))

Page 21: Trattamento Automatico delle Lingue R. Basili a.a. 2009-2010.

Esempio di trattamento di testoEsempio di trattamento di testo

Trova tutte le occorrrenze della parola “il” in Trova tutte le occorrrenze della parola “il” in un testo.un testo.– /il//il/

Perde molti esempi in maiuscoloPerde molti esempi in maiuscolo

– /[iI]l//[iI]l/ Restituisce “mille” o “Ildebrando” Restituisce “mille” o “Ildebrando”

– /\b[Ii]l\b//\b[Ii]l\b/

Page 22: Trattamento Automatico delle Lingue R. Basili a.a. 2009-2010.

Errori nel riconoscimentoErrori nel riconoscimento

Abbiamo eliminato Abbiamo eliminato due tipi di erroridue tipi di errori– Il reperimento di stringhe che non dovevanoi Il reperimento di stringhe che non dovevanoi

essere trovate (essere trovate (IliadeIliade, , millemille)) Falsi PositiviFalsi Positivi

– Il mancato riconosimento di stringhe corrette Il mancato riconosimento di stringhe corrette (ad es, “(ad es, “IlIl poliziotto ..”) poliziotto ..”) Falsi negativiFalsi negativi

Page 23: Trattamento Automatico delle Lingue R. Basili a.a. 2009-2010.

Errori (2)Errori (2)

Cio’ e’ vero in generale nel TAL. Cio’ e’ vero in generale nel TAL. Ridurre l’errore significa cercare due Ridurre l’errore significa cercare due

miglioramenti miglioramenti antagonistiantagonisti: : – Milgiorare la accuratezza Milgiorare la accuratezza (meno falsi positivi)(meno falsi positivi)– Migliorare la copertura Migliorare la copertura (meno falsi negativi).(meno falsi negativi).