TEORIE E TECNICHE DEL RICONOSCIMENTO Parti del discorso Classificazione grammaticale Classificazione...

Post on 03-May-2015

224 views 2 download

Transcript of TEORIE E TECNICHE DEL RICONOSCIMENTO Parti del discorso Classificazione grammaticale Classificazione...

TEORIE E TECNICHE DEL RICONOSCIMENTO

Parti del discorsoClassificazione grammaticale

Classificazione grammaticale in Python

1

RESTRIZIONI SULLE POSIZIONI DELLE PAROLE

• La ragazza lesse rapidamente il libro– *Ragazza la lesse rapidamente il libro– *La ragazza lesse il rapidamente libro

• Inglese: *The Sue quickly read the book • Sottocategorie:

– *La ragazza arrivo’ il libro– conigliera, baleniera, teiera, ma: *virtuiera, *pazienzera

CATEGORIE LESSICALI (PARTI DEL DISCORSO)

• NOMI (tavolo, Simona)• VERBI (camminare, mangiare, colpire)• AGGETTIVI (rosso, rapido)• AVVERBI (probabilmente, subito)• PRONOMI (io, lui, ci)• ARTICOLI (il, la, un)• PREPOSIZIONI (di, a, con)• CONGIUNZIONI (e, ma, o)• [Italiano]: INTERIEZIONI (ahi! )

ALCUNE DISTINZIONI

• PARTI DEL DISCORSO VARIABILI / INVARIABILI– L’uomo cammina / camminava

• PARTI DEL DISCORSO APERTE / CHIUSE– Aperte: nomi, verbi, aggettivi, avverbi– Chiuse: articoli, pronomi, preposizioni,

congiunzioni

CORPORA IN CUI LE PAROLE SONO ANNOTATE CON LA LORO PDD

• In molti dei corpora piu’ recenti (a partire dal Brown corpus), e particolarmente in quelli usati per la lessicografia, i token vengono classificati con la loro parte di discorso– Brown corpus: fatto a mano– BNC, LIP: fatto automaticamente

• Queste informazioni possono essere usate per associare parti del discorso ai lemmi

IL BROWN CORPUS

• Il primo corpus in formato elettronico moderno (Francis and Kucera, 1961)

• 500 testi, ognuno 2 000 parole• Analisi SINCRONICA dell’Inglese Americano:

testi di 15 generi (fantascienza, romanzi, articoli scientifici, reportage a stampa)

• Annotata la parte del discorso di tutte le parole (87 classi)

MARKUP NEL BROWN CORPUS

Television/NN has/HVZ yet/RB to/TO work/VB out/RP a/AT living/RBG arrangement/NN with/IN jazz/NN ,/, which/VDT comes/VBZ to/IN the/AT medium/NN more/QL as/CS an/AT uneasy/JJ guest/NN than/CS as/CS a/AT relaxed/VBN member/NN of/IN the/AT family/NN ./.

IL British National Corpus (BNC)

• Creato tra il 1991 ed il 1994 da un consorzio diretto da Oxford University Press

• Circa 100 milioni di parole• Classificazione grammaticale automatica usando il

classificatore CLAWS (parti corrette a mano successivamente)

• http://www.hcu.ox.ac.uk/BNC

9

LO SCHEMA DI CLASSIFICAZIONE (TAGSET)

• La scelta dello schema di classificazione grammaticale usato ha grande importanza

• Occorre un equilibrio tra– Codificare piu’ informazioni possibili sul contesto

(= avere una classificazione quanto piu’ fine possibile)

– Facilitare il compito dei classificatori (= ridurre il numero di tags)

10

Il tagset Penn Treebank (semplificazione del tagset Brown)

11

Verb inflection tags

12

The entire Penn Treebank tagset

13

UCREL C5

14

Tagsets per l’italiano

Si-TAL (Pisa, Venezia, IRST, ....)

PAROLE

TEXTPRO (dopo)

15

Il tagset di SI-TAL

POS TAGGED CORPORA IN NLTK

>>> tagged_token = nltk.tag.str2tuple('fly/NN') >>> tagged_token('fly', 'NN') >>> tagged_token[0] 'fly' >>> tagged_token[1] 'NN'

>>> nltk.corpus.brown.tagged_words() [('The', 'AT'), ('Fulton', 'NP-TL'), ('County', 'NN-TL'), ...]

Exploring tagged corpora

• Ch.5, p. 184-189

ALTRI CORPORA ANNOTATI CON PDD

• NLTK:• WAC Corpora:

– English: UKWAC– Italian: ITWAC

CLASSIFICAZIONE GRAMMATICALE

Giuseppe legge il giornale

Giuseppe/NNP legge/VBZ il/DT giornale/NN

Classificazione grammaticale: metodi

• Lookup (NLTK, 5.4)• Regular expression (NLTK, 5.4)

CLASSIFICAZIONE GRAMMATICALE: IL PROBLEMA DELL’AMBIGUITA’

• Molte forme di parola possono essere associate con parti del discorso diverse:– STATO sia sostantivo (LO STATO ITALIANO) che

verbo (NON SONO STATO IO)

AMBIGUITA’: LEGGE1

1 Norma, espressa dagli organi legislativi dello Stato, che stabilisce diritti e doveri dei cittadini Legge delega, che viene emessa dal potere esecutivo su delega del potere legislativo entro un ambito ben precisato Legge ponte, emessa in attesa di un'altra più organica A norma, a termini di legge, secondo ciò che la legge prescrive.2 (est.) Complesso delle norme costituenti l'ordinamento giuridico di uno Stato: la legge è uguale per tutti Essere fuori della legge, non essere garantito dalla legge o non sentirsi a essa soggetto Dettar legge, imporre a tutti la propria volontà.3 Scienza giuridica: laurea in legge; dottore in legge; facoltà di legge Uomo di legge, specialista nella scienza giuridica.4 Autorità giudiziaria: ricorrere alla legge In nome della legge, formula con cui i rappresentanti dell'autorità giudiziaria intimano a qc. di obbedire a un comando della stessa: in nome della legge, aprite!5 (est.) Ogni norma che regola la condotta individuale o sociale degli uomini: le leggi della società.6 (est.) Regola fondamentale di una tecnica, di un'arte e sim.: le leggi della pittura.7 Relazione determinata e costante fra le quantità variabili che entrano in un fenomeno: le leggi della matematica, della fisica.

AMBIGUITA’: LEGGE2

leggerev. tr. (pres. io lèggo, tu lèggi; pass. rem. io lèssi, tu leggésti; part. pass. lètto)1 Riconoscere dai segni della scrittura le parole e comprenderne il significato: imparare, insegnare a leggere; leggere a voce alta (ass.) Fare lettura, dedicarsi alla lettura: trascorro gran parte della giornata leggendo.2 Interpretare certi segni convenzionali o naturali: i ciechi leggono con le dita; leggere un diagramma (fig.) Leggere la mano, ricavare dati sul carattere e sul destino di qc. basandosi sulle linee della mano.3 (lett.) Interpretare uno scritto, un passo: i critici dell'Ottocento leggevano erroneamente questa strofa (est.) Interpretare, valutare scritti, eventi e sim. secondo particolari criteri: leggere un film in chiave ironica.4 (fig.) Intuire i pensieri e le intenzioni di qc.: gli si legge il terrore sul volto.

25

FREQUENZA + MORFOLOGIA + CONTESTO

• I POS taggers risolvono il problema dell’ambiguita’ usando una combinazione di informazioni su– FREQUENZA (FREQUENCY)

• I poured FLOUR/NN into the bowl.• Peter should FLOUR/VB the baking tray

– INFORMAZIONI MORFOLOGICHE • Check out this week podcast from DeJedi with all your

favourite RAGGATASTIC/JJ? jungle riddims.

– CONTESTO (CONTEXT)• I saw the new/JJ PLAY/NN in the theater.• The boy will/MD PLAY/VBP in the garden.

26

The importance of context

• Secretariat/NNP is/VBZ expected/VBN to/TO race/VB tomorrow/NN

• People/NNS continue/VBP to/TO inquire/VB the/DT reason/NN for/IN the/DT race/NN for/IN outer/JJ space/NN

Come determinare la categoria di un token

• Per discussione ulteriore, vedi NLTK book, 5.7

Classificazione di PDD in NLTK

DEFAULT POS TAGGER: nltk.pos_tag

>>> text = nltk.word_tokenize("And now for something completely different")>>> nltk.pos_tag(text) [('And', 'CC'), ('now', 'RB'), ('for', 'IN'), ('something', 'NN'), ('completely', 'RB'), ('different', 'JJ')]

TEXTPRO

• La suite di tools piu’ usata per l’Italiano• Include un POS tagger• http://textpro.fbk.eu/• Demo