Lezione 6 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica...

16
lezione 6 per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia

Transcript of Lezione 6 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica...

Page 1: Lezione 6 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 6

informatica di base per le discipline umanistiche

vito pirrelli

Istituto di Linguistica Computazionale CNR Pisa

Dipartimento di linguistica

Università di Pavia

Page 2: Lezione 6 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 6

sesta lezione: la “dinamica” del testo

vito pirrelli

Istituto di Linguistica Computazionale CNR Pisa

Dipartimento di linguistica

Università di Pavia

Page 3: Lezione 6 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 6

il lessico di un testo cresce quando introduciamo nel testo una parola mai usata prima

intuitivamente la crescita di un lessico è rapida all‘inizio, in quanto ogni parola che usiamo ha la tendenza ad essere nuova (raramente ci sono ripetizioni nella stessa frase)

aumentando il numero di frasi, tuttavia, aumenta la probabilità di riusare parole già usate

il ritmo di crescita del lessico di un testo tende quindi a diminuire all‘aumentare del numero di frasi ...

come cresce il lessico di un testo?

(per saperne di più clicca sulle parole evidenziate!)

Page 4: Lezione 6 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 6

esistono classi di parole che è praticamente impossibile non ripetere all‘interno di un testo anche molto breve

queste classi sono formate dalle cosiddette parole “grammaticali” (articoli, preposizioni, ausiliari ecc.), che costituiscono l’impalcatura morfosintattica di una frase

queste classi sono, tipicamente, relativamente ristrette (contengono pochi elementi) e “chiuse”, cioè non sono soggette ad espandersi attraverso

processi produttivi del lessico come la derivazione o la composizione

come cresce il lessico di un testo? (II)

(per saperne di più clicca sulle parole evidenziate!)

Page 5: Lezione 6 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 6

un altro fattore evidente che ritarda la crescita esponenziale del lessico all’interno dello stesso testo è la “coerenza lessicale”: la necessità, cioè,di ripetere concetti che sono legati al dominio o alla situazione specifica di cui parla il testo

come cresce il lessico di un testo? (III)

Page 6: Lezione 6 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 6

la frequenza media di una parola nel testo è data dal rapporto tra la lunghezza del testo e la grandezza del suo lessico: C / | V |

all‘inizio ogni parola è usata in media poco più di una sola volta (freq media 1)

non appena ripetiamo una stessa parola, tuttavia, la freq media cresce (freq media > 1)

in generale freq media tende a crescere per due ragioni: le parole grammaticali si ripetono, andando ad aggiungersi

a C ma lasciando |V | invariato; il vocabolario a sua volta, come abbiamo visto, rallenta il

suo ritmo di crescita col passare del testo

la frequenza media

(per saperne di più clicca sulle parole sottolineate!)

Page 7: Lezione 6 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 6

il ritmo di crescita di freq media tende a rallentare col passare del testo

perché? la frequenza cresce linearmente al crescere del testo se il “peso” del lessico fosse costante, la crescita di

freq media resterebbe lineare, ma avrebbe un ritmo inferiore (la retta che descrive questo andamento sarebbe più inclinata verso l’asse delle x)

se il peso del lessico aumentasse in modo lineare, freq media sarebbe costante

dal momento che il lessico cresce in modo non lineare (con una potenza di poco inferiore all’unità) solo una crescita di frequenza non lineare (con esponente di poco inferiore a 2) potrebbe consentire a freq media di crescere linearmente

come cresce freq media?

(per saperne di più clicca sulle parole sottolineate!)

Page 8: Lezione 6 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 6

no! la lunghezza media di una parola tende a stabilizzarsi col passare del testo, cioè tende ad assumere un valore costante dopo una serie di oscillazioni casuali (legge dei grandi numeri)

cresce tutto in questo modo?

Page 9: Lezione 6 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 6

campionamento casuale … analogamente se invece di monitorare lo stesso testo nel tempo, se

ne estraggono tanti campioni casuali, e se ne calcola per ciascuno “lun media”, il valore più volte attestato tenderà a riprodurre “lun media” di tutto il testo ...

Page 10: Lezione 6 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 6

campionamento casuale (II) ... tanto meglio, quanto maggiore è la lunghezza dei

campioni:

Page 11: Lezione 6 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 6

campionamento casuale (III) per il teorema del limite centrale, i valori campionari di lunghezza

media tenderanno a distribuirsi intorno al valore più attestato (valor medio) secondo una caratteristica forma a campana (curva gaussiana) e cioè con valori progressivamente decrescenti, disposti simmetricamente rispetto all‘asse della campana ...

(per saperne di più clicca sulle parole evidenziate!)

Page 12: Lezione 6 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 6

la legge di Zipf all‘interno di una porzione di testo, esiste

una correlazione inversa tra le frequenza di una parola e la sua posizione relativa (rango) in una lista di parole che va dalla più frequente alla meno frequente

, 3434. 2421di 2258il 1309e 1297la 1165a 914che 864e' 847in 830per 789un 693L' 647del 587I 585con 467si 467le 466ha 456una 449non 441della 435: 400da 393al 331- 323sono 291dei 262Piu' 260dell' 251( 241Ma 239) 238Nel 238anche 213gli 213alla 208hanno 186dal 181anni 173delle 159all' 158come 149stato 145Lo 143

r

Cf

Page 13: Lezione 6 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 6

Zipf (II)

Page 14: Lezione 6 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 6

Zipf (III)

)log()log()log( rCf 4481.38797.0 xy

su doppia scala logaritmica la legge di Zipf dà origine a una retta inclinata verso il basso ....

Page 15: Lezione 6 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 6

la struttura del lessico(classi di frequenza)chiamiamo Vi la classe di parole che appaiono con frequenza i volte ciascuna nel testo

allora |V |= |V1| + |V2| +...+ |Vmax|, dove max è la frequenza massima con cui una parola appare nel nostro testo

Page 16: Lezione 6 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

lezione 6

fine sesta lezione

sesta lezione la “dinamica” del testo

(lezione 7)