Linguistica Computazionale - unipi.it...4 l Legge di Zipf(George Kingsley Zipf, 1949) l la frequenza...

27
Linguistica Computazionale 18 ottobre 2017

Transcript of Linguistica Computazionale - unipi.it...4 l Legge di Zipf(George Kingsley Zipf, 1949) l la frequenza...

Linguistica Computazionale

18 ottobre 2017

2Le 30 parole più frequenti in Pinocchio

Distribuzione della frequenza delle parole l Rango di una parola (rv)

l posizione occupata da una parola in un ordinamento di frequenza discendente

3

Distribuzione della frequenza delle parole l Distribuzione delle frequenze delle parole in

Pinocchio rispetto al loro rango

4

l Legge di Zipf (George Kingsley Zipf, 1949)l la frequenza di una parola è inversamente proporzionale al suo

rango

l f(z) = frequenza della parola di rango zl C è una costante corrispondente alla frequenza della parola di

rango 1l C dipende dalla lunghezza del corpus e dal suo vocabolario

l a è un indice inverso della ricchezza lessicale del corpusl più grande a e più ristretto è il vocabolario del corpus

§ per Zipf, a»1

azCzf =)(

La Legge di Zipf

5

La Legge di Zipfl Per a = 1, vale che

f(1) = Cf(2) = C/2f(3) = C/3 …

l in generale, al crescere del rango, lo scarto (C/n)-(C/n+1) tra la frequenza della parola di rango n e la frequenza della parola di rango n-1 diminuisce progressivamentel all’aumentare del rango la frequenza diminuisce sempre più lentamente

l La Legge di Zipf prevede un decremento progressivo della frequenza di una parola proporzionale all’aumentare del suo rangol la parola di rango 2 dovrebbe ricorrere la metà delle volte della parola

più frequentel parole che appaiono molto in basso nella lista di Zipf tendono ad avere

frequenze similil la coda della curva di Zipf conterrà dunque tante parole con frequenza 1:

gli hapax

6

y = 6185.5x-1.0418

1

10

100

1000

10000

1 10 100 1000 10000

rango

frequenza

andamento teorico previsto alla Legge di ZipfC = 6185a=1,04

andamento del rapporto tra rango e frequenza osservato in Pinocchio

La Legge di Zipfl La Legge di Zipf in doppia scala logaritmica

7

I logaritmi

l Il logaritmo in base a di un numero x è l'esponenteda dare ad a per ottenere xl se x = ay, allora y = loga xl logaa = 1l loga1 = 0 (il log in qualsiasi base di 1 è 0)

8

l Alcune proprietà dei logaritmil logm (a * b) = logma + logm bl logm (a/b) = logma - logm b

l La scala logaritmica ingrandisce le distanze tra i punti vicini allo zero e comprime le stesse distanze tra punti lontani dallo zero

l trasforma rapporti costanti tra distanze in differenze costantil 10/1 = 1000/100 Þ log(10) – log(1) = log(1000)-log(100)

01 20,1

0 1-1

3 4 10010

2

5 6 7 8 90

1 20,1

0 1-1

3 4 10010

2

5 6 7 8 9

I logaritmi

9

l La legge di Zipf in doppia scala logaritmica diventa l’equazione di una retta (per le proprietà dei logaritmi)

l l’intercetta sull’asse y corrisponde a log (C)l log della frequenza massima nel corpus

l l’intercetta dell’asse x corrisponde al rango in cui incominciamo a trovare hapax

l la pendenza della retta è data da a (coefficiente angolare)l dipende dalla ricchezza lessicale del testo

l In scala logaritmica f(1)-f(10) = f(100)-f(10) = f(1000)-f(100), ecc.l secondo la legge di Zipf le frequenze per parole con ranghi alti

decrescono molto più lentamente

zaCzf loglog)(log −=

La Legge di Zipf

10

Equazione della retta

l m è il coefficiente angolare e determina la pendenza(positiva o negativa) di una retta

l q è l’intercetta, ovvero il punto in cui la retta incrocia l’asse yl se q = 0, la retta passa per

l’origine

qmxy +=

11

La Legge di Zipfl La Legge di Zipf è una legge teorica della distribuzione delle

parole in un testo, che approssima la distribuzione realel maggiori discostamenti nella testa e nella coda della distribuzionel nelle distribuzioni reali, la coda della retta è costituita da gradoni

sempre più larghil esistono più parole con la stessa frequenza e il numero di queste

aumenta all’aumentare del rango

l In ogni testo (e in ogni lingua) la distribuzione delle parole approssima la Legge di Zipfl la retta varia nella pendenza e nelle intercette

l la Legge di Zipf definisce una famiglia di distribuzioni che dipendono da C e da a

12

Invarianza di scalal La Legge di Zipf fa parte delle leggi di potenza (power

laws)l y=axk

l cf. frattali (Mandelbrot)l Le leggi di potenza godono della proprietà di invarianza

di scalal moltiplicando l’argomento per un fattore di scala c, il

valore della funzione viene moltiplicato di un fattore ck

l f(cx) = a(cx)k=ckf(x)l es. funzione lineare: y = 3x => 2(y) = 3(2x)

l Ampliando la dimensione del testo, si ha solo un cambiamento di scala, che non muta la forma della distribuzione di Zipf

13

La Legge di Zipf e l’invarianza di scala

Brown BNC

ukWaCWikipedia

14

l La frequenza di una parola è correlata ad altre sue proprietàl le parole più frequenti sono più corte (l = lunghezza in caratteri)

l le parole più frequenti hanno più significati (s = significati di una parola)

l Altri eventi nel mondo si distribuiscono secondo la Legge di Zipfl accessi ai siti webl numero degli abitanti per cittàl distribuzione del redditol reti sociali (social networks)

vv lf 1∝

vv fs ∝

Altre Leggi di Zipf

15

l Secondo Zipf la distribuzione delle parole nei testi riflette un principio di economia nella comunicazionel parlante e ascoltatore cercano entrambi di minimizzare i

loro sforzil lo sforzo del parlante è ridotto avendo un piccolo vocabolario di

parole molto comuni (= frequenti)l lo sforzo dell’ascoltatore è ridotto avendo un grande

vocabolario di parole più rare (e meno ambigue)l la Legge di Zipf rappresenterebbe il compromesso

migliore (= più economico) tra queste due opposte tendenze

Intepretare la Legge di Zipf

16

I dati linguistici sono rari (data sparseness)

La Legge di Zipsle conseguenze per la linguistica computazionale

l Ci sono sempre poche parole molto frequentil corrispondono solitamente a parole appartenenti a “classi chiuse”

(articoli, preposizioni, congiunzioni, ecc.)l Ci sono sempre moltissime parole a bassa frequenza e hapax

(LNRE, Large Number of Rare Events)l sono parole “piene” (nomi, verbi, ecc.), solitamente estremamente

informative sul contenuto di un documentol il vocabolario è aperto

l nuovi temi e concetti portano a introdurre nuove parolel produttività lessicale

§ nuovi termini§ derivati morfologici, ecc.

17

La dinamica del vocabolariol Studiamo l’andamento della crescita lessicale all’aumentare del

testol come aumenta |VC| all’aumentare di |C|

l Il testo come flusso di parolel Il testo può essere visto come una sequenza v1, v2, …,vi, … v|C| di

parole indicizzate per posizionel i può essere interpretato come associato a un dato istante

temporale,§ vi è la parola che troviamo leggendo sequenzialmente il testo all’istante i

l VC(i) è il vocabolario delle prime i parole di C (i£|C|)l |VC(i)| è la grandezza del vocabolario usato nelle prime i parole del

testo l fornisce il tasso di crescita del vocabolario all’aumentare del corpus

18

y = 3.2824x0.6984

0

1000

2000

3000

4000

5000

6000

7000

0 10000 20000 30000 40000 50000 60000

lunghezza testo

gra

nd

ezza

vo

cab

ola

rio

con punteggiatura senza punteggiatura

Potenza (con punteggiatura)

La crescita del vocabolario in PInocchio|VC(i)|

0

500

1000

1500

2000

2500

3000

3500

0 10000 20000 30000 40000 50000

media hapax hapax osservati

La crescita degli hapax in Pinocchionumero di hapax

La dinamica del vocabolario

19

La dinamica del vocabolariol Forte correlazione tra aumento della lunghezza del

corpus e aumento del vocabolariol Il vocabolario VC di un corpus cresce in maniera non

lineare rispetto a |C|l |VC(i)| non cresce sempre, poiché esistono parole che devono

ripetersi più o meno regolarmente§ parole grammaticali,§ principi di coerenza lessicale§ andamento narrativo, ecc.

l la curva di |VC(i)| non ha mai un asintoto orizzontalel il vocabolario non smette mai di crescere

§ aumenta sempre più lentamente rispetto al crescere delle dimensioni del corpus

l Media aritmetica

l Medianal la modalità di un’osservazione che divide la distribuzione in due

parti uguali

l La media è un indicatore molto sensibile ai valori “estremi”l 1,2,3,4,5 --> media = 3; mediana =3l 1,2,3,4,70 --> media = 16; mediana =3

20

n

x

nxxx

n

i in ∑ ==+++

= 121 ...x

Indicatori di tendenza centrale

me(x) =n +12

21

n

xxn

i i∑ =−

= 12)(

σ

media

scartiscarti

Indicatori di dispersionel Deviazione standard (s, scarto quadratico medio)

l indice statistico di “dispersione” che misura la variabilità dei dati di una distribuzione (quanto i singoli dati differiscono rispetto alla media)l s2 è la varianza della variabile

Distribuzione normalevalori frequenza freq. relativa

%1.50-1.55 1 3.7

1.56-1.60 3 11.1

1.61-1.65 6 22.2

1.66-1.70 8 29.6

1.71-1.75 5 18.5

1.76-1.80 3 11.1

1.81-1.85 1 3.7

Misurazione dell’altezza di un campione di 27 soggetti

media = 1.68

mediana = 1.68

Distribuzione normale

istogramma della distribuzione

dell’altezza dei soggetti

24

Distribuzione normale (Gaussiana)l Famiglia di distribuzioni delle frequenze relative (probabilità) dei

valori di una variabile (continua)l x = valori della variabilel y = frequenza relativa (probabilità) di ciascun valore

25

Distribuzioni statistiche distribuzione normale (Gaussiana)l Distribuzioni simmetriche rispetto alla media e con forma a

campanal ha il massimo in corrispondenza della media

l i valori della distribuzione si addensano intorno al valor mediol ogni distribuzione è completamente definita da due parametri:

media e σl σ = definisce l’ampiezza della campana

l l’area sottesa dalla curva è uguale a 1l Pochi valori “estremi”: la maggior parte dei valori tende a

raggrupparsi intorno al valor mediol 68% dei valori della variabile cade nell’intervallo µ±sl 95% dei valori della variabile cade nell’intervallo µ±2sl 99,7% dei valori della variabile cade nell’intervallo µ±3s

26

Distribuzioni statistiche distribuzione normale (Gaussiana)

l Distribuzione tipica di molti variabili relative a fenomeni naturali e comportamentali (es. peso, altezza, ecc.) e socialil i valori si concentrano intorno alla media, mentre i

valori estremi sono estremamente improbabilil gli errori di misura (errori accidentali) si distribuiscono

normalmente

0

0,03

0,06

0,09

0,12

0,15

75 80 85 90 95 100 105

n=40

0

0,03

0,06

0,09

0,12

0,15

75 80 85 90 95 100 105

n=160

0

0,03

0,06

0,09

0,12

0,15

75 80 85 90 95 100 105

n=5120

distribuzione normale degli errori di misura

27

Data una variabile x e una popolazione P in cui x ha media μx e deviazione standard σx - indipendentemente dalla distribuzione di x nella popolazione

- le medie di x in una serie di campioni casuali di dimensione n estratti dalla stessa popolazione si distribuiscono al crescere di n secondo una curva normale con media μx e con deviazione standard uguale a σx/Ön

Il Teorema del Limite Centrale

l Al crescere della dimensione di un campione, la media di una variabile misurata sui campioni converge al valore della media della popolazionel es. la distribuzione delle medie campionarie della lunghezza delle parole

tipo (in caratteri) approssima una gaussianal La media è un buon indicatore statistico che permette di fare

inferenze da campioni ai parametri della popolazionel la media della popolazione che si vuole stimare è molto vicina alla media

dei valori nei campioni estratta