Laboratorio di analisi di dati linguistici

39
Laboratorio di analisi di dati linguistici Laurea specialistica in Linguistica Teorica e Applicata, Università di Pavia Andrea Sansò [email protected] A.A. 2005-2006 Corso progredito 10 CFU

description

Laboratorio di analisi di dati linguistici. Laurea specialistica in Linguistica Teorica e Applicata, Università di Pavia Andrea Sansò [email protected] A.A. 2005-2006 Corso progredito 10 CFU. Laboratorio di analisi di risorse linguistiche. 2. Elementi di statistica - PowerPoint PPT Presentation

Transcript of Laboratorio di analisi di dati linguistici

Page 1: Laboratorio di analisi di dati linguistici

Laboratorio di analisi di dati linguistici

Laurea specialistica in Linguistica Teorica e Applicata, Università di Pavia

Andrea Sansò[email protected]

A.A. 2005-2006

Corso progredito

10 CFU

Page 2: Laboratorio di analisi di dati linguistici

Laboratorio di analisi di risorse linguistiche

2.Elementi di statistica

Concetti di base: popolazione, type/token, frequenze e distribuzioni, variabilità e dispersione; la legge di Zipf.

Nozioni avanzate: Il test del 2; ANOVA (ANalysis Of Variance).

Page 3: Laboratorio di analisi di dati linguistici

Nozioni di base

Popolazione: insieme di individui o unità statistiche di cui vogliamo studiare e caratterizzare la distribuzione rispetto a certe peculiarità di interesse.

Problema: nel caso di una lingua la popolazione è un concetto più difficile (v. sopra)

Parole unità vs. parole tipo: i token (o parole unità) sono tutte le unità atomiche del testo, ossia ogni parola distinta, individuabile univocamente in base alla sua posizione nel testo; i types (o parole tipo) rappresentano un livello di astrazione superiore; se in un testo la parola un ricorre n volte, diremo che la parola tipo un ha n occorrenze.

Page 4: Laboratorio di analisi di dati linguistici

Nozioni di base

Frequenza: in statistica si intende con frequenza il rapporto tra la frequenza assoluta ni e il numero totale |T| di unità osservate nel testo T

Fi = ni/|T|

Media aritmetica: si chiama media aritmetica di una serie di valori espressi da una classe di unità il risultato della somma di questi valori divisa per il numero di unità della classe.

Page 5: Laboratorio di analisi di dati linguistici

Il vocabolario di un testo e il rapporto type/token

Il vocabolario VT di un testo T è l’insieme di parole tipo che ricorrono in T.

Il rapporto type/token in un vocabolario di un testo è dato dalla seguente formula: VT/T, ed è un valore compreso sempre tra 0 e 1. Il valore massimo 1 si ottiene quando il testo in questione è interamente formato da hapax (caso possibile solo nei testi molto brevi).

Page 6: Laboratorio di analisi di dati linguistici

La legge di Zipf

E’ una delle leggi quantitative più note e interessanti dell’uso linguistico. Ordinando le parole di un testo per valori decrescenti di frequenza, Zipf osservò che esiste una relazione matematica costante tra la posizione che una parola occupa all’interno della lista (o rango della parola) e la sua frequenza.

f(z) = C/z

La frequenza di una parola di rango z e data dal rapporto fra la costante C e dal rango z. La costante C corrisponde alla frequenza della parola di rango 1.

Page 7: Laboratorio di analisi di dati linguistici

Il test del chi-quadro

Si tratta di un modello di valutazione dell’indipendenza di un dato da una variabile; se il risultato del test è inferiore a certi valori, si deve concludere che la variabile non influisce su una data distribuzione, e bisogna formulare un’altra ipotesi per spiegare i dati. Viene utilizzato spesso per valutare la distribuzione di fenomeni linguistici rispetto a una variabile linguistica o extralinguistica.

Page 8: Laboratorio di analisi di dati linguistici

Il test del chi-quadro

Esempio:

Abbiamo due gruppi di apprendenti di italiano; il gruppo A è composto da studenti spagnoli, il gruppo B da studenti tedeschi. Supponiamo di voler valutare la competenza lessicale di ciascuno dei due gruppi: dato un certo test (ad es. un esercizio di composizione), gli errori lessicali compiuti dagli ispanofoni sono in numero minore di quelli compiuti dai germanofoni. È ragionevole ipotizzare che ci sia un’influenza della L1 sul grado di correttezza della performance? Esiste un sistema statisticamente corretto per valutare questa ipotesi.

Page 9: Laboratorio di analisi di dati linguistici

Il test del chi-quadro

Esempio (continua):

È bene chiarire subito che il calcolo del chi-quadro non ci dice nulla sulla efficacia del test o del metodo di raccolta dati (nel caso specifico non ci dice se l’esercizio di composizione era ben concepito): esso opera per così dire a valle, su una data distribuzione espressa come una serie di dati numerici – senza alcuna valutazione di tipo qualitativo! È però in grado di stabilire se la distribuzione è casuale – e cioè se non esiste un’influenza della L1 sulla performance – ovvero se è statisticamente significativa.

Page 10: Laboratorio di analisi di dati linguistici

Il test del chi-quadro

Esempio (continua): Tabella 1 – Frequenze osservate

0 errori 1 errore da 2 a 6 errori totale riga

Gruppo A 7 7 16 30

Gruppo B 13 11 6 30

Totale colonna 20 18 22 60

Page 11: Laboratorio di analisi di dati linguistici

Il test del chi-quadro

Esempio (continua):

Il problema statistico da risolvere è il seguente: data la distribuzione riportata nella tabella precedente, possiamo concludere che le differenze nel numero di errori sono dovute alla variabile presa in esame o dobbiamo invece concludere che sono casuali (ossia, più tecnicamente, che avremmo la stessa distribuzione se scegliessimo a caso due gruppi all’interno della stessa popolazione)? Per procedere al test del chi-quadro dobbiamo innanzitutto formulare la cosiddetta ipotesi nulla: in questo caso l’ipotesi nulla è che il numero di errori è indipendente dalla L1 dei soggetti.

Page 12: Laboratorio di analisi di dati linguistici

Il test del chi-quadro

Esempio (continua):

Se l’ipotesi nulla è vera, i due gruppi rappresentano due campioni casuali scelti all’interno della stessa popolazione. La popolazione totale nel nostro caso è di 60 individui, e in totale abbiamo 20 individui che non hanno fatto alcun errore. Se il gruppo A fosse stato scelto selezionando 30 individui all’interno di questa popolazione in maniera casuale, quanti individui non avrebbero verosimilmente commesso errori? La risposta è semplice: (20/60) * 30 = 10. Procedendo allo stesso modo calcoliamo quali sono le frequenze attese (expected frequencies) per gli altri sottogruppi (ossia quelli che hanno commesso un solo errore, e quelli che ne hanno commessi da 2 a 6). La formula generale per calcolare le frequenze attese è la seguente:

totale colonna * totale riga / popolazione

Page 13: Laboratorio di analisi di dati linguistici

Il test del chi-quadro

Esempio (continua): Tabella 1 – Frequenze attese

0 errori 1 errore da 2 a 6 errori totale riga

Gruppo A 10 9 11 30

Gruppo B 10 9 11 30

Totale colonna 20 18 22 60

Page 14: Laboratorio di analisi di dati linguistici

Il test del chi-quadro

Esempio (continua):

È a questo punto necessario calcolare il tasso di devianza (ossia il 2) delle frequenze osservate rispetto a quelle attese. Per ogni cella della tabella si esegue il calcolo seguente:

(frequenza osservata – frequenza attesa)2 / frequenza attesa

Ad esempio, considerando il numero di individui del gruppo A che non ha fatto errori (7), otteniamo il tasso di devianza seguente:

(7 – 10)2 / 10 = 0.9

Page 15: Laboratorio di analisi di dati linguistici

Il test del chi-quadro

Esempio (continua): ripetendo l’operazione per tutte le celle otteniamo:

0 errori 1 errore da 2 a 6 errori

Gruppo A 0.9 0.44 2.27

Gruppo B 0.9 0.44 2.27

Tasso totale di devianza (2): 0.9 + 0.9 + 0.44 + 0.44 + 2.27 + 2.27 = 7.22

Page 16: Laboratorio di analisi di dati linguistici

Il test del chi-quadro

Esempio (continua):

A questo punto non resta che calcolare il grado di libertà (d.f.) e confrontare il nostro risultato con una tavola di distribuzioni chi-quadro (vedi fotocopia); se il risultato è maggiore di un certo valore critico (normalmente 0.05 o 0.01 = probabilità di casualità dell’ipotesi nulla pari o inferiore al 5% o all’1%) possiamo rigettare l’ipotesi nulla e concludere che esiste un’influenza della variabile considerata sui risultati osservati. Il grado di libertà si calcola secondo la formula seguente (nel nostro caso è 2):

(numero di colonne – 1) * (numero di righe – 1)

Page 17: Laboratorio di analisi di dati linguistici

Il test del chi-quadro: problemi

In generale il test del chi-quadro funziona solo se tutte le frequenze attese sono sufficientemente grandi ( > 5). Una soluzione a questo problema può essere quella di raggruppare insieme due categorie quando le frequenze attese in ciascuna di esse sono inferiori a 5. Ovviamente perché questo funzioni è necessario motivare questo raggruppamento su basi non statistiche. Nell’esempio concreto che abbiamo illustrato, se, poniamo, la frequenza attesa del gruppo di studenti che ha fatto soltanto un errore è molto bassa, possiamo ricreare una tabella delle distribuzioni con soltanto due categorie (studenti che non hanno fatto errori e studenti che hanno fatto errori). Se invece, poniamo, sono molto pochi sia gli studenti che non hanno fatto errori sia quelli che ne hanno fatti da 2 a 6, il raggruppamento di due categorie non contigue è molto più problematico.

Page 18: Laboratorio di analisi di dati linguistici

Il test del chi-quadro: problemi

Un’altra soluzione è quella di eliminare le celle con frequenze attese molto basse; anche in questo caso non ci sono particolari controindicazioni, a parte il fatto che in questo modo si perdono dettagli importanti.

In ogni caso è bene sempre avvertire il lettore quando si applica il test chi-quadro a dati che presentano, in alcuni casi, frequenze attese molto basse: il valore del test non cambia, ma è da considerarsi cum grano salis, e nuovi dati possono falsificare le generalizzazioni proposte.

Page 19: Laboratorio di analisi di dati linguistici

Il test del chi-quadro: problemi

La correzione di Yate

È un accorgimento che si utilizza quando il grado di libertà (d.f.) è pari a 1 (e cioè quando abbiamo una tabella di distribuzione con due colonne e due righe). Consiste nel sottrarre 0.5 alla differenza fra frequenza attesa e frequenza osservata (ignorando il segno + o -, cioè operando sul valore assoluto), prima di calcolarne il quadrato.

Page 20: Laboratorio di analisi di dati linguistici

Il test del chi-quadro: un esercizio

In una zona remota della Sicilia vivono due comunità piuttosto isolate in due cittadine a pochi km di distanza: Vigata e Fela. Entrambe le comunità parlano due varietà della stessa lingua (il felese). I linguisti hanno condotto svariate indagini sul campo raccogliendo sia testi scritti che registrazioni di parlato di uomini e donne appartenenti alle due comunità notando una serie di fatti interessanti.

Page 21: Laboratorio di analisi di dati linguistici

Il test del chi-quadro: un esercizio

1. L’ordine OV vs VO: i linguisti hanno notato che esistono due ordini basici dell’oggetto e del verbo; hanno anche notato che l’ordine OV è utilizzato esclusivamente nel parlato informale, mentre VO è tipico dello scritto. A Vigata, però, sembra ci sia una tendenza a utilizzare VO anche nel parlato. Questi i dati:

Uso dell’ordine VO a Vigata: 130, di cui nel parlato: 30

Uso dell’ordine VO a Fela: 229, di cui nel parlato: 124

Uso dell’ordine OV nel parlato a Fela: 85

Uso dell’ordine OV nel parlato a Vigata: 36

Sono dati statisticamente significativi? È possibile che nel felese parlato di Vigata ci sia una tendenza verso la normalizzazione, possibilmente sotto la spinta dell’italiano

Page 22: Laboratorio di analisi di dati linguistici

OV VO Totale di riga

Fela 85 124 209

Vigata 36 30 66

Totale di colonna

121 154 275

OV VO

Fela 91.96 117.04

Vigata 29.04 36.96

Deviazione totale: 0.45 + 0.35 + 1.44 + 1.13 = 3.37 (applicata la correzione di Yate), d.f. = 1, p tra 0.10 e 0.05 (= tra 10% e 5%) probabilmente servono più dati!

P indica la percentuale della distribuzione di una tabella chi-quadro che presenta un valore maggiore del valore che abbiamo ottenuto per il 2.

Distribuzione Frequenze attese

Il test del chi-quadro: un esercizio

Page 23: Laboratorio di analisi di dati linguistici

Il test del chi-quadro: un esercizio

2. Donne e uomini: i linguisti hanno registrato il parlato spontaneo di uomini e donne, e hanno notato che in ambedue le comunità le donne tendono a utilizzare di più forme di ammirazione come “Madre Santa!”, mentre gli uomini, che in generale utilizzano meno le espressioni di ammirazione, preferiscono “Padre Santo!”. Questa conclusione è però contestata da altri linguisti, che sostengono che la differenziazione per sesso non è particolarmente significativa, mentre è significativo il fatto che a Fela si utilizzano più espressioni di ammirazione perché la vita è più piacevole; un terzo linguista contesta le conclusioni dei colleghi, e sostiene che si tratta di una distinzione legata all’età degli informanti. L’espressione più arcaica sarebbe “Padre Santo!”, che è la più utilizzata dagli anziani.

Page 24: Laboratorio di analisi di dati linguistici

Il test del chi-quadro: un esercizio

2. Donne e uomini: i dati rilevanti sono i seguenti:

Uso di “Madre Santa!” a Fela: 65 (di cui uomini: 20, donne: 45; giovani: 39, anziani: 26)

Uso di “Padre Santo!” a Fela: 43 (di cui uomini: 27, donne 16; giovani: 30, anziani: 13)

Uso di “Madre Santa!” a Vigata: 18 (di cui uomini: 6, donne: 12; giovani: 10, anziani: 8)

Uso di “Padre Santo!” a Vigata: 26 (di cui uomini: 15, donne: 11; giovani: 17, anziani: 9)

È significativa la distinzione su base geografica? E quella tra uomini e donne? Oppure è significativa la distinzione per età?

Page 25: Laboratorio di analisi di dati linguistici

Il test del chi-quadro: un esercizio

Fela Vigata Totale di riga

Struttura 1 65 18 83

Struttura 2 43 26 69

Totale di colonna

108 44 152

Fela Vigata

Struttura 1 58.97 24.03

Struttura 2 49.03 19.97

Str. 1 = “Madre Santa!”; str. 2 = “Padre Santo!”. Deviazione totale: 0.51 + 0.62 + 1.27 + 1.53 = 3.93 (applicata la correzione di Yate), d.f. = 1, p < 0.05 (= 5%) l’ipotesi della differenziazione su base geografica è plausibile!

Distribuzione Frequenze attese

Page 26: Laboratorio di analisi di dati linguistici

Il test del chi-quadro: un esercizio

Uomini Donne Totale di riga

Struttura 1

26 (20 + 6) 57 (45 + 12) 83

Struttura 2

42 (27 + 15) 27 (16 + 11) 69

Totale di colonna

68 84 152

Uomini Donne

Struttura 1 37.13 45.87

Struttura 2 30.87 38.13

Deviazione totale: 3.04 + 2.46 + 3.66 + 2.96 = 11.42 (applicata la correzione di Yate), d.f. = 1, p < 0.001 (= 0.1%) la distribuzione per sesso è quella che dà i migliori risultati!

Distribuzione Frequenze attese

Page 27: Laboratorio di analisi di dati linguistici

Il test del chi-quadro: un esercizio

Giovani Anziani Totale di riga

Struttura 1

49 (39 + 10) 34 (26 + 8) 83

Struttura 2

47 (10 + 17) 22 (13 + 9) 69

Totale di colonna

96 56 152

Giovani Anziani

Struttura 1 52.42 30.58

Struttura 2 43.58 25.42

Deviazione totale: 0.16 + 0.28 + 0.20 + 0.34 = 0.98 (applicata la correzione di Yate), d.f. = 1, p tra 0.25 e 0.50 (= 25%/50%) L’ipotesi nulla è plausibile (ovvero, la distinzione per età è casuale)! Si può comunque unire i dati delle tre ricerche e concludere che la classe di individui che con più probabilità produrrà l’espressione di ammirazione “Madre Santa!” è quella costituita dalle donne giovani di Fela.

Distribuzione Frequenze attese

Page 28: Laboratorio di analisi di dati linguistici

Il test del chi-quadro

E per finire:www.georgetown.edu/faculty/ballc/webtools/web_chi.html

Un sito che permette di calcolare il chi-quadro compilando delle tabelle online! (N.B.: non applica la correzione di Yate!)

Page 29: Laboratorio di analisi di dati linguistici

Variabilità / dispersione

Consideriamo il caso – un po’ estremo a dire il vero – di due gruppi di soggetti sottoposti a un test di conoscenza della lingua inglese. Supponiamo che in un gruppo di 50 soggetti – scelti sulla base di un qualche criterio – tutti hanno totalizzato lo stesso punteggio, ad esempio 8/10 e in un altro gruppo, sempre di 50 soggetti, 25 hanno totalizzato 10/10 e 25 hanno totalizzato 6/10. La media aritmetica dei punteggi totalizzati è uguale, ma i due gruppi sono significativamente diversi. La misura della variabilità (o dispersione) ci dice come i punteggi di ciascun gruppo si comportano rispetto al valore tipico osservato. Quanto maggiore è la variabilità all’interno di una popolazione, tanto maggiori saranno le dimensioni richieste del campione per ottenere una informazione soddisfacente.

Page 30: Laboratorio di analisi di dati linguistici

Variabilità / dispersione

La media aritmetica calcolata su un campione è un indicatore abbastanza accurato della media aritmetica dei valori di una data variabile in tutta la popolazione. Ma in certi casi potremmo aver bisogno di qualcosa di più. Potremmo per esempio aver bisogno di stabilire un range entro cui i valori di una data popolazione si collocano.

Per prima cosa dobbiamo calcolare la varianza (variance) all’interno della popolazione.

Page 31: Laboratorio di analisi di dati linguistici

Variabilità / dispersione

Supponiamo di avere un testo e di volere misurare la lunghezza media delle frasi (in numero di parole). Otteniamo un valore aritmetico medio che chiamiamo Xm. Per ogni frase X1, X2, …, Xn calcoliamo la differenza rispetto al valore medio:

d1 = X1 – Xm, d2 = X2 –Xm, ecc.

Se sommiamo semplicemente i valori ottenuti otteniamo zero per ogni campione (valori negativi e positivi si annullano a vicenda). Sommiamo allora i quadrati di queste differenze (il quadrato è sempre un numero positivo) e dividiamo questo totale per (n – 1): otteniamo così la varianza V all’interno della popolazione (che può essere definita come la media delle singole variazioni al quadrato). Estraendo la radice quadrata di questo valore otteniamo la deviazione standard all’interno della popolazione, che avrà la stessa unità di misura dei nostri dati (in questo caso il numero di parole per frase).

Page 32: Laboratorio di analisi di dati linguistici

Variabilità / dispersione

Varianza:

V = idi / n – 1

“La varianza V all’interno di un campione i è uguale alla sommatoria dei quadrati delle differenze tra i (punteggi/valori dei) soggetti nel campione i e il valore medio osservato nel campione, il tutto diviso per il numero di soggetti in i meno uno”

Deviazione standard = radice quadrata di V

Page 33: Laboratorio di analisi di dati linguistici

Analysis of variance: il test ANOVA

Supponiamo di aver osservato che il numero di errori in un test di inglese dipende dalla provenienza geografica dei soggetti: ad esempio, gli studenti europei si comportano meglio di quelli provenienti dal nord africa, i quali a loro volta ottengopno punteggi più alti degli studenti asiatici e sudamericani. Per verificare questa ipotesi su base statistica possiamo ricorrere al test del chi-quadro, ma possiamo anche utilizzare un test più sofisticato, che risponde al nome di ANOVA.

Page 34: Laboratorio di analisi di dati linguistici

Analysis of variance: il test ANOVA

Formati dei campioni di studenti (diciamo 4 campioni di 10 studenti ciascuno) troveremo molto probabilmente che i punteggi dei singoli gruppi sono simili tra loro, e che l’intervallo fra il punteggio più basso e quello più alto degli studenti di un campione include normalmente la maggior parte dei punteggi di ogni singolo campione. Tuttavia, è possibile che in dettaglio ogni campione abbia comportamenti più diversificati. La misura della media aritmetica non basta, perché selezionati a caso due campioni di 10 studenti all’interno della popolazione totale (= 40 studenti) è verosimile che essi abbiano due valori medi differenti.

Page 35: Laboratorio di analisi di dati linguistici

Analysis of variance: il test ANOVA

Europe South America

North Africa Far East

10 33 26 26

19 21 25 21

24 25 19 25

17 32 31 22

29 16 15 11

37 16 25 35

32 20 23 18

29 13 32 12

22 23 20 22

31 20 15 21

Total 250 219 231 213

mean 25,0 21,9 23,1 21,3

Page 36: Laboratorio di analisi di dati linguistici

Analysis of variance: il test ANOVA

Per verificare se la nostra ipotesi di partenza è sbagliata (e cioè se è vera l’ipotesi nulla che non esiste alcun effetto della provenienza geografica sulla performance), dobbiamo innanzitutto calcolare la varianza stimata within-samples (Vw, within-samples estimate of variance), la cui formula generale è:

Vw = (n1 – 1)Vs1 + (n2 – 1)Vs2 + … + (nn – 1)Vsn

/ (n1 + n2 + … + nn) – n

Ossia la somma della varianza di ogni singolo campione (Vs1, Vs2, …, Vsn), moltiplicata per i gradi di libertà di ogni campione (nel nostro caso 10 – 1 = 9), il tutto diviso per la totalità della popolazione meno 1 per ogni campione (nel nostro caso 4).

Page 37: Laboratorio di analisi di dati linguistici

Analysis of variance: il test ANOVA

Vw = (n1 – 1)Vs1 + (n2 – 1)Vs2 + … + (nn – 1)Vsn

/ (n1 + n2 + … + nn) – n

Vw = (9x66,222) + (9x43,655) + (9x34,988) + (9 x

47,567) / 36 = 48,11

Dopo aver ottenuto questo valore, dobbiamo calcolare un altro valore, chiamato between-groups estimate of variance (Vb), che è anch’esso una stima della varianza all’interno della popolazione. Otteniamo questo valore calcolando innanzitutto la varianza delle medie aritmetiche. Il valore che otteniamo è pari a 2,662. Moltiplichiamo questo valore per il numero di soggetti in ogni campione (nel nostro caso 10) e otteniamo Vb = 26,62.

Page 38: Laboratorio di analisi di dati linguistici

Analysis of variance: il test ANOVA

Se l’ipotesi nulla è vera, Vb tenderà ad essere più grande di Vw. Il rapporto tra Vb e Vw è espresso come

F = Vb / Vw

Nel nostro caso tale valore è uguale a 26,62 / 48,11 = 0,55. I gradi di libertà di F sono 3 e 36. Controlliamo su una tabella il valore critico di significatività al 5% per F3,36 e vediamo che è di poco più grande di 2,84, perciò l’ipotesi nulla è vera e non ci sono motivi per ritenere che ci sia una differenza tra i gruppi.

Page 39: Laboratorio di analisi di dati linguistici

Analysis of variance: il test ANOVA

Anche in questo caso c’è un sito che fa il lavoro sporco:

http://www.physics.csbsju.edu/stats/anova.html