Laboratorio di analisi di dati linguistici

Laboratorio di analisi di dati linguistici

Laurea specialistica in Linguistica Teorica e Applicata, Università di Pavia

Andrea Sansò[email protected]

A.A. 2005-2006

Corso progredito

10 CFU

Laboratorio di analisi di risorse linguistiche

2.Elementi di statistica

Concetti di base: popolazione, type/token, frequenze e distribuzioni, variabilità e dispersione; la legge di Zipf.

Nozioni avanzate: Il test del 2; ANOVA (ANalysis Of Variance).

Nozioni di base

Popolazione: insieme di individui o unità statistiche di cui vogliamo studiare e caratterizzare la distribuzione rispetto a certe peculiarità di interesse.

Problema: nel caso di una lingua la popolazione è un concetto più difficile (v. sopra)

Parole unità vs. parole tipo: i token (o parole unità) sono tutte le unità atomiche del testo, ossia ogni parola distinta, individuabile univocamente in base alla sua posizione nel testo; i types (o parole tipo) rappresentano un livello di astrazione superiore; se in un testo la parola un ricorre n volte, diremo che la parola tipo un ha n occorrenze.

Nozioni di base

Frequenza: in statistica si intende con frequenza il rapporto tra la frequenza assoluta ni e il numero totale |T| di unità osservate nel testo T

Fi = ni/|T|

Media aritmetica: si chiama media aritmetica di una serie di valori espressi da una classe di unità il risultato della somma di questi valori divisa per il numero di unità della classe.

Il vocabolario di un testo e il rapporto type/token

Il vocabolario VT di un testo T è l’insieme di parole tipo che ricorrono in T.

Il rapporto type/token in un vocabolario di un testo è dato dalla seguente formula: VT/T, ed è un valore compreso sempre tra 0 e 1. Il valore massimo 1 si ottiene quando il testo in questione è interamente formato da hapax (caso possibile solo nei testi molto brevi).

La legge di Zipf

E’ una delle leggi quantitative più note e interessanti dell’uso linguistico. Ordinando le parole di un testo per valori decrescenti di frequenza, Zipf osservò che esiste una relazione matematica costante tra la posizione che una parola occupa all’interno della lista (o rango della parola) e la sua frequenza.

f(z) = C/z

La frequenza di una parola di rango z e data dal rapporto fra la costante C e dal rango z. La costante C corrisponde alla frequenza della parola di rango 1.

Il test del chi-quadro

Si tratta di un modello di valutazione dell’indipendenza di un dato da una variabile; se il risultato del test è inferiore a certi valori, si deve concludere che la variabile non influisce su una data distribuzione, e bisogna formulare un’altra ipotesi per spiegare i dati. Viene utilizzato spesso per valutare la distribuzione di fenomeni linguistici rispetto a una variabile linguistica o extralinguistica.


Esempio:

Abbiamo due gruppi di apprendenti di italiano; il gruppo A è composto da studenti spagnoli, il gruppo B da studenti tedeschi. Supponiamo di voler valutare la competenza lessicale di ciascuno dei due gruppi: dato un certo test (ad es. un esercizio di composizione), gli errori lessicali compiuti dagli ispanofoni sono in numero minore di quelli compiuti dai germanofoni. È ragionevole ipotizzare che ci sia un’influenza della L1 sul grado di correttezza della performance? Esiste un sistema statisticamente corretto per valutare questa ipotesi.


Esempio (continua):

È bene chiarire subito che il calcolo del chi-quadro non ci dice nulla sulla efficacia del test o del metodo di raccolta dati (nel caso specifico non ci dice se l’esercizio di composizione era ben concepito): esso opera per così dire a valle, su una data distribuzione espressa come una serie di dati numerici – senza alcuna valutazione di tipo qualitativo! È però in grado di stabilire se la distribuzione è casuale – e cioè se non esiste un’influenza della L1 sulla performance – ovvero se è statisticamente significativa.


Esempio (continua): Tabella 1 – Frequenze osservate

0 errori 1 errore da 2 a 6 errori totale riga

Gruppo A 7 7 16 30

Gruppo B 13 11 6 30

Totale colonna 20 18 22 60


Esempio (continua):

Il problema statistico da risolvere è il seguente: data la distribuzione riportata nella tabella precedente, possiamo concludere che le differenze nel numero di errori sono dovute alla variabile presa in esame o dobbiamo invece concludere che sono casuali (ossia, più tecnicamente, che avremmo la stessa distribuzione se scegliessimo a caso due gruppi all’interno della stessa popolazione)? Per procedere al test del chi-quadro dobbiamo innanzitutto formulare la cosiddetta ipotesi nulla: in questo caso l’ipotesi nulla è che il numero di errori è indipendente dalla L1 dei soggetti.


Esempio (continua):

Se l’ipotesi nulla è vera, i due gruppi rappresentano due campioni casuali scelti all’interno della stessa popolazione. La popolazione totale nel nostro caso è di 60 individui, e in totale abbiamo 20 individui che non hanno fatto alcun errore. Se il gruppo A fosse stato scelto selezionando 30 individui all’interno di questa popolazione in maniera casuale, quanti individui non avrebbero verosimilmente commesso errori? La risposta è semplice: (20/60) * 30 = 10. Procedendo allo stesso modo calcoliamo quali sono le frequenze attese (expected frequencies) per gli altri sottogruppi (ossia quelli che hanno commesso un solo errore, e quelli che ne hanno commessi da 2 a 6). La formula generale per calcolare le frequenze attese è la seguente:

totale colonna * totale riga / popolazione


Esempio (continua): Tabella 1 – Frequenze attese

0 errori 1 errore da 2 a 6 errori totale riga

Gruppo A 10 9 11 30

Gruppo B 10 9 11 30

Totale colonna 20 18 22 60


Esempio (continua):

È a questo punto necessario calcolare il tasso di devianza (ossia il 2) delle frequenze osservate rispetto a quelle attese. Per ogni cella della tabella si esegue il calcolo seguente:

(frequenza osservata – frequenza attesa)2 / frequenza attesa

Ad esempio, considerando il numero di individui del gruppo A che non ha fatto errori (7), otteniamo il tasso di devianza seguente:

(7 – 10)2 / 10 = 0.9


Esempio (continua): ripetendo l’operazione per tutte le celle otteniamo:

0 errori 1 errore da 2 a 6 errori

Gruppo A 0.9 0.44 2.27

Gruppo B 0.9 0.44 2.27

Tasso totale di devianza (2): 0.9 + 0.9 + 0.44 + 0.44 + 2.27 + 2.27 = 7.22


Esempio (continua):

A questo punto non resta che calcolare il grado di libertà (d.f.) e confrontare il nostro risultato con una tavola di distribuzioni chi-quadro (vedi fotocopia); se il risultato è maggiore di un certo valore critico (normalmente 0.05 o 0.01 = probabilità di casualità dell’ipotesi nulla pari o inferiore al 5% o all’1%) possiamo rigettare l’ipotesi nulla e concludere che esiste un’influenza della variabile considerata sui risultati osservati. Il grado di libertà si calcola secondo la formula seguente (nel nostro caso è 2):

(numero di colonne – 1) * (numero di righe – 1)

Il test del chi-quadro: problemi

In generale il test del chi-quadro funziona solo se tutte le frequenze attese sono sufficientemente grandi ( > 5). Una soluzione a questo problema può essere quella di raggruppare insieme due categorie quando le frequenze attese in ciascuna di esse sono inferiori a 5. Ovviamente perché questo funzioni è necessario motivare questo raggruppamento su basi non statistiche. Nell’esempio concreto che abbiamo illustrato, se, poniamo, la frequenza attesa del gruppo di studenti che ha fatto soltanto un errore è molto bassa, possiamo ricreare una tabella delle distribuzioni con soltanto due categorie (studenti che non hanno fatto errori e studenti che hanno fatto errori). Se invece, poniamo, sono molto pochi sia gli studenti che non hanno fatto errori sia quelli che ne hanno fatti da 2 a 6, il raggruppamento di due categorie non contigue è molto più problematico.


Un’altra soluzione è quella di eliminare le celle con frequenze attese molto basse; anche in questo caso non ci sono particolari controindicazioni, a parte il fatto che in questo modo si perdono dettagli importanti.

In ogni caso è bene sempre avvertire il lettore quando si applica il test chi-quadro a dati che presentano, in alcuni casi, frequenze attese molto basse: il valore del test non cambia, ma è da considerarsi cum grano salis, e nuovi dati possono falsificare le generalizzazioni proposte.


La correzione di Yate

È un accorgimento che si utilizza quando il grado di libertà (d.f.) è pari a 1 (e cioè quando abbiamo una tabella di distribuzione con due colonne e due righe). Consiste nel sottrarre 0.5 alla differenza fra frequenza attesa e frequenza osservata (ignorando il segno + o -, cioè operando sul valore assoluto), prima di calcolarne il quadrato.

Il test del chi-quadro: un esercizio

In una zona remota della Sicilia vivono due comunità piuttosto isolate in due cittadine a pochi km di distanza: Vigata e Fela. Entrambe le comunità parlano due varietà della stessa lingua (il felese). I linguisti hanno condotto svariate indagini sul campo raccogliendo sia testi scritti che registrazioni di parlato di uomini e donne appartenenti alle due comunità notando una serie di fatti interessanti.


1. L’ordine OV vs VO: i linguisti hanno notato che esistono due ordini basici dell’oggetto e del verbo; hanno anche notato che l’ordine OV è utilizzato esclusivamente nel parlato informale, mentre VO è tipico dello scritto. A Vigata, però, sembra ci sia una tendenza a utilizzare VO anche nel parlato. Questi i dati:

Uso dell’ordine VO a Vigata: 130, di cui nel parlato: 30

Uso dell’ordine VO a Fela: 229, di cui nel parlato: 124

Uso dell’ordine OV nel parlato a Fela: 85

Uso dell’ordine OV nel parlato a Vigata: 36

Sono dati statisticamente significativi? È possibile che nel felese parlato di Vigata ci sia una tendenza verso la normalizzazione, possibilmente sotto la spinta dell’italiano

OV VO Totale di riga

Fela 85 124 209

Vigata 36 30 66

Totale di colonna

121 154 275

OV VO

Fela 91.96 117.04

Vigata 29.04 36.96

Deviazione totale: 0.45 + 0.35 + 1.44 + 1.13 = 3.37 (applicata la correzione di Yate), d.f. = 1, p tra 0.10 e 0.05 (= tra 10% e 5%) probabilmente servono più dati!

P indica la percentuale della distribuzione di una tabella chi-quadro che presenta un valore maggiore del valore che abbiamo ottenuto per il 2.

Distribuzione Frequenze attese



2. Donne e uomini: i linguisti hanno registrato il parlato spontaneo di uomini e donne, e hanno notato che in ambedue le comunità le donne tendono a utilizzare di più forme di ammirazione come “Madre Santa!”, mentre gli uomini, che in generale utilizzano meno le espressioni di ammirazione, preferiscono “Padre Santo!”. Questa conclusione è però contestata da altri linguisti, che sostengono che la differenziazione per sesso non è particolarmente significativa, mentre è significativo il fatto che a Fela si utilizzano più espressioni di ammirazione perché la vita è più piacevole; un terzo linguista contesta le conclusioni dei colleghi, e sostiene che si tratta di una distinzione legata all’età degli informanti. L’espressione più arcaica sarebbe “Padre Santo!”, che è la più utilizzata dagli anziani.


2. Donne e uomini: i dati rilevanti sono i seguenti:

Uso di “Madre Santa!” a Fela: 65 (di cui uomini: 20, donne: 45; giovani: 39, anziani: 26)

Uso di “Padre Santo!” a Fela: 43 (di cui uomini: 27, donne 16; giovani: 30, anziani: 13)

Uso di “Madre Santa!” a Vigata: 18 (di cui uomini: 6, donne: 12; giovani: 10, anziani: 8)

Uso di “Padre Santo!” a Vigata: 26 (di cui uomini: 15, donne: 11; giovani: 17, anziani: 9)

È significativa la distinzione su base geografica? E quella tra uomini e donne? Oppure è significativa la distinzione per età?


Fela Vigata Totale di riga

Struttura 1 65 18 83

Struttura 2 43 26 69

Totale di colonna

108 44 152

Fela Vigata

Struttura 1 58.97 24.03

Struttura 2 49.03 19.97

Str. 1 = “Madre Santa!”; str. 2 = “Padre Santo!”. Deviazione totale: 0.51 + 0.62 + 1.27 + 1.53 = 3.93 (applicata la correzione di Yate), d.f. = 1, p < 0.05 (= 5%) l’ipotesi della differenziazione su base geografica è plausibile!



Uomini Donne Totale di riga

Struttura 1

26 (20 + 6) 57 (45 + 12) 83

Struttura 2

42 (27 + 15) 27 (16 + 11) 69

Totale di colonna

68 84 152

Uomini Donne

Struttura 1 37.13 45.87

Struttura 2 30.87 38.13

Deviazione totale: 3.04 + 2.46 + 3.66 + 2.96 = 11.42 (applicata la correzione di Yate), d.f. = 1, p < 0.001 (= 0.1%) la distribuzione per sesso è quella che dà i migliori risultati!



Giovani Anziani Totale di riga

Struttura 1

49 (39 + 10) 34 (26 + 8) 83

Struttura 2

47 (10 + 17) 22 (13 + 9) 69

Totale di colonna

96 56 152

Giovani Anziani

Struttura 1 52.42 30.58

Struttura 2 43.58 25.42

Deviazione totale: 0.16 + 0.28 + 0.20 + 0.34 = 0.98 (applicata la correzione di Yate), d.f. = 1, p tra 0.25 e 0.50 (= 25%/50%) L’ipotesi nulla è plausibile (ovvero, la distinzione per età è casuale)! Si può comunque unire i dati delle tre ricerche e concludere che la classe di individui che con più probabilità produrrà l’espressione di ammirazione “Madre Santa!” è quella costituita dalle donne giovani di Fela.



E per finire:www.georgetown.edu/faculty/ballc/webtools/web_chi.html

Un sito che permette di calcolare il chi-quadro compilando delle tabelle online! (N.B.: non applica la correzione di Yate!)

Variabilità / dispersione

Consideriamo il caso – un po’ estremo a dire il vero – di due gruppi di soggetti sottoposti a un test di conoscenza della lingua inglese. Supponiamo che in un gruppo di 50 soggetti – scelti sulla base di un qualche criterio – tutti hanno totalizzato lo stesso punteggio, ad esempio 8/10 e in un altro gruppo, sempre di 50 soggetti, 25 hanno totalizzato 10/10 e 25 hanno totalizzato 6/10. La media aritmetica dei punteggi totalizzati è uguale, ma i due gruppi sono significativamente diversi. La misura della variabilità (o dispersione) ci dice come i punteggi di ciascun gruppo si comportano rispetto al valore tipico osservato. Quanto maggiore è la variabilità all’interno di una popolazione, tanto maggiori saranno le dimensioni richieste del campione per ottenere una informazione soddisfacente.


La media aritmetica calcolata su un campione è un indicatore abbastanza accurato della media aritmetica dei valori di una data variabile in tutta la popolazione. Ma in certi casi potremmo aver bisogno di qualcosa di più. Potremmo per esempio aver bisogno di stabilire un range entro cui i valori di una data popolazione si collocano.

Per prima cosa dobbiamo calcolare la varianza (variance) all’interno della popolazione.


Supponiamo di avere un testo e di volere misurare la lunghezza media delle frasi (in numero di parole). Otteniamo un valore aritmetico medio che chiamiamo Xm. Per ogni frase X1, X2, …, Xn calcoliamo la differenza rispetto al valore medio:

d1 = X1 – Xm, d2 = X2 –Xm, ecc.

Se sommiamo semplicemente i valori ottenuti otteniamo zero per ogni campione (valori negativi e positivi si annullano a vicenda). Sommiamo allora i quadrati di queste differenze (il quadrato è sempre un numero positivo) e dividiamo questo totale per (n – 1): otteniamo così la varianza V all’interno della popolazione (che può essere definita come la media delle singole variazioni al quadrato). Estraendo la radice quadrata di questo valore otteniamo la deviazione standard all’interno della popolazione, che avrà la stessa unità di misura dei nostri dati (in questo caso il numero di parole per frase).


Varianza:

V = idi / n – 1

“La varianza V all’interno di un campione i è uguale alla sommatoria dei quadrati delle differenze tra i (punteggi/valori dei) soggetti nel campione i e il valore medio osservato nel campione, il tutto diviso per il numero di soggetti in i meno uno”

Deviazione standard = radice quadrata di V

Analysis of variance: il test ANOVA

Supponiamo di aver osservato che il numero di errori in un test di inglese dipende dalla provenienza geografica dei soggetti: ad esempio, gli studenti europei si comportano meglio di quelli provenienti dal nord africa, i quali a loro volta ottengopno punteggi più alti degli studenti asiatici e sudamericani. Per verificare questa ipotesi su base statistica possiamo ricorrere al test del chi-quadro, ma possiamo anche utilizzare un test più sofisticato, che risponde al nome di ANOVA.


Formati dei campioni di studenti (diciamo 4 campioni di 10 studenti ciascuno) troveremo molto probabilmente che i punteggi dei singoli gruppi sono simili tra loro, e che l’intervallo fra il punteggio più basso e quello più alto degli studenti di un campione include normalmente la maggior parte dei punteggi di ogni singolo campione. Tuttavia, è possibile che in dettaglio ogni campione abbia comportamenti più diversificati. La misura della media aritmetica non basta, perché selezionati a caso due campioni di 10 studenti all’interno della popolazione totale (= 40 studenti) è verosimile che essi abbiano due valori medi differenti.


Europe South America

North Africa Far East

10 33 26 26

19 21 25 21

24 25 19 25

17 32 31 22

29 16 15 11

37 16 25 35

32 20 23 18

29 13 32 12

22 23 20 22

31 20 15 21

Total 250 219 231 213

mean 25,0 21,9 23,1 21,3


Per verificare se la nostra ipotesi di partenza è sbagliata (e cioè se è vera l’ipotesi nulla che non esiste alcun effetto della provenienza geografica sulla performance), dobbiamo innanzitutto calcolare la varianza stimata within-samples (Vw, within-samples estimate of variance), la cui formula generale è:

Vw = (n1 – 1)Vs1 + (n2 – 1)Vs2 + … + (nn – 1)Vsn

/ (n1 + n2 + … + nn) – n

Ossia la somma della varianza di ogni singolo campione (Vs1, Vs2, …, Vsn), moltiplicata per i gradi di libertà di ogni campione (nel nostro caso 10 – 1 = 9), il tutto diviso per la totalità della popolazione meno 1 per ogni campione (nel nostro caso 4).


Vw = (n1 – 1)Vs1 + (n2 – 1)Vs2 + … + (nn – 1)Vsn

/ (n1 + n2 + … + nn) – n

Vw = (9x66,222) + (9x43,655) + (9x34,988) + (9 x

47,567) / 36 = 48,11

Dopo aver ottenuto questo valore, dobbiamo calcolare un altro valore, chiamato between-groups estimate of variance (Vb), che è anch’esso una stima della varianza all’interno della popolazione. Otteniamo questo valore calcolando innanzitutto la varianza delle medie aritmetiche. Il valore che otteniamo è pari a 2,662. Moltiplichiamo questo valore per il numero di soggetti in ogni campione (nel nostro caso 10) e otteniamo Vb = 26,62.


Se l’ipotesi nulla è vera, Vb tenderà ad essere più grande di Vw. Il rapporto tra Vb e Vw è espresso come

F = Vb / Vw

Nel nostro caso tale valore è uguale a 26,62 / 48,11 = 0,55. I gradi di libertà di F sono 3 e 36. Controlliamo su una tabella il valore critico di significatività al 5% per F3,36 e vediamo che è di poco più grande di 2,84, perciò l’ipotesi nulla è vera e non ci sono motivi per ritenere che ci sia una differenza tra i gruppi.


Anche in questo caso c’è un sito che fa il lavoro sporco:

http://www.physics.csbsju.edu/stats/anova.html

Laboratorio di analisi di dati linguistici

Documents

Transcript of Laboratorio di analisi di dati linguistici