3. STATISTICA A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al...

3. STATISTICA 3. STATISTICA A. FedericoA. Federico

ENEA; Fondazione Ugo BordoniENEA; Fondazione Ugo Bordoni

SScuola estiva di fonetica forensecuola estiva di fonetica forenseSoriano al Cimino 17 – 21 settembre 2007Soriano al Cimino 17 – 21 settembre 2007

LE SORGENTI DI INFORMAZIONE

Una sorgente di informazione invia messaggi che sono processi aleatori dotati di variabilità. La variabilità è la condizione propria del processo. L’incertezza è invece lo stato soggettivo di colui che riceve il messaggio. La sorgente è stazionaria se ha proprietà probabilistiche stabili nel tempo ed è ergodica se le sue leggi possono essere ricavate mediante osservazioni ripetute dei suoi messaggi che (se) si ripetono nel tempo.

Esperimenti e misure si possono programmare proprio allo scopo di conoscere le proprietà statistiche delle sorgenti. Il messaggio ricevuto è sostanzialmente una misura il cui risultato è a sua volta una variabile con proprietà aleatorie.

DISTRIBUZIONI PROBABILISTICHE E MOMENTI

Una sorgente di informazione è definita, come già detto, quando sono noti gli alfabeti e le leggi probabilistiche che ne governano i segnali, simboli e gli aggregati di simboli. Le leggi probabilistiche sono definite dalle probabilità dei segnali e dei simboli emessi. Condizione necessaria e sufficiente per conoscere le funzioni di distribuzione di probabilità della sorgente è conoscerne i parametri che sono tutti i momenti di qualsiasi ordine, definiti come valori attesi della serie delle potenze successive degli scarti:

M1 = = E(x); M = E(x-)

MODELLI STATISTICI

Si definisce modello statistico di un processo aleatorio la collezione di tutte le p.d.f. necessarie e sufficienti per definirne le proprietà statistiche;

Le p.d.f. possono essere stimate a partire da opportuni depositi di dati di processo (Database), tanto con approcci parametrici, che richiedono la stima dei parametri di funzioni predefinite, un vettore parametrico , quanto non parametrici (distribution free);

Mediante l’approccio non parametrico o distribution free, lo sperimentatore dispone di una pdf stimata direttamente a partire dai dati campionari. Tale approccio si complica al crescere della dimensione p del vettore delle misure.

STATISTICHE

Definiamo statistica una qualsiasi funzione dei dati ricevuti/misurati. Nell’approccio bayesiano ogni statistica è una variabile aleatoria essa stessa, regolata da una propria pdf che in alcuni casi può essere derivata dalla pdf dei dati, posto che sia nota. Sono esempi di statistiche le medie, le varianze, le distanze da un target etc.

La legge che regola i dati, una pdf nel caso continuo, può essere in alcuni casi espressa mediante una funzione di una stringa o vettore parametrico ; 12, … k. Come si è visto, per le distribuzioni normali monovariate si tratta di due soli parametri e , posizione (displacement) e varianza.

MEDIA PARAMETRI E MOMENTI DEL I ORDINE

La media campionaria su n dati:

Lo scarto dalla media che ha media nulla:

La mediana di un insieme di n dati ordinati in ordine di grandezza crescente è il valore centrale dei dati, se il numero di dati è dispari, o la media aritmetica dei due valori centrali, se il numero dei dati è pari. La moda è il valore o la classe a cui corrisponde la massima frequenza o la massima probabilità. I massimi relativi possono essere più d’uno.

VARIANZA PARAMETRI E MOMENTI DEL II ORDINE

La varianza campionaria su n dati:

La deviazione standard campionaria:

Sono detti indici di dispersione o indici di variabilità, perché misurano la dispersione dei dati attorno alla media. La varianza è tanto più grande quanto più i dati si discostano dalla media. I valori di s e s2, poiché misurano l’effettiva variazione assoluta presente in un insieme di dati, dipendono dall’unità di misura dei dati.

PARAMETRI E MOMENTI DI ORDINE SUPERIORE

La asimmetria (skewness) dei dati è il valore campionario del momento di terzo ordine.

Un valore positivo indica una distribuzione in cui i valori sono raggruppati nel range dei valori bassi con una lunga coda che si estende verso I valori maggiori. Un valore negativo indica la situazione opposta.

Il momento campionario del quarto ordine misura la curtosi (flatness) campionaria dei dati.

Una curtosi positiva indica che ci sono piu` valori agli estremi della distribuzione di quanto aspettato. Una curtosi negativa indica ci sono meno avlori agli estremi della distribuzione di quanto aspettato

STATISTICHE SUFFICIENTI

Una statistica di un campione t(x), come media, varianza, momenti, ricavata da una sequenza campionaria x, è detta “sufficiente” per se la funzione di verosimiglianza è fattorizzabile:

L( |x) = g(t(x),)h(x); h non negativa.

Si definisce funzione di score, s:

s(x;) = l / dove E(s)=0

La matrice di covarianza di s, E(ss’), è la “Matrice

informativa di Fisher”, F = E(2l/2).

Vale la diseguaglianza di Cramér-Rao: E(t,t’) F-1

IL CASO NORMALE

Riprendiamo il modello statistico associato ad un campione di dati aleatori normale N(, σ2). In questo caso la verosimiglianza è fattorizzabile:

e quindi estratti i dati e quindi noti i valori assunti dalle statistiche:

yi , yi2

la verosimiglianza è univocamente determinata. Si tratta dunque di statistiche congiuntamente sufficienti.

USO DELLE STATISTICHE SUFFICIENTI

Effettuato un esperimento statistico con l’estrazione di un campione X cerchiamo le statistiche t tali che il calcolo del valore da esse assunto sia del tutto equivalente ai fini dell’inferenza su alla conoscenza di tutto il campione x.

Dato un modello statistico, una statistica t(x) viene detta sufficiente per se assume lo stesso valore in corrispondenza di campioni diversi solamente quando essi hanno verosimiglianze proporzionali.

Data una statistica sufficiente t abbiamo verosimiglianze diverse solo se t assume valori diversi. Il valore assunto da una statistica sufficiente sintetizza quindi tutta l’informazione che c‘è nell’intero campione.

PIANIFICAZIONE DEGLI ESPERIMENTI

Il concetto di popolazione in statistica si discosta dunque dal senso comune. La popolazione è un insieme reale di soggetti con caratteristiche comuni, in statistica è invece l’insieme di tutte le misure possibili di un determinato parametro (multivariato, vettoriale) regolato da una comune legge probabilistica.

Quando si tratta di un insieme molto grande può non essere possibile né economicamente conveniente raccogliere tutti i dati. Si esegue in tal caso un esperimento consistente nell’estrazione di un campione che costituirà un sottoinsieme di dimensioni trattabili della popolazione.

CAMPIONAMENTO STATISTICO

L’informazione viene raccolta a campione per:

risorse limitate, alto costo del campionamento;

pochi dati disponibili per ragioni fisiche;

impossibilità di compiere il campionamento perché distrugge l’oggetto in esame o per difficoltà di natura sociale.

Si può contare, il più delle volte, su un campione composto da un numero limitato di dati, e si trae da essi per inferenza statistica quanto serve per sviluppare un esperimento. La teoria dei campioni è lo studio delle proprietà di una popolazione mediante i campioni che la costituiscono.

ESTRAZIONE DEI DATI

La via migliore per evitare di estrarre campioni non rappresentativi di una popolazione è il campionamento casuale, nel quale deve essere identica la probabilità di estrazione di ciascun dato. Ciò richiede che il campione delle misure X sia costituito da vettori X indipendenti ed identicamente distribuiti (iid). Le fasi del campionamento sono:

Definizione della popolazione Specificazione del quadro sperimentale Definizione del metodo di campionamento Determinazione della dimensione del campione Predisposizione logistica della misura Effettuazione della misura Esame dei dati.

GRADI DI LIBERTA’

Dato un campione di dimensione n ed un set di k statistiche, il massimo numero di elementi del campione liberi di variare senza alterare le k statistiche già calcolate è il numero dei gradi di libertà, dgf, del campione stesso. Si tratta del numero di informazioni indipendenti che fanno il campione.

Dimensionare i dgf di un campione è questione delicata sulla quale operano esigenze contrastanti, l’economia di risorse e di tempo da un lato, la disponibilità di buoni dati di qualità effettivamente indipendenti dall’altro, l’opportunità di trattare grandi campioni per avere buone inferenze e buone stime dall’altro ancora.

DIMENSIONE DEL CAMPIONE, GRADI DI LIBERTA’

Per dimensionare un esperimento occorre dare una figura di merito. Si può trattare di limiti di disponibilità, di spesa o di tempo. Se si assegna viceversa una performance di possono calcolare i dgf necessari. Nel più classico dei test sulla media di una popolazione sia l’errore di I specie, di falsa reiezione dell’ipotesi nulla x=0 rispetto all’ipotesi alternativa = z, e sia 1- la potenza del test, cioè sia l’errore massimo ammesso di falsa accettazione, di II specie. Si dimostra che ( è la cumulativa normale):

IL PARLATORE

Dobbiamo supporre che il parlatore sia una sorgente di informazione stazionaria ed ergodica poiché il campione può essere formato solo con dati estratti in tempi successivi. L’ipotesi ha delle limitazioni evidenti. Le misure (formantiche, etc.) accessibili costituiscono il campione di una popolazione di vettori acustici mediante i quali eseguiamo inferenze sui parametri della pdf del parlatore (FUB SPREAD) o sulla intera distribuzione (Rossi). Nell’approccio FUB si suppone per di più che i parametri di secondo ordine della pdf siano indipendenti dal parlatore. L’inferenza campionaria si semplifica alla sola determinazione della posizione nello spazio (displacement) del valore medio.

LA POPOLAZIONE DEI PARLATORI

Vedremo che nei processi di decisione occorre il modello statistico della o delle popolazioni di appartenenza dei parlatori (ad esempio i maschi adulti italiani. La definizione di popolazione di appartenenza (taluni usano la denominazione di riferimento) è questione delicata, controversa e causa di errori anche gravi. Basti dire che i parametri delle probabilità di errore sono direttamente dipendenti dal modello di tale popolazione.

Alle proprietà statistiche della popolazione dei parlatori si perviene ancora una volta per campionamento, ma con procedimenti reiterati di accumulazione progressiva nei quali è fondamentale la qualità delle procedure.

INFERENZE

Dal campione intendiamo ricavare informazioni e statistiche che ci servono per il processo decisionale mediante operazioni denominate inferenze. Tipicamente ci attendiamo dall’inferenza informazioni sulla distribuzione di probabilità dei dati o sui suoi momenti di vario ordine, seguendo approcci distribution-free o parametrici (a distribuzione data).

Nell’approccio FUB IDEM-SPREAD le distribuzioni sono supposte essere multivariate normali e l’inferenza viene condotta sulle matrici dei momenti del primo e del secondo ordine, medie e covarianze.

STIME DI MASSIMA VEROSIMIGLIANZA

Un parametro incognito di una p.d.f. può essere stimato a partire da un campione di dati x.

Le stime di massima verosimiglianza di un vettore parametrico si ottengono dalla soluzione del sistema S=0 e godono della proprietà di essere asintoticamente normalmente distribuite con media (stime unbiased) e varianza (nF)-1 (stime consistenti).

In base alla diseguaglianza di Cramér-Rao le stime MLE sono a varianza minima. Per la distribuzione normale, p=1, si ha:

= x = 1/n ixi 2 = 1/n i(xi-x)2

LE MATRICI DEI DATI FORMANTICI

Struttura delle matrici di dati X = (xi,j,k)

FOGLIO DATI dello SPEAKER k-esimo

Sample1 Sample2 … Sample j

FF0a x11k x12k x1jk

FF1a x21k x22k x2jk

FF2a x31k x32k x2jk

FF3a x41k x42k x2jk

FF0e x51k x52k x5jk

… … … …

FF3u x20 1k x20 2k x20 jk

PROPRIETA’ STATISTICHE DEI DATI

I dati fonoacustici derivano da campagne sperimentali di acquisizione ed elaborazione dati con tecniche di “Digital Signal Processing”;

La qualità dei dati deve essere assicurata. Il trattamento statistico non può compensare la mancanza di qualità dei dati se non in maniera marginale (filtraggio degli outliers, correzione di alcuni tipi di errori, etc …);

Le misure devono essere statisticamente indipendenti. Un errore da non fare e’ una doppia misura formantica sulla stessa vocale;


Le funzioni di densità di probabilità (p.d.f.) dei processi coinvolti nell’esperimento devono essere note, ovvero identificate e ricavata dai dati stessi. Esse sono funzioni multivariate, continue e differenziabili, che, integrate su un dominio p-dimensionale D, danno la probabilità che il campione cada in quel dominio.

Deve in particolare essere nota e statisticamente definita la popolazione di appartenenza delle voci, ad esempio “i maschi adulti italiani”. La distribuzione di probabilità della popolazione deve quindi essere nota e verificata.


Si fa l’ipotesi che l’emissione vocale sia, con buona approssimazione, un processo aleatorio e che i parametri acustici, frutto di misure spettrali o temporali affidabili e ripetibili, siano variabili aleatorie continue regolari, “well behaving”, dotate di funzioni di densità di probabilità;

L’ipotesi accreditata dal progetto FUB IDEM-SPREAD, adeguatamente confortata dai risultati sperimentali, e’ che i dati siano regolati dafunzioni di distribuzione multivariate normali;

In alcuni casi si dovrà ricorrere all’ipotesi che la p.d.f. di parlatori diversi si differenzi solo per il momento del primo ordine (displacement factor), media o centroide.

LE STATISTICHE: MEDIE CAMPIONARIE

Matrice delle medie dei parlatori: Xk = (xik)foglio k-esimo (k = 1, … K)

FF0a FF1a FF3u

1/n1kj x1jk, 1/n2k j x2jk, … 1/npk j xp,j,k

Vettore media delle medie: X = (xxi)

FF0a FF1a FF3u

1/Kk x*1k , 1/K k x

*2k, … 1/K k x

*pk

COVARIANZE E CORRELAZIONI CAMPIONARIE

Matrice delle covarianze dei parlatori Wk = nkSk/(nk -1)

foglio k-esimo (p * p), nik= nk,i

wii’k = 1/(nk -1) j (xijk xi’jk - x*ik x

*i’k)

Matrice delle covarianze “pooled” W, (N= k nk )

W = 1/(N - K) k (nk -1) Wk

Matrice delle correlazioni ii’ = wii’/(wii’*wii’)

½

Varianza generalizzata = Det (W)

MANOVA, ANALISI MULTIVARIATA DELLA VARIANZA

Matrice delle covarianze totali del campione, T

(N-1) T = k j (xjk - x) (xjk - x)’

Matrice delle covarianze intraparlatori “pooled”, W

(N - K) W = k (nk -1) Wk

Matrice delle covarianze della popolazione, P

(K-1) P = k nk(x*k - x

**) (x*k - x

**)’

Identità MANOVA(N-1) T = (N - K) W + (K-1) P

LE COMPONENTI PRINCIPALI

Sussiste il Teorema: “Se x ha una distribuzione multivariata normale N(;), la

y = (y1, y2, …, yp) = -1/2(x-) è costituita da p variabili indipendenti distribuite come N(0,1)”.

Di analoga proprietà godono le “Componenti principali” z = ’(x-), dove la matrice diagonalizza la matrice di covarianza: ’ = . La matrice diagonale contiene le varianze delle p componenti principali che hanno distribuzione N(0,i). La trasformazione ruota e centra sugli assi coordinati ed ordina nel senso delle varianze decrescenti i punti di una popolazione avente la distribuzione N(;).

FORME QUADRATICHE

Il kernel della p.d.f. Multivariata Normale è una forma quadratica che ha le caratteristiche geometriche di una distanza normalizzata. Per ogni misura x si definisce una f.q.:

Fq = (x - ) S-1 (x - )’

che gode di proprietà interessanti. Tra esse:

Se x~N(;), Fq(x, ) ~ 2p .

Fq è invariante per ogni operazione lineare di traslazione o rotazione in Sp .

Fq = cost è l’equazione in Sp delle sezioni isoprobabili si una p.d.f. Multivariata Normale Np.

LA DISTANZA DI MAHALANOBIS

In analogia formale con Fq, indipendentemente dalla distribuzione di probabilità del dato, si definisce “distanza di Mahalanobis” tra due punti in uno spazio Sp con matrice di normalizzazione come:

D2(x1,x2) = (x1 - x2) -1 (x1 - x2)’

Se X1,X2 sono campioni multivariati normali iid di dimensione n1, n2, di due parlatori Spk1, Spk2 e la covarianza è la stessa, la statistica:

D2(x1,x2) = (x1 - x2) -1 (x1 - x2)’

ha una distribuzione di probabilità nota: se è incognita si tratta di una T2 di Hotelling a due campioni, versione multivariata della t di Student; se invece è nota si tratta di una chi-quadratica 2

p

I TEST CON LA DISTANZA DI MAHALANOBIS

Assegnata una ipotesi, ad esempio Spk1 = Spk2, eseguito l’esperimento ed estratto il campione, la distribuzione (pdf) della statistica della D2(x1,x2) può essere ricavata dai dati stessi (Rossi). Per la stima della covarianza con dati scarsi si usano generalmente gli approcci bootstrap con la ripetizione dei dati. Se X1,X2 sono campioni multivariati normali iid di dimensione n1, n2, n in totale, di due parlatori Spk1, Spk2 e la covarianza è la stessa, vale la importante legge:

n1 n2 (n-p-1) D2 /[n(n-2)p] ~ Fp, n-p-1

dove F è la distribuzione di Fisher che per n∞, cioè per nota si semplifica nella : n1 n2 D2 /n ~ 2

p.

IL MODELLO FUB SP99

Ogni anno viene aggiornato presso la Fondazione Ugo Bordoni un database che contiene vettori parametrici di voci telefoniche maschili italiane adulte ricavate da casi di reale interesse giudiziario. In Enea vengono estratti da esso i modelli statistici aggiornati. Il Database è denominato SP seguito dall’anno di aggiornamento. L’ultimo è dunque SP99. Le sue specifiche sono:

Popolazione: Maschi italiani adulti

n° parlatori K = 179

n° di realizzazioni = 3983, p = 20

n° di vettori vocalici = 14176

400 500 600 700 800 900

FF1

1000

1200

1400

1600

1800

FF

2

DATABASE SP99

Grafici di scatter dei parlatori: formanti 1 e 2 della “a”

DATABASE SP99 Grafici di scatter dei parlatori: formanti della “a” e della “e”

aFF1

1100

1200

1300

1400

1500

1600

2000

2200

2400

2600

2800

3000

450 550 650 750

110012001300140015001600

aFF2

aFF3

2000 2200 2400 2600 2800

450

550

650

750

200022002400260028003000

2000

2200

2400

2600

2800

eFF3

IL MODELLO SP99: LA COVARIANZA “W” INTRAPARLATORE

Poiché le vocali sono statisticamente indipendenti, il modello W può essere descritto mediante 4 tabelle separate comprendenti le varianze e le matrici di correlazione. Il modello W descrive la dinamica intraparlatore alle ipotesi di normalità multivariata e di stabilità del modello al variare del parlatore.

Parametri oFF0 oFF1 oFF2 oFF3Varianze (n-1) 347.7 1658 4101 7644

CorrelazionioFF0 1oFF1 0.00 1oFF2 0.07 0.02 1oFF3 0.02 0.01 -0.01 1

Parametri iFF0 iFF1 iFF2 iFF3Varianze (n-1) 391.7 802 5814 7340

CorrelazioniiFF0 1iFF1 0.15 1iFF2 0.07 -0.18 1iFF3 0.04 -0.09 0.39 1

Parametri eFF0 eFF1 eFF2 eFF3Varianze (n-1) 321.4 1720 7260 5696

CorrelazionieFF0 1eFF1 -0.01 1eFF2 0.02 -0.20 1eFF3 0.08 0.02 0.19 1

Parametri aFF0 aFF1 aFF2 aFF3Varianze (n-1) 355.3 2357 4195 10840

CorrelazioniaFF0 1aFF1 0.00 1aFF2 0.04 -0.01 1aFF3 0.06 0.00 0.02 1

IL MODELLO SP99: LA COVARIANZA “P” DELLA POPOLAZIONE

aFF0 aFF1 aFF2 aFF3 eFF0 eFF1 eFF2 eFF3 iFF0 iFF1 iFF2 iFF3 oFF0 oFF1 oFF2 oFF3Varianze (n-1) 369 2597 4562 13013 433 1354 11551 12715 437 1521 14830 13950 452 1445 4398 14646

aFF0 1.00 0.18 -0.10 0.18 0.91 0.25 -0.06 0.12 0.90 0.40 -0.05 -0.01 0.93 0.26 0.04 0.14aFF1 0.18 1.00 0.25 0.35 0.22 0.55 0.47 0.39 0.25 0.28 0.45 0.41 0.21 0.54 0.24 0.28aFF2 -0.10 0.25 1.00 0.15 -0.05 0.18 0.46 0.32 -0.08 0.02 0.51 0.35 -0.08 0.18 0.43 0.24aFF3 0.18 0.35 0.15 1.00 0.20 0.38 0.42 0.83 0.18 0.18 0.39 0.67 0.18 0.31 0.17 0.86eFF0 0.91 0.22 -0.05 0.20 1.00 0.29 0.02 0.15 0.90 0.39 0.03 0.07 0.92 0.31 0.09 0.17eFF1 0.25 0.55 0.18 0.38 0.29 1.00 0.20 0.34 0.30 0.48 0.25 0.31 0.28 0.78 0.31 0.31eFF2 -0.06 0.48 0.46 0.42 0.02 0.20 1.00 0.58 -0.04 -0.10 0.78 0.65 0.00 0.29 0.18 0.40eFF3 0.12 0.39 0.32 0.84 0.15 0.34 0.58 1.00 0.14 0.08 0.56 0.84 0.12 0.32 0.26 0.80iFF0 0.91 0.25 -0.08 0.18 0.90 0.30 -0.04 0.14 1.00 0.44 -0.02 0.04 0.92 0.32 0.05 0.15iFF1 0.40 0.28 0.02 0.18 0.39 0.48 -0.10 0.08 0.44 1.00 -0.21 -0.05 0.41 0.43 0.11 0.14iFF2 -0.05 0.45 0.51 0.39 0.03 0.25 0.78 0.56 -0.02 -0.21 1.00 0.75 -0.02 0.20 0.27 0.37iFF3 -0.01 0.42 0.35 0.68 0.07 0.31 0.65 0.84 0.04 -0.05 0.75 1.00 0.02 0.34 0.26 0.61

oFF0 0.93 0.22 -0.08 0.18 0.93 0.28 0.00 0.12 0.92 0.41 -0.02 0.02 1.00 0.30 0.08 0.16oFF1 0.26 0.54 0.18 0.31 0.31 0.78 0.29 0.32 0.32 0.43 0.20 0.34 0.30 1.00 0.38 0.21oFF2 0.04 0.25 0.43 0.17 0.09 0.31 0.18 0.26 0.05 0.11 0.27 0.26 0.08 0.38 1.00 0.16oFF3 0.14 0.28 0.24 0.87 0.17 0.31 0.40 0.80 0.15 0.14 0.37 0.61 0.16 0.21 0.16 1.00

Il modello generale della popolazione dei maschi italiani adulti, supposto normale, è descritto mediante il vettore delle medie (centroide) della popolazione e la matrice di covarianza delle medie (varianze e correlazioni) a 16 - 20 dimensioni.

Parametri aFF0 aFF1 aFF2 aFF3 eFF0 eFF1 eFF2 eFF3 iFF0 iFF1 iFF2 iFF3 oFF0 oFF1 oFF2 oFF3Centroide 130.3 629.3 1355.6 2432.0 132.8 465.8 1723.5 2458.7 137.8 355.5 1989.5 2510.5 133.8 492.7 1057.2 2406.6

3. STATISTICA A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al...

Documents

Transcript of 3. STATISTICA A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al...