Introduzione v

38
Calcolo delle Probabilita’ e Statistica Calcolo delle Probabilita’ e Statistica Metodi Statistici per l’Ingegneria Metodi Statistici per l’Ingegneria A.A. 2013-14 A.A. 2013-14 Recapiti del docente: @ [email protected] Tel 0532 – 97 4994 Mailing List: scrivetemi per essere inclusi nella mailing list del corso, in modo da ricevere informazioni e aggiornamenti su eventuali cambi di orario, etc. Orario di ricevimento Martedi’ 17:00-18:00 e su prenotazione alle 18:50 c/o Dipartimento di Ingegneria (Blocco A) piano 3 stanza 313 durante il periodo didattico. Si prega cmq di prenotarsi per mail almeno il giorno prima. Ricevimento su appuntamento nel resto dell’anno. Libro di testo Sheldon Ross, Probabilita’ e Statistica per Ingegneria e le Scienze, 2 ed., Apogeo Esame Scritto Orale (nella stessa sessione) opzionale per chi ha superato lo scritto con almeno 18, obbligatorio per chi ha tra 15 e 17. Oscillazione di voto [-3, +3] Obbligo di iscrizione almeno 3gg prima sul web Testi dei compiti e TRACCE di soluzione sul minisito Programma del corso Sul minisito dell’insegnamento Orario di lezione http://servizi.unife.it/orariolezioni/ martedi’ 14:15-16:30, venerdi’ 16:30-18:45 No lezione venerdi’ 18 Ottobre No lezione venerdi’ 18 Ottobre, recupero in data da definire

Transcript of Introduzione v

Page 1: Introduzione v

Calcolo delle Probabilita’ e StatisticaCalcolo delle Probabilita’ e StatisticaMetodi Statistici per l’IngegneriaMetodi Statistici per l’Ingegneria

A.A. 2013-14A.A. 2013-14Recapiti del docente:• @ [email protected]• Tel 0532 – 97 4994Mailing List:

scrivetemi per essere inclusi nella mailing list del corso, in modo da ricevere informazioni e aggiornamenti su eventuali cambi di orario, etc.

Orario di ricevimento • Martedi’ 17:00-18:00 e su prenotazione alle 18:50 c/o Dipartimento di Ingegneria (Blocco A) piano 3

stanza 313 durante il periodo didattico. Si prega cmq di prenotarsi per mail almeno il giorno prima. Ricevimento su appuntamento nel resto dell’anno.

Libro di testo• Sheldon Ross, Probabilita’ e Statistica per Ingegneria e le Scienze, 2 ed., ApogeoEsame• Scritto • Orale (nella stessa sessione)

– opzionale per chi ha superato lo scritto con almeno 18, – obbligatorio per chi ha tra 15 e 17. Oscillazione di voto [-3, +3]

• Obbligo di iscrizione almeno 3gg prima sul web• Testi dei compiti e TRACCE di soluzione sul minisitoProgramma del corso • Sul minisito dell’insegnamentoOrario di lezione• http://servizi.unife.it/orariolezioni/• martedi’ 14:15-16:30, venerdi’ 16:30-18:45 • No lezione venerdi’ 18 OttobreNo lezione venerdi’ 18 Ottobre, recupero in data da definire

Page 2: Introduzione v

Programma del corso (cap 1-8)Statistica descrittiva, • Rappresentazione dei dati di un campione, media mediana, moda, e varianza campionaria;

percentili; boxplot.• disuguaglianza di Chebyshev su insiemi finiti; campioni normali; • insiemi bivariati; coefficiente di correlazione campionaria.

Introduzione alla probabilità: • diagrammi di Venn e algebra degli eventi.• Richiami di calcolo combinatorio.• Assiomi della probabilità. Probabilità condizionale, formula di Bayes, eventi indipendenti.

Variabili Aleatorie. – Variabili discrete: Bernoulli e Binomiale, Poissoniana, Ipergeometrica.– Variabili continue: Uniforme, Normale, Esponenziale, Gamma. – Variabili aleatorie inferenziali: Chi quadro, t(di student), F.

• Valore atteso, def. e proprietà nel caso discreto e nel caso continuo. Valore atteso di somme di variabili aleatorie, valore atteso di funzioni di variabile aleatorie.

• Distribuzioni congiunte, marginali e condizionali. Variabili indipendenti.• Varianza e covarianza di somme di variabili aleatorie. Funzione generatrice dei momenti.

Disuguaglianza di Chebyshev per variabili aleatorie.

Statistica inferenziale• popolazioni e campioni. Stimatori campionari, distribuzioni campionarie, media campionaria,

varianza campionaria. • Teoria della Stima. Stime puntuali e per intervalli.

Page 3: Introduzione v

Statistica Descrittiva vs Inferenziale

Descrittiva:Descrive in modo compatto l’insieme dei dati raccolti, attraverso l’utilizzo di indicatori sintetici.

Inferenziale:A partire dall’analisi delle caratteristiche di un campione, cerca di inferire le caratteristiche della popolazione a cui il campione appartiene

Per condurre correttamente l’analisi, occorre fare delle ipotesi sul modello probabilistico dei dati a cui e’ soggetto il nostro campione sperimentale. Per questo occorre avere le

basi della teoria del calcolo delle probabilita’

Page 4: Introduzione v

La statistica Descrittiva

• raccoglie dati,

• li sintetizza

• li interpreta

Step 1: organizzare la raccolta dei dati• Step Fondamentale: la scelta del campione• Per essere rappresentativo, il campione deve

essere scelto casualmentecasualmente tra tutti i sottoinsiemi possibili di tale cardinalita’.

Page 5: Introduzione v

Statistica Descrittiva: rappresentazione dei dati

Quando i dati assumono pochi valori diversi (gli stessi valori sono ripetuti piu’ volte nel campione), la rappresentazione piu’ semplice e’ la

tabella delle frequenze

Valore del dato Numero di volte (frequenza)

27 4

28 1

29 3

30 5

31 8

32 10

34 5

36 2

37 3

40 1

Esempio:Dati salariali.Il campione descrive ilreddito annuale iniziale, in migliaia di $, di 42 ingegneri.

Page 6: Introduzione v

Def Frequenza Relativa

Si dice frequenza relativa di un valore i il rapporto tra la sua frequenza, fi cioe’ il numero di volte che tale valore compare nel campione, e la cardinalita’ n del campione stesso.

Esempio sul campione di 42 elementi

27 4 4/42=0.095 (9.5%)

28 1 1/42=0.024 (2.38%)

29 3 3/42=0.071 (7.14%)

30 5 5/42=0.119 (11.9%)

31 8 8/42=0.190 (19.05%)

32 10 10/42=0.238 (23.81%)

34 5 5/42=0.119 (11.9%)

36 2 2/42=0.047 (4.76%)

37 3 3/42=0.071 (7.14%)

40 1 1/42=0.024 (2.38%)

Valore Frequenza Freq. relativa (%)

La somma delle frequenze relative e’ a somma 1

Page 7: Introduzione v

Rappresentazioni grafiche del campione

sull’asse x delle ascisse sono rappresentati i diversi valori che possono assumere i dati,

e in ordinata y le frequenze.

Si danno diverse rappresentazioni• Line graph (grafico a

bastoncini). • Grafico a barre• Grafico a linee (spezzata)

Freq

0

5

10

15

27 28 29 30 31 32 34 36 37 40

Freq

Freq

0

5

10

15

27 28 29 30 31 32 34 36 37 40

Freq

0

2

4

6

8

10

12

0 10 20 30 40 50

stipendio (M$)

fre

qu

en

za

stipendio

Serie2

Page 8: Introduzione v

Grafico a torta per i valori non numerici del dato

Es. • Orientamento politico, il partito

votato non e’ un dato numerico

• Tipi di tumore (l’organo affetto)• Sport principale praticato dai

bambini di una scuola

L’angolo giro di 360° e’ suddiviso in settori, uno per ogni valore, di ampiezza proporzionale alla frequenza relativa

Organo affetto

Frequenza (su 200)

Polmoni 42

Seno 50

Colon 32

Prostata 55

Melanoma cutaneo 9

Vescica 12

Frequenza

Polmoni

Seno

Colon

Prostata

Melanoma cutaneo

Vescica

Page 9: Introduzione v

Quando i valori assunti dai dati numerici sono molto numerosi (1)

si aggregano per intervallisi aggregano per intervalli del tipo (ai,bi] di ampiezza costante

In tal caso il grafico a barre prende il nome di ISTOGRAMMA.ISTOGRAMMA.

E’ molto utile in quanto visivamente rappresenta anche l’ampiezza scelta degli intervalli.

I dati sull’asse delle x rappresentano i valori estremi degli intervalli e sono posti al confine tra una barra e la successiva, mentre nel grafico a barre vi e’ un valore (centrale) per ogni barra.

Page 10: Introduzione v

Quando i valori assunti dai dati numerici sono molto numerosi (2)

In alternativa si utilizza

la curva delle FREQUENZE CUMULATIVE (ogiva)

OGIVA:

grafico di una funzione non decrescente sul piano cartesiano che, ad ogni valore xv appartenente all’intervallo dei valori assunti dai dati del campione, fa corrispondere il il numero dei dati ynumero dei dati yvv che hanno valore che hanno valore

uguale o minore a xuguale o minore a xvv..

((anticipa il concetto di distribuzione / ripartizionedi variabili aleatorie))

NB in caso di valori discreti dei dati si tratta di una spezzata

ogiva

0

10

20

30

40

50

27 28 29 30 31 32 34 36 37 40

stipendi in m$

freq

cu

mu

lati

ve

Page 11: Introduzione v

Quando i valori assunti dai dati numerici sono molto numerosi (3)

Si utilizzano i diagrammi stem and leaf

Occorre identificare una gerarchia nel dato numerico, dividendo il valore in una parte significativa e una meno.

Pensate per esempio al consumo in m3 rilevato dai contatori del gas: si tratta di un numero a piu’ cifre, composto da una parte rossa (piu’ significativa, con le cifre a sx del punto decimale) e una parte nera (< 1 m3).

In tabella si riporta, per ogni valore significativo, l’insieme dei valori meno significativi associati nei dati del campione.

Es. L’insieme dei dati rilevati in un condominio di 11 unita’ abitative

{1.56, 3.4, 3.78, 2.3, 9.14, 5.2, 3.87, 6.9, 2.84, 3.1, 5.54} si rappresenta come in figura:

rosso nero

1 56,

2 30, 84

3 40, 78, 87, 10

5 20, 54

6 90

9 14

Page 12: Introduzione v

Statistiche di sintesi dei dati numerici dei campioni

• Media campionaria

• Mediana campionaria

• Moda campionaria

Page 13: Introduzione v

Media campionariaSi definisce media campionaria di un campione di n dati numerici S(X)={x1,..,xn}

il valore xaverage = 1/n Σi=1..n xi

Come cambia la media per Come cambia la media per trasformazioni linearitrasformazioni lineari del dato del dato

Sia yi = axi + b, allora vale yaverage= a xaverage + b

Come si utilizza questa proprieta’? Semplificando i calcoli, shiftando i valori di S sottraendo a ciascuno il valore xmin,

svolgendo il calcolo della media sul campione S(Y)={y i=xi-xmin} e poi sommando alla media xmin. Quindi xaverage= yaverage + xmin

Utilita’: ridurre l’incidenza degli errori di cancellazione nelle operazioni

Date le frequenze fi dei valori, e le frequenze relative (occorrenza / cardinalita’ del campione) φi = fi /n si osserva che la media campionaria e’ la somma pesata dei valori per le frequenze relative

Siano {v1,..,vk} i k valori distinti assunti dai dati del campione, sia φi la frequenza relativa del valore vi.

Allora, xxaverageaverage = = ΣΣi=1..ki=1..k v vii φφ i i

Page 14: Introduzione v

Mediana campionaria

• La mediana descrive il centrocentro di un insieme di dati.• Si definisce la mediana campionaria di un campione di dati numerici

S={x1,..,xn} ORDINATO IN ORDINE CRESCENTE

il valore posizionato in posizione intermedia: n/2 per n dispari, la media tra i valori in posizione n/2 e (1 + n/2) per n pari

Sia la media che la mediana descrivono I valori “centrali” del campione.Inoltre la media e’ molto sensibile ai valori estremi, sia particolarmente alti ☺ che bassi ☹ (pensate alla media dei vostri

esami), ma non danno indicazioni sulle frequenze dei valori nel campione.

Quante volte viene assunto dai dati questo specifico valore? Quale e’ il valore + frequente? A quest’ultima domanda risponde la

MODAMODA

Page 15: Introduzione v

Moda campionaria• Si definisce la moda campionaria di un campione di dati numerici S={x1,..,xn} il

valore con frequenza massima se unico. Altrimenti, tutti i valori con frequenza pari alla frequenza massima si dicono Valori Modali

La moda descrive il centro della DISTRIBUZIONE dei datiLa moda descrive il centro della DISTRIBUZIONE dei dati…………………………………………….

Ex: calcolo di media mediana e moda di un campione

40 lanci di un dado a 6 facce, questi i risultatiValore 1 2 3 4 5 6Frequenza 9 8 5 5 6 7

Media campionaria: (9 + 2·8 + 3·5 + 4·5 + 5·6 + 6·7) / 40 = 3.05Mediana campionaria: avendo 40 lanci si prende la media di valori 20esimo e 21esimo,

cioe’ (3+3)/2=3Moda campionaria: il valore con massima frequenza e’ 1, che compare nel

campione per 9 volte

Page 16: Introduzione v

Media mediana e moda sono informazioni complementari, nel senso che la loro conoscenza congiunta permette una lettura piu’

approfondita del campione.I topi di laboratorioI topi di laboratorio

Un gruppo di topi di 35gg e’ sottoposto a radiazioni e poi diviso in due sottogruppi S1 di 29 elementi e S2 di 19, tenuti in ambiente serile / normale.

Questi i giorni di vita nei due gruppi (stem and leaf)

1 58,92,93,94,95 1 59,89,91,982 02,12,15,29,30,37,40,44,47,59 2 35,45,50,56,61,65,66,803 01,01,21,37 3 43,56,834 15,34,44,85,96 4 03,14,28,325 29,376 247 078 00media S1=344.07, media S2=292.32, ma

mediana S1=259 (quindicesimo valore), e mediana S2=265 (decimo valore)

Infatti la media di S1 risente molto dei valori alti, 624 707 e 800, ma la mediana non ne viene influenzata purche’ siano > a 259.

Quindi l’ambiente sterile ha allungato la vita dei topi + longevi ma non si possono trarre conclusioni sugli altri

Esempio 2.3.4

Page 17: Introduzione v

Media mediana e moda descrivono i valori “centrali” del campione,

MA non colgono il grado di dispersione / concentrazione

dei dati attorno a tali valori.

Esempio

Siano dati i due insiemi Sa={3,4,6,7,10} e Sb={-20,5,15,24}

Calcoliamone le medie:

xa=(3+4+6+7+10)/5 = 6, xb=(-20+5+15+24)/4 = 6,

Si evince che confrontare le medie di due campioni non fornisce indicazioni sufficienti per dedurne delle conseguenze

• Occorrono altri indicatori, Varianza e Deviazione Standard

Esempio 2.3.6

Page 18: Introduzione v

Varianza campionaria• La varianza s2 di un campione S={x1,..,xn} descrive lo scarto

quadratico medio dalla media campionaria

Def.

Se calcoliamo la varianza dei due campioni S1 eS2, notiamo come la loro varianza differisca notevolmente

s2a= ( (3-6)2 + (4-6)2 + (6-6)2 + (7-6)2 + (10-6)2 ) / 4 = 7.5

s2b= ( (-20-6)2 + (5-6)2 + (15-6)2 + (24-6)2 ) / 3 = ~ 360

2

1

2 )(1

1 ∑ =−

−= n

i i xxn

s

Page 19: Introduzione v

Proprieta’ della varianzaProprieta’ della varianza2

1

2

1

2)( xnxxxn

i i

n

i i −=− ∑∑ ==

Trasformazioni lineari dei dati del campioneTrasformazioni lineari dei dati del campioneLa varianza e’ invariante rispetto alla somma di costanti e varia con il quadrato del coefficiente moltiplicativo

Sia sx2 la varianza di un campione Sx e si operi la trasformazione yi=xi+b.

Allora sx2 e’ anche la varianza del campione Sy={yi=xi+b}

Si operi la trasformazione zi=axi, allora la varianza del campione Sz={zi=axi} e’ sz

2 = a2sx2

2

1

22

1

2

2

11

2

2

1

2

1

2

2

2

)2()(

xnxxnxnxx

xnxxx

xxxxxx

n

i i

n

i i

i

n

i

n

i i

i

n

i i

n

i i

−=+−=

=+−=

=+−=−

∑∑∑∑∑∑

==

==

==

ThTh

Dim.Dim.

Page 20: Introduzione v

Deviazione Standard CampionariaDeviazione Standard Campionaria

2

1)(

1

1 ∑ =−

−= n

i i xxn

s

Si definisce la deviazione standard campionaria come la radice quadrata della Varianza Campionaria.

Si osservi che s ha la stessa unita’ di misura dei dati del campione.

Vedremo che proprio per questo e’ utile nello stimare il numero di dati del campione che sono presenti in un certo intervallo di valoricentrato nella media campionaria.

Page 21: Introduzione v

Percentile, quartile, box plotPercentile, quartile, box plot

Def. dato k intero ∊(0,100), si definisce come Percentile kPercentile kesimoesimo il valore ≥ al k% dei dati del campione e contemporaneamente ≤ al (100-k)% dei dati, se unico, altrimenti la media dei 2.

Si tratta del valore in posizione nk/100 avendo i dati del campione ordinati in ordine (non de)crescente.

• Il 25esimo percentile si dice primo quartileprimo quartile, • il 50esimo corrisponde alla medianamediana campionaria, o secondo secondo

quartilequartile • il 75esimo si dice terzo quartileterzo quartile

Page 22: Introduzione v

Esempio: data set di 36 rilevazioni di rumoreEsempio: data set di 36 rilevazioni di rumore

Diagramma stem and leaf dei valori

• 6 0,5,5,8,9

• 7 2,4,4,5,7,8• 8 2,3,3,5,7,8,9• 9 0,0,1,4,4,5,7• 10 0,2,7,8

• 11 0,2,4,5

• 12 2,4,5

Calcoliamo il 1 quartile (25 precentile)

Il campione e’ di 36 dati, cerco (almeno) un dato che sia >= dei primi 9 dati ( 9 = ceiling(36 * 25/100) )<= dei maggiori 27 ( 27 = ceiling(36 * (1 - 25/100)) )

Il nono dato, 75 e’ >= dei primi 9, e <= dei maggiori 28

Anche il decimo dato, 77, soddisfa alle condizioni:77 e’ >= dei primi 10 ed e’ <= dei maggiori 27

Quindi il primo quartile (25 esimo percentile) e’ (75+77)/2 = 76.

NB il k^ percentile puo’ non essere un dato del campione!!

Page 23: Introduzione v

Box PlotsBox Plots

• Si dice blox plot la rappresentazione sul segmento associato all’ intervallo compreso tra il valore minimo e quello massimo nel campione, di due rettangolidue rettangoli adiacenti aventi come lato la parte tra il primo e il secondo quartile, e tra il secondo e il terzo.

27 40

30 31.5 34

60 125

Questo e’ il box plot deli dati di tabella 2.6

Ora facciamo quello dei dati della rumorosita’

76 89.5 104.5

La mediana e’ la media tra 89 e 90, il terzo percentile la media tra 102 e 107

Page 24: Introduzione v

Box plot dei risultati prodotti da 14 algoritmi diversi su 100 istanze.Che tipo di valutazioni vi consente di fare questa rappresentazione?

Page 25: Introduzione v

Disuguaglianza di ChebyshevDisuguaglianza di Chebyshev• Stabilisce per difetto il numero di dati del campione che si trovano

entro una certa distanza dalla media campionaria. • Tale distanza e’ espressa in termini di multipli della deviazione

standard campionaria s.

Def.

dato un campione S={x1,..,xn} di media campionaria xavg e deviazione standard campionaria s, sia Sk l’insieme degli indici dei dati con valore nell’intervallo [xavg- ks, xavg+ ks].

Allora per ogni k≥1 vale che |Sk| /n ≥ 1 – (n-1)/(nk2) > 1 – 1/k2.

Quindi gli elementi fuori da Sgli elementi fuori da Skk sono non piu’ di 1/k sono non piu’ di 1/k22 volte quelli di S. volte quelli di S.

Page 26: Introduzione v

Th: |Sk| /n ≥ 1 – (n-1)/(nk2) > 1 – 1/k2

Dim.

)(

)()()()(

)()1()()1()1(

22

2222

1

2

1

22

k

SiSii

Sii

Sii

n

ii

n

ii

Snsk

ksxxxxxx

xxnxxnsn

kkkk

−=

=≥−≥−+−

=−=−−−=−

∑∑∑∑∑∑

∉∉∉∈

==

Quindi

2

22

2

2

222

11

1)1(1

1)1(

)()1(

)()1(

knS

nSnknk

nSnkn

nSnnkn

Snsksn

k

k

k

k

k

−≥

⇔−≥−≥

⇒−≥−

⇔−≥−

⇔−≥− Divido entrambi imembri per nk2s2

Maggioro (n-1) con n e semplifico

Riordino i terminimettendo in evidenza |Sk|/n

Per def di varianza campionaria Scompongo la sommatoria tra i termini in Sk e quelli fuori da Sk

In base alla definizione di SkPorto fuori dalla sommatoria k2s2

Page 27: Introduzione v

Campioni NormaliMolto spesso gli istogrammi dei dati relativi a delle misurazioni sperimentali in contesti anche molto dissimili, hanno una forma caratteristica

• I campioni normali sono contraddistinti dalla forma a campana degli istogrammi dei dati

• Presentano un unico massimo in corrispondenza della mediana• Media = mediana = moda• La curva della campana e’ simmetrica rispetto alla media

Esempi: altezza dei bambini di una certa scuola, misurata al k esimo giorno di eta’, ore spese davanti alla tv in un giorno, valore dell’emoglobina negli individui sani di sesso maschile in una certa fascia di eta’,…

I campioni con queste caratteristiche si dicono campionicampioni NORMALINORMALI

Page 28: Introduzione v

Esempio di istogramma Esempio di istogramma di un campione perfettamente normaledi un campione perfettamente normale

Page 29: Introduzione v

Esempio di istogramma di un Esempio di istogramma di un campione approssimativamente normalecampione approssimativamente normale

Page 30: Introduzione v

Esempio di istogramma di un Esempio di istogramma di un campione skewed a sinistracampione skewed a sinistra

Asimmetria rispetto alla mediana, coda + lunga a sinistra

Page 31: Introduzione v

Esempio di istogramma di un Esempio di istogramma di un campione skewed a destracampione skewed a destra

Asimmetria rispetto alla mediana, coda + lunga a destra

Page 32: Introduzione v

Nei campioni approssimativamente normali vale la seguente regola empirica che rinforza la disuguaglianza di Chebyshevfornendo percentuali maggiori dei dati che si trovano a distanza s, 2s e 3s dalla media

Regola empirica:In un campione approx normale sia xav la media e s la deviazione standard campionaria, allora • Il 68%68% dei dati sta nell’intervallo [xav - s, xav+s]• Il 95%95% dei dati sta nell’intervallo [xav -2s, xav+2s]• Il 98%98% dei dati sta nell’intervallo [xav -3s, xav+3s]

xav

Page 33: Introduzione v

Campioni BivariatiCampioni Bivariati• Quando i dati relativi a una singola osservazione nel campione sono

coppie di valoricoppie di valori, es temperatura e umidita’, grado di istruzione e stipendio medio, si parla di campioni BIVARIATI

• I dati vengono rappresentati come punti sul diagramma di diagramma di dispersionedispersione, un piano cartesiano con i valori in ordinata e in ascissa riferiti alle due classi di valori dei dati.

Soggetto 1 2 3 4 5 6 7 8 9 10Anni scuola 12 16 13 18 19 12 18 19 12 14Frequenza Card 73 67 74 63 73 84 60 62 76 71

anni studio vs frequenza cardiaca

010

203040

506070

8090

0 5 10 15 20

anni di studio

ba

ttit

i al m

inu

toanni studio vsfrequenza cardiaca

Page 34: Introduzione v

Correlazione tra valori delle coppie (x,y)Correlazione tra valori delle coppie (x,y)

Indichiamo ogni dato iesimo con la coppia dei valori associati (xi,yi)

Ci si domanda se esiste corrispodenza tra I valori di x e y, in particolare

– se a valori alti di x corrispondono generalmente valori alti di y e a valori bassi di x corrispondono generalmente a valori bassi di y si parla di correlazione positiva MENTRE

– Se a valori alti di x corrispondono generalmente valori bassi di y e a valori bassi di x corrispondono generalmente valori alti di y si parla di correlazione negativa tra x e y.

• Nel primo caso il diagrama di dispersione evidenzia una curva crescente, nel secondo una curva decrescente

Page 35: Introduzione v

Introduciamo una misura di questa relazione

Siano xavg e yavg le medie dei valori dei dati relativi al primo e al secondo valore dei dati.

Per ogni dato iesimo consideriamo il prodotto delle differenze dalle medie, prodotto delle differenze dalle medie,

(xavg -xi)(yavg -yi)

Se (xavg -xi)(yavg -yi)>0 allora sia il primo che il secondo valore del dato sono sopra la rispettiva media, oppure entrambi inferiori ad essa. E’ cio’ che accadrebbe in caso di correlazione POSITIVA

Se (xavg -xi)(yavg -yi)<0 allora o il primo valore del dato iesimo xi e’ inferiore alla sua media xavg mentre il secondo valore yi e’ superiore alla propria media yavg, o viceversa. E’ cio’ che accadrebbe in caso di correlazione NEGATIVA.

Sommiamo questo valore per tutti i dati del campione e normalizziamo dividendo per ((n-1) sy sx) dove n e’ la cardinalita’ del campione, e sx sy sono le deviazioni standard campionarie del primo e del secondo valore dei dati del campione.

Page 36: Introduzione v

Coefficiente di Correlazione Campionaria

Def: si definisce coefficiente di CORRELAZIONE CAMPIONARIA r la quantita’coefficiente di CORRELAZIONE CAMPIONARIA r la quantita’

∑∑∑

∑∑∑

===

===

=

−−−−

=−−−−−−−

=−−−≡

n

ii

n

iii

n

ii

ni ini ii

n

ii

yxi

n

ii

yyxxyyxx

nyynxxnyyxx

ssnyyxxr

1

2

1

2

1

..1

2

..1

2

1

1

)()()()(

)1()()1()()1()()(

)1()()( Espandiamo la formula dellaDeviazione standard campionaria

Page 37: Introduzione v

Proprieta’ del Coefficiente di Correlazione Campionaria

1) Il valore del coefficiente di correlazione campionaria e’ compreso tra -1 e 1

2) Se i valori del secondo elemento della coppia di ciascun dato sono legati al primo da una relazione lineare, i.e., yi = axi+b ∀ i=1..n, con a>0 ⇒ allora |r| = 1Se invece la relazione vale per a<0 ⇒ allora |r| = -1

3)Sia r e’ il coefficiente di correlazione campionaria del campione C1={(xi,yi)} e sia C2={(wi,zi)} con wi = axi+b e zi = cyi+d ∀ i=1..n, dove i coefficienti a e c hanno lo stesso

segno, allora il campione C2 ha lo stesso coefficiente di correlazione campionario r del campione C1.

Una rilevante conseguenza della proprieta’ 3 e’ che il coefficiente di correlazione tra i il coefficiente di correlazione tra i due valori {xdue valori {xii} e {y} e {yii} NON dipende dall’unita’ di misura utilizzata per misurarli.} NON dipende dall’unita’ di misura utilizzata per misurarli.

Page 38: Introduzione v

Grado di correlazione tra dati

Il valore assoluto di r e’una misura del grado di correlazione esistente tra i due valori del singolo dato in un campione.

se |r|=1 la correlazione e’ massima e i punti associati ai singoli dati sul diagramma di dispersione si dispongono lungo una retta, di coefficiente angolare pari al segno di r (crescente per r>0, correlazione positiva, decrescente per r<0, correlazione negativa).

Spesso r~1-ε, con ε dell’ordine di qualche decimo.

Se r~0.8 la correlazione e’ intensa, mentre per r~0.4 e’ scarsa, e si dice molto debole per 0.3.

Tipicamente i sw commerciali hanno una funzione che ricerca la retta retta interpolanteinterpolante, come la retta che minimizza la somma

dello scarto quadratico della distanza

di ciascun punto dalla retta stessa.

NB

Correlazione ≠ Rapporto causa-effetto