Medie analitiche Quale media? - Unibg · Quale media? Moda [2/2] Dott. Cazzaniga Paolo La sintesi...

29
Introduzione Medie analitiche Medie di posizione Quale media? La sintesi delle distribuzioni Dott. Cazzaniga Paolo Dip. di Scienze Umane e Sociali [email protected] Dott. Cazzaniga Paolo La sintesi delle distribuzioni

Transcript of Medie analitiche Quale media? - Unibg · Quale media? Moda [2/2] Dott. Cazzaniga Paolo La sintesi...

IntroduzioneMedie analitiche

Medie di posizioneQuale media?

La sintesi delle distribuzioni

Dott. Cazzaniga Paolo

Dip. di Scienze Umane e [email protected]

Dott. Cazzaniga Paolo La sintesi delle distribuzioni

IntroduzioneMedie analitiche

Medie di posizioneQuale media?

Outline

1 Introduzione

2 Medie analitiche

3 Medie di posizione

4 Quale media?

Dott. Cazzaniga Paolo La sintesi delle distribuzioni

IntroduzioneMedie analitiche

Medie di posizioneQuale media?

Outline

1 Introduzione

2 Medie analitiche

3 Medie di posizione

4 Quale media?

Dott. Cazzaniga Paolo La sintesi delle distribuzioni

IntroduzioneMedie analitiche

Medie di posizioneQuale media?

Introduzione

Analisi descrittiva monovariata:segue la raccolta dei dati e il calcolo delle distribuzioni difrequenzapermette di sintetizzare le caratteristiche di una distribuzionesi basa sul calcolo di medie:

analitichedi posizione

Dott. Cazzaniga Paolo La sintesi delle distribuzioni

IntroduzioneMedie analitiche

Medie di posizioneQuale media?

Misure sintetiche di una distribuzione [1/2]

Esistono indici in grado di sintetizzare le caratteristiche delladistribuzione di un carattere (misure di tendenza centrale):

medie analitiche o algebrichecalcolabili solo su dati quantitativiconsiderano tutti i termini della distribuzioneal variare di un valore della serie, cambia anche il valore dellamisura

medie lasche o di posizionecalcolabili sia su caratteri qualitativi sia quantitativinel caso di caratteri qualitativi la media (di posizione) corrispondead una modalità del caratterenon subiscono cambiamenti a fronte di piccole variazioni nelladistribuzioneconsiderano solo alcuni termini della stessa (moda, mediana,quartili, ecc.)

Dott. Cazzaniga Paolo La sintesi delle distribuzioni

IntroduzioneMedie analitiche

Medie di posizioneQuale media?

Misure sintetiche di una distribuzione [2/2]

Definizioni di media:Dato un insieme di valori x1, x2, . . . , xn e una funzione f , sidefinisce media dei valori xi secondo il criterio f quel valore Mtale che: f (x1, x2, . . . , xn) = f (M,M, . . . ,M)

La media M rappresenta il valore che sostituito ai dati delladistribuzione mantiene inalterato il totale

Una media è un qualunque valore reale M compreso fra la piùpiccola e la più grande delle quantità considerate nelladistribuzione (proprietà dell’internalità)

Dott. Cazzaniga Paolo La sintesi delle distribuzioni

IntroduzioneMedie analitiche

Medie di posizioneQuale media?

Outline

1 Introduzione

2 Medie analitiche

3 Medie di posizione

4 Quale media?

Dott. Cazzaniga Paolo La sintesi delle distribuzioni

IntroduzioneMedie analitiche

Medie di posizioneQuale media?

La media aritmetica

La media aritmetica x̄ di un insieme di n valori x1, x2, . . . , xn di uncarattere quantitativo X è:

x̄ =1n

(x1 + x2 + · · ·+ xn) =1n

n∑i=1

xi

Se il carattere X è diviso in k classi, la media può essereapprossimata come:

x̄ ∼=1n

k∑j=1

cjnj oppure x̄ ∼=k∑

j=1

cj fj

dove cj è il valore centrale della classe j , nj e fj sono la frequenzaassoluta e relativa della classe j

Dott. Cazzaniga Paolo La sintesi delle distribuzioni

IntroduzioneMedie analitiche

Medie di posizioneQuale media?

La media aritmetica troncata

Uno dei limiti della media aritmetica è che prende inconsiderazione tutti i valori (compresi gli eventuali outlier)In queste situazioni la media non rappresenta l’interadistribuzione

Per contenere l’effetto degli outlier si può calcolare la media troncata:media aritmetica troncata al 50%: vengono esclusi il 25% deivalori più piccoli e più grandi della distribuzione. La media vienecalcolata sul 50% dei valori centralimedia aritmetica troncata al 90%: esclusi il 5% dei valori piùpiccoli e più grandi. Media sul 90% dei valori

Dott. Cazzaniga Paolo La sintesi delle distribuzioni

IntroduzioneMedie analitiche

Medie di posizioneQuale media?

Proprietà della media aritmetica

La somma dei valori x1, x2, . . . , xn è uguale al valore mediomoltiplicato per nLa somma degli scarti positivi dalla media è uguale (in valoreassoluto) a quella degli scarti negativiLa somma di tutti gli scarti dalla media è pari a zeroLa somma dei quadrati degli scarti dei valori della distribuzionedalla media aritmetica è minore della somma dei quadrati daqualsiasi numeroSe il collettivo viene diviso in sottoinsiemi disgiunti, la media delcollettivo può essere calcolata come media ponderata dellemedie dei vari sottoinsiemi

Dott. Cazzaniga Paolo La sintesi delle distribuzioni

IntroduzioneMedie analitiche

Medie di posizioneQuale media?

La media geometricaMedia geometrica Mg :

dati n valori positivi x1, x2, . . . , xn di un carattere X :

Mg = n√

x1 · x2 · · · · · xn = n

√√√√ n∏i=1

xi

Per semplificare i conti si passa ai logaritmi, sapendo che il logaritmodi Mg è uguale alla media aritmetica dei logaritmi dei singoli valori:

log(Mg) =log(x1) + log(x2) + · · ·+ log(xn)

n

Nel caso di distribuzioni di frequenza:

Mg = n√

xn11 · x

n22 · · · · · x

nkk

dove k è il numero di modalità assunte dal carattereDott. Cazzaniga Paolo La sintesi delle distribuzioni

IntroduzioneMedie analitiche

Medie di posizioneQuale media?

La media armonica

Media armonica Ma:valore che sostituito a tutti i termini della distribuzione ne lasciainvariata la somma dei reciproci

Ma =n∑n

i=11xi

nel caso di distribuzioni di frequenza

Ma =n∑n

i=1nixi

dove ni è la frequenza della modalità xi .

Dott. Cazzaniga Paolo La sintesi delle distribuzioni

IntroduzioneMedie analitiche

Medie di posizioneQuale media?

Outline

1 Introduzione

2 Medie analitiche

3 Medie di posizione

4 Quale media?

Dott. Cazzaniga Paolo La sintesi delle distribuzioni

IntroduzioneMedie analitiche

Medie di posizioneQuale media?

Le medie di posizione

Il valore medio identificato dalle medie di posizione è un valore presodai dati del campione, scelto in base alla sua posizione rispetto aglialtri valori

ModaMedianaQuartili

Su questi caratteri descrittivi non vengono effettuati calcoli algebrici

Dott. Cazzaniga Paolo La sintesi delle distribuzioni

IntroduzioneMedie analitiche

Medie di posizioneQuale media?

Moda [1/2]

La moda o valore modale Mo di un insieme di dati è il valore che èpresente con la frequenza maggiore

Dato un insieme di valori, è possibile che sia presente più di un valoremodale

Una distribuzione è:unimodale se ammette un solo valore modalebimodale se ne ammette duetrimodale se ne ammette tre...

La moda è facilmente individuabile in un diagramma a barre comeintervallo di altezza massima

Dott. Cazzaniga Paolo La sintesi delle distribuzioni

IntroduzioneMedie analitiche

Medie di posizioneQuale media?

Moda [2/2]

Dott. Cazzaniga Paolo La sintesi delle distribuzioni

IntroduzioneMedie analitiche

Medie di posizioneQuale media?

Mediana [1/3]

Data una distribuzione di dati ordinati in senso crescente:tale che x1 ≤ x2 ≤ · · · ≤ xn

la mediana Me è il valore che bipartisce la distribuzioneMe lascia un uguale numero di termini a destra e sinistra

La mediana Me può essere calcolata su:caratteri quantitativi ordinabilicaratteri qualitativi ordinabili

Non può essere calcolata su caratteri qualitativi sconnessi

Dott. Cazzaniga Paolo La sintesi delle distribuzioni

IntroduzioneMedie analitiche

Medie di posizioneQuale media?

Mediana [2/3]Per identificare la mediana Me

Se la numerosità n del collettivo è dispari, la mediana è il valoreo la modalità che occupa la posizione (n + 1)/2

la mediana Me è Me = x( n+12 )

Se la numerosità n del collettivo è pari, la mediana è il valore o lamodalità che occupa la posizione (n/2) + 1, ma generalmente sistima usando i valori che occupano la posizione n/2 e (n/2) + 1

la mediana Me è Me =x( n

2 )+x

( n2 +1)

2Nel caso di distribuzioni di frequenza con valori discreti, lamediana viene calcolata utilizzando le frequenze cumulate

Dott. Cazzaniga Paolo La sintesi delle distribuzioni

IntroduzioneMedie analitiche

Medie di posizioneQuale media?

Mediana [3/3]

Se un carattere quantitativo è suddiviso in classi è solo possibileapprossimare la mediana come:

Me ∼= Im +

(0,5− Fm−1

Fm − Fm−1

)× am

dove:Im è l’estremo inferiore della classe medianaFm−1 è la frequenza relativa cumulata fino alla classe precedentealla medianaFm è la frequenza relativa cumulata fino alla classe medianaam è l’ampiezza della classe mediana

Dott. Cazzaniga Paolo La sintesi delle distribuzioni

IntroduzioneMedie analitiche

Medie di posizioneQuale media?

Mediana per un carattere diviso in classi

La mediana viene calcolata come:

Me ∼= Im+

(0,5− Fm−1

Fm − Fm−1

)×am = 1200+

(0,5− 0,33

0,89− 0,33

)×800 = 1442,86

Dott. Cazzaniga Paolo La sintesi delle distribuzioni

IntroduzioneMedie analitiche

Medie di posizioneQuale media?

Quartili [1/3]

Quartili: indici che dividono una distribuzione ordinata in 4 parti uguali

Primo quartile Q1: valore che lascia alla propria sinistra il 25%dei termini e a destra il 75%Secondo quartile Q2: valore che coincide con la mediana edivide in due parti uguali la distribuzioneTerzo quartile Q3: valore che lascia alla propria sinistra il 75% deitermini e a destra il 25%

Dott. Cazzaniga Paolo La sintesi delle distribuzioni

IntroduzioneMedie analitiche

Medie di posizioneQuale media?

Quartili [2/3]

Per distribuzioni divise in classi, il primo quartile viene approssimatocome

Q1 ∼= IQ1 +

(0,25− FQ1−1

FQ1 − FQ1−1

)× aQ1

dove:IQ1 è l’estremo inferiore della classe in cui cade Q1

FQ1−1 è la frequenza relativa cumulata fino alla classeprecedente a quella di Q1

FQ1 è la frequenza relativa cumulata fino alla classe di Q1

aQ1 è l’ampiezza della classe in cui cade Q1

Dott. Cazzaniga Paolo La sintesi delle distribuzioni

IntroduzioneMedie analitiche

Medie di posizioneQuale media?

Quartili [3/3]

Per distribuzioni divise in classi, il terzo quartile viene approssimatocome

Q3 ∼= IQ3 +

(0,75− FQ3−1

FQ3 − FQ3−1

)× aQ3

dove:IQ3 è l’estremo inferiore della classe in cui cade Q3

FQ3−1 è la frequenza relativa cumulata fino alla classeprecedente a quella di Q3

FQ3 è la frequenza relativa cumulata fino alla classe di Q3

aQ3 è l’ampiezza della classe in cui cade Q3

Dott. Cazzaniga Paolo La sintesi delle distribuzioni

IntroduzioneMedie analitiche

Medie di posizioneQuale media?

Calcolo dei quartili

Q1 ∼= IQ1 +

(0,25− FQ1−1

FQ1 − FQ1−1

)×aQ1 = 18 +

(0,25− 0,050,33− 0,05

)×7 = 24,0

Q2 = Me ∼= IQ2 +

(0,50− FQ2−1

FQ2 − FQ2−1

)×aQ2 = 25+

(0,5− 0,33

0,63− 0,33

)×15 = 33,5

Q3 ∼= IQ3 +

(0,75− FQ3−1

FQ3 − FQ3−1

)×aQ3 = 40+

(0,75− 0,630,78− 0,63

)×20 = 56,0

Dott. Cazzaniga Paolo La sintesi delle distribuzioni

IntroduzioneMedie analitiche

Medie di posizioneQuale media?

Outline

1 Introduzione

2 Medie analitiche

3 Medie di posizione

4 Quale media?

Dott. Cazzaniga Paolo La sintesi delle distribuzioni

IntroduzioneMedie analitiche

Medie di posizioneQuale media?

Scegliere il valore di media più appropriato [1/2]

Media aritmetica x̄ : la più utilizzata (come “media” si intendespesso “media aritmetica”)Media geometrica Mg :

quando si analizzano le variazioni di un fenomeno nel tempoquando la distribuzione presenta valori anomali (è meglio di x̄)è poco sensibile a outlier sia molto piccoli sia molto grandiampiamente usata in medicina e biologia

Media armonica Ma: utilizzata quando esiste un rapportofunzionale tra il tempo ed un’altra variabile oggetto di studio

ad esempio per calcolare la velocità media di automobili chepercorrono lo stesso tratto di stradarapporto funzionale tra lo spazio percorso e il tempo impiegatousata quando viene applicata una trasformazione del tipo 1/x aidati

Dott. Cazzaniga Paolo La sintesi delle distribuzioni

IntroduzioneMedie analitiche

Medie di posizioneQuale media?

Scegliere il valore di media più appropriato [2/2]

Esiste la seguente disuguaglianza Ma ≤ Mg ≤ x̄La media troncata o la mediana vengono calcolate quando sonopresenti outlierLa moda è l’unica misura di sintesi utilizzabile nel caso divariabili sconnesse

In generale, è preferibile usare più misure di sintesi

Dott. Cazzaniga Paolo La sintesi delle distribuzioni

IntroduzioneMedie analitiche

Medie di posizioneQuale media?

Esempi

Esempi con Fogli Google

Esercizio con Calc

Dott. Cazzaniga Paolo La sintesi delle distribuzioni

IntroduzioneMedie analitiche

Medie di posizioneQuale media?

Dove studio questi argomenti?Capitolo 8 del libro!

Dott. Cazzaniga Paolo La sintesi delle distribuzioni