Elementi di
statistica
Scuola media G. Ungaretti
Prof. Enrico Castello
conoscere i criteri organizzatori di una tabella di dati
distinguere frequenze assolute e frequenze percentuali
determinare indici centrali e di variabilità
formulare ipotesi intuitive su eventuali relazioni tra i
dati descritti in una tabella o in un grafico
Ti insegnerò a……
individuare le informazioni in una rappresentazione statistica
(diagrammi e tabelle)
usare e interpretare misure di centralità e di dispersione
confrontare diverse distribuzioni con lo stesso carattere
individuare relazioni tra le variabili rappresentate per
descrivere il fenomeno ed effettuare previsioni
Quindi saprai……
STATISTICA E FENOMENI COLLETTIVI
La STATISTICA si occupa dello studio dei FENOMENI COLLETTIVI. Un fenomeno collettivo è un insieme di fenomeni singoli, tutti dello stesso tipo.
Un fenomeno singolo costituisce una unità statistica
ESEMPIO
L’altezza di un alunno in una classe costituisce un FENOMENO SINGOLO. L’altezza di tutti gli alunni in una classe costituisce un FENOMENO COLLETTIVO
L’INDAGINE STATISTICA
Fenomeno collettivo Esempio: situazione occupazionale nella provincia di Cosenza
Popolazione Residenti nella Provincia in un certo periodo
Unità statistiche Singoli individui
Caratteri (modalità) Sesso (M o F), età, stato civile, condizione professionale, …
• Osservazione Registrazione delle risposte ad un questionario
• Aspetti del fenomeno - Quota disoccupati -
Quota disoccupazione giovanile
- Durata di disoccupazione - Relazione tra occupazione,
disoccupazione e sesso - …
L’INDAGINE STATISTICA E LE SUE FASI
1) IMPOSTAZIONE DELL’INDAGINE STATISTICA 2) RACCOLTA DATI
3) SPOGLIO E TRASCRIZIONE DEI DATI 4) ELABORAZIONE DATI
Per INDAGINE STATISTICA si intende un’insieme di attività finalizzate ad approfondire la conoscenza di un fenomeno. Le sue FASI sono:
1) IMPOSTAZIONE DELL’INDAGINE STATISTICA
In questa prima fase occorre precisare: LO SCOPO DELLA RICERCA GLI OBIETTIVI CHE SI VOGLIONO RAGGIUNGERE LE UNITÀ STATISTICHE OGGETTO DI INDAGINI
2) RACCOLTA DEI DATI
NATURA DEI DATI I dati raccolti possono essere di natura QUANTITATIVA oppure QUALITATIVA I dati qualitativi sono rappresentati da aggettivi (nazionalità, religione, ecc) I dati quantitativi sono espressi da numeri (altezza, peso, ecc.)
METODI DI RACCOLTA DEI DATI La raccolta dei dati può essere GLOBALE oppure a CAMPIONE La raccolta globale riguarda tutte le unità statistiche che compongono il fenomeno collettivo La raccolta a campione riguarda solo una parte delle unità statistiche che compongono il fenomeno collettivo
In questa seconda fase occorre stabilire in modo preciso quali sono i dati da rilevare
TECNICA DI RACCOLTA DEI DATI Tecnicamente,la raccolta dei dati può essere fatta in modi diversi, tuttavia la raccolta più seguita è quella dell’INTERVISTA DIRETTA o INDIRETTA L’intervista diretta prevede domande poste direttamente dall’intervistatore L’intervista indiretta prevede il riempimento di un questionario che l’intervistato deve riempire in tutte le sue parti
ORGANI PREPOSTI ALLA RACCOLTA DEI DATI La raccolta dei dati può essere fatta da CHIUNQUE abbia interesse a fare una ricerca statistica. In Italia l’organo più importante che si occupa della raccolta dei dati e della loro successiva elaborazione è L’ISITUTO CENTRALE DI STATISTICA (sigla ISTAT)
TRASCRIZIONE IN TABELLE Una volta enumerati e classificati, i dati vengono trascritti in TABELLE. Si distinguono diversi tipi di TABELLE
CLASSIFICAZIONE DEI DATI IN GRUPPI I dati raccolti, dopo essere stati enumerati vengono CLASSIFICATI in GRUPPI ossia suddivisi in classi omogenee
3) SPOGLIO E TRASCRIZIONE DEI DATI
ENUMERAZIONE DEI DATI L’enumerazione dei dati avviene scrivendo materialmente un numero progressivo (001, 002, ecc.) su ogni questionario allo scopo di effettuare un controllo sul numero delle unità statistiche effettivamente prese in considerazione
Tale fase comporta:
1) TABELLA SEMPLICE
RAPPRESENTAZIONE NUMERICA
Orario
(h)
Temperatura (°C)
0 2
6 2
12 11
18 8
24 4
ESEMPIO: Riportiamo in una TABELLA SEMPLICE i DATI riguardanti le TEMPERATURE registrate durante una giornata autunnale ad intervalli di sei ore:1)h=0;T=2°c 2)h=6;T=2°C 3)h=12;T=11°C 4)h=18;T=8°C 5)h=24;T=4°C
dati
tabella semplice
2) TABELLA COMPOSTA
RAPPRESENTAZIONE NUMERICA
ESEMPIO: Riportiamo in una TABELLA COMPOSTA i DATI riguardanti le ALTEZZE (h) ed i PESI (P) di una famiglia di quattro persone: 1) Padre; h = 175 cm; p = 80 kg 3) Figlio h = 180 cm; p = 74 kg 2) Madre: h = 170 cm; p = 64 kg 4) Figlia h = 173 cm; p = 60 kg
dati
tabella composta
Componente
nucleo
altezza
h = cm
peso
P = kg
Padre 175 80
Madre 170 64
Figlio 180 74
Figlia 173 60
TRASCRIZIONE DEI DATI PER CLASSI
La rappresentazione di una DISTRIBUZIONE DI DATI PER CLASSI, si presenta VANTAGGIOSA quando i dati sono molto NUMEROSI per una rappresentazione ponderata
Rappresentazione ponderata
Rappresentazione per classi di peso
CLASSI DI PESO
(termini)
N° STUDENTI
(frequenze)
50 – 60 Kg 4
60 – 70 Kg 7
70 – 80 Kg 3
totale 14
L’ informazione, diviene meno precisa nel caso di una distribuzione per classi, tuttavia la visione della distribuzione diventa più semplice e rapida
PESO (Kg)
(termini)
N° STUDENTI
(frequenze)
52 1
54 1
55 2
60 1
63 1
68 2
69 3
71 1
73 1
75 1
TOTALE 14
E S E M P I O
4) ELABORAZIONE DEI DATI
In questa fase i dati vengono sottoposti ad una elaborazione matematica il cui scopo è quello di esprimere i risultati dell’indagine in modo sintetico
1) LE FREQUENZE ASSOLUTE E RELATIVE 2) LA MEDIA ARITMETICA 3) LA MEDIA PONDERATA 4) GLI SCARTI DALLA MEDIA ARITMETICA 5) LA VARIANZA 6) LO SCARTO QUADRATICO MEDIO 7) LA MODA 8) LA MEDIANA
Alcune forme di elaborazione dei dati statistici sono:
FREQUENZE ASSOLUTE
La FREQUENZA ASSOLUTA indica quante volte la MODALITÀ di un CARATTERE si ripete
Colore capelli
(carattere)
N° persone
(frequenza assoluta)
Neri 10 Castani 6 Rossi 1 biondi 5 totale 22
Frequenze
assolute
carattere
modalità
FREQUENZE RELATIVE
La frequenza relativa di una certa modalità è data dal rapporto tra la frequenza assoluta di tale modalità ed il numero totale dei casi; se è percentuale il valore va moltiplicato per 100:
Le FREQUENZE ASSOLUTE, di due distribuzioni di dati, anche della stessa specie, non sono confrontabili in quanto si riferiscono, in generale, ad un diverso numero di casi complessivi. Questo inconveniente viene superato introducendo il concetto di FREQUENZA RELATIVA
totalefrequenzaassolutafrequenzarelativafrequenza
OSSERVAZIONE: Le frequenze relative % non sono
altro che RAPPORTI PERCENTUALI
100%_ totalefrequenza
assolutafrequenzarelativafrequenza
CALCOLO DELLE FREQUENZE RELATIVE
Consideriamo i dati presenti nella seguente tabella
Colore capelli
(carattere)
frequenze
assolute
neri 10
castani 6
rossi 1
biondi 5
TOTALE 22
Colore capelli
frequenze
assolute
frequenze
relative %
neri 10 45,46
castani 6 27,27
rossi 1 4,55
biondi 5 22,72
TOTALE 22 100
45,4510022
10
54,410022
1
27,2710022
6
72,2210022
5
Calcolo FREQUENZE RELATIVE %
MEDIA ARITMETICA SEMPLICE
n
naaaa
M
......
321
naaa ..............21
Consideriamo una distribuzione di DATI DIVERSI UNO
DALL’ALTRO:
La MEDIA ARITMETICA SEMPLICE è uguale alla somma dei
dati divisa per n, cioè:
Gli indici di posizione centrale
COMPITO VOTO
N° 1 7
N° 2 8
N° 3 6
TOTALE 21
Un alunno nei tre compiti di matematica ha riportato
i voti presenti in tabella.
Calcolare la MEDIA ARITMETICA dei voti.
n
aaaM 321
73
21
3
687
M
Dove:
21 = somma dei voti
3 = numero dei voti
7 = MEDIA ARITMETICA dei voti
MEDIA ARITMETICA SEMPLICE
Esempio di calcolo
Gli indici di posizione centrale
MEDIA ARITMETICA PONDERATA
Se i dati si presentano con una certa FREQUENZA o PESO allora il calcolo della media deve essere effettuato sommando ogni termine tante volte quante indica la sua frequenza
Supponiamo che: Il termine a1 si presenta con frequenza p1 Il termine a2 si presenta con frequenza p2 ………………………………………………………………………… Il termine an si presenta con frequenza pn
Il calcolo della MEDIA PONDERATA si effettua con la relazione:
n
nn
pppp
papapapaMp
.......
......
321
332211
Gli indici di posizione centrale
MEDIA ARITMETICA PONDERATA
Esempio di calcolo
20 Studenti di una classe, hanno ottenuti
in matematica i voti riportati in tabella
Calcolare la MEDIA PONDERATA dei voti.
54321
5544332211
ppppp
papapapapaMp
Dove:
122 = somma dei voti
20 = numero di studenti
6,1 = MEDIA PONDERATA dei voti
Voto in Matematica
Numero
studenti
4 2
5 3
6 8
7 5
8 2
totale 20
1,620
122
25832
2857863524
Mp
Gli indici di posizione centrale
MEDIA PONDERATA NEL CASO DI UNA
DISTRIBUZIONE DI DATI PER CLASSI
In questo caso ad ogni classe, viene sostituito il
TERMINE CENTRALE, calcolato mediante la semisomma
dei termini estremi della classe (X1-X2)
I termini centrali così ottenuti costituiscono i termini
a1; a2; a3; ecc. della distribuzione
classe frequenza
X1-X2 p1
X2-X3 p2
X3-X4 p3
ecc. ecc.
2
211
xxa
Termine centrale
frequenze
a1 p1
a2 p2
a3 p3
ecc. ecc.
n
nn
pppp
papapapaMp
.......
......
321
332211
SEMISOMME
Infine la media
ponderata si
calcola con la
relazione
2
322
xxa
Gli indici di posizione centrale
MEDIA PONDERATA DI UNA DISTRIBUZIONE DI DATI PER CLASSI
Esempio di calcolo
Si fa riferimento ai dati della tabella 1
Classi di età (anni)
n° persone
(Frequenze)
0 - 20 35
20 - 40 4
40 - 60 1
totale 40
termini
centrali
n° persone
(Frequenze)
a1 = 10 P1 = 35
a2 = 30 P2 = 4
a3 = 50 P3 = 1
totale 40
1340
520
40
1504303510
321
332211
ppp
papapaMp
CALCOLO
valori centrali
102
20
2
2001
a
302
60
2
40202
a
Calcolo della media ponderata
Età media = 13 anni
Gli indici di posizione centrale
MEDIANA
Si definisce MEDIANA il termine che occupa il POSTO CENTRALE di una distribuzione di dati ordinati in modo crescenti
ESEMPIO: Determinare la MEDIANA della seguente distribuzione di voti:
VOTO FREQUENZA
5 4
6 8 7 4
8 2
9 1
5 5 5 5 6 6 6 6 6 6 6 6 7 7 7 7 8 8 9
Il TERMINE CENTRALE è il 6, infatti è quello che lascia alla sua destra e alla sua sinistra un eguale numero di termini, pertanto si ha:
MEDIANA = 6
Si ordinano i dati in maniera crescente
Se i dati sono in numero pari, allora si hanno due termini centrali, in tal caso come mediana si prende la loro media aritmetica
Gli indici di posizione centrale
Si definisce MODA di una distribuzione di dati il termine corrispondente alla MASSIMA FREQUENZA. In sostanza si tratta del termine più comune
MODA
ESEMPIO: Determinare la MODA della seguente distribuzione di voti:
VOTO FREQUENZA
5 4
6 8 7 4
8 2
9 1
Il termine che corrisponde alla massima frequenza (8) è il 6, pertanto:
MODA = 6
Gli indici di posizione centrale
Per comprendere cos’è la VARIABILITA’ di un fenomeno statistico consideriamo la tabella che segue, nella quale vengono indicati quanti televisori sono stati venduti da un commerciante nei primi tre mesi del 2003 e 2004
VARIABILITA’ DI UN FENOMENO STATISTICO
Gennaio 30 40
febbraio 30 20
marzo 30 30
totale 90 90
mese 2003 2004
Si ha VARIABILITA’quando i dati relativi ad un fenomeno statistico non sono tutti uguali
Dalla tabella si nota che nel 2003 la vendita mensile dei televisori risulta COSTANTE (30-30-30), mentre nel 2004 essa subisce una VARIAZIONE (40-20-30)
Pertanto: 1) NON SI HA VARIABILITÀ nelle Vendite del 2003 2) SI HA VARIABILITÀ nelle vendite del 2004
SCARTI DALLA MEDIA ARITMETICA
Si definiscono SCARTI DALLA MEDIA ARITMETICA le Differenze fra ciascun TERMINE e la MEDIA ARITMETICA
Data la seguente distribuzione di dati a1; a2; a3; ……….; an Sia M la loro media aritmetica, gli SCARTI sono: (a1-M); (a2-M); (a3-M); (………); (an-M)
Gli scarti possono essere POSITIVI e NEGATIVI, tuttavia la loro SOMMA è SEMPRE UGUALE A ZERO S = (a1-M) + (a2-M) + (a3-M) + (………) + (an-M) = 0
VARIANZA (σ2)
La VARIANZA serve per valutare la VARIABILITÀ di un fenomeno statistico
1) La VARIANZA è sempre POSITIVA: infatti i termini (a-M)2 sono tutti positivi 2) La VARIANZA è uguale a ZERO se la VARIABILITÀ è nulla 3) La VARIANZA è tanto più ALTA quanto più alta è la VARIABILITÀ
La VARIANZA è la media aritmetica degli scarti al quadrato, si indica con il simbolo σ2 ( si legge sigma al quadrato) e si calcola con la relazione:
n
MnaMaMa 2........22
212
CALCOLO DELLA VARIANZA
giorno
1 Kg di Ciliegie
1 Kg di Angurie
Scarto
ciliegie
Scarto al
quadrato
Scarto
angurie
Scarto al
quadrato
Lunedì € 5,00 € 1,00 - 0,25 0,0625 + 0,25 0,0625
Martedì € 5,10 € 1,00 - 0,15 0,0225 + 0,25 0,0625
Mercoledì € 5,20 € 0,80 - 0,05 0,0025 + 0,05 0,0025
Giovedì € 5,30 € 0,70 + 0,05 0,0025 - 0,05 0,0025
Venerdì € 5,40 € 0,50 + 0,15 0,0225 - 0,25 0,0625
Sabato € 5,50 € 0,50 + 0,25 0,0625 - 0,25 0,0625
MEDIA € 5,25 € 0,75 Somma=0
Somma = 0,175
Somma = 0
Somma = 0,225
Essendo la VARIANZA delle angurie (0,04), maggiore della VARIANZA delle ciliegie (0,03), il prezzo delle angurie ha subito una variazione maggiore rispetto al prezzo delle ciliegie
Per le ciliegie si ha: M = 5,25 e σ2 = 0,175/6 = 0,03
Per le angurie si ha: M = 0,75 e σ2 = 0,225/6 = 0,04
I prezzi di CILIEGIE ed ANGURIE, in una settimana, variano secondo i dati riportati in tabella. Stabilire in base al calcolo della VARIANZA quale dei due prodotti ha subito una maggiore variazione di prezzo.
SCARTO QUADRATICO MEDIO (σ)
A volte per misurare il grado di VARIABILITÀ di una distribuzione di dati, si preferisce ricorrere allo SCARTO QUADRATICO MEDIO cioè alla RADICE QUADRATA della VARIANZA
2var ianza
L’IMPORTANZA dello scarto quadratico medio risiede nel fatto che esso permette di giungere al concetto di NORMALITA’ nel campo statistico
Un CARATTERE su cui si indaga si dice compreso NELLA NORMA quando esso non differisce dal CARATTERE MEDIO di più o di meno tre volte lo SCARTO QUADRATICO MEDIO.
Esempio: Se una popolazione evidenzia un’ALTEZZA MEDIA H = 175 cm con uno SCARTO QUADRATICO MEDIO σ = 5 cm, possiamo dire che Un’ALTEZZA rientra NELLA NORMA se compresa tra: H – 3 σ = 175 – 3 x 5 = 160 cm H + 3 σ = 175 + 3 x 5 = 190 cm ALTEZZE fuori da tale intervallo (160;190cm) sono FUORI NORMA
NORMA e FUORI NORMA
Un CARATTERE che va fuori tali limiti si dice FUORI NORMA
Prova tu………
Esercizio individuale per il 7 maggio
Lanciando due dadi, si sono registrati i seguenti punteggi totali:
10 – 9 – 8 – 11 – 5 – 4 – 10 – 4 – 7 – 7 – 9 – 10 – 4 – 6 – 8 – 9 – 6 –
5 – 6 – 8 – 7 – 10 – 9 – 5 – 6 – 3 – 8 – 7 – 5 – 7 – 11
1. organizza i dati in una tabella di frequenza
2. qual è il dato con la maggior frequenza
3. sono usciti più frequentemente risultati dispari o pari?
4. sono usciti più frequentemente risultati maggiori o minori di 7?
5. qual è la frequenza percentuale del punteggio 6?
6. Determina la MODA e la MEDIANA
Questionario voi e lo sport
LAVORO DI GRUPPO (entro mercoledì 9 maggio): INDAGINE STATISTICA
Dati generali
1 Cittadinanza ................ 2 Sesso M F 3 Età ................ 4 Peso ................ 5 Altezza .................
Dati specifici
1 Pratichi uno sport? SI NO 2 Se sì: calcio? SI NO 3 Se sì: nuoto/pallanuoto? SI NO 4 Se sì: danza/ginnastica? SI NO 5 Se sì: pallavolo? SI NO 6 Se sì: pallacanestro? SI NO 7 Se sì: arti marziali? SI NO 8 Se sì: tennis? Si NO 9 Se sì: altro? SI NO
Top Related