1 Parte prima Introduzione allinferenza statistica di Antonio Mussino [email protected]...

22
1 Parte prima Introduzione all’inferenza statistica di Antonio Mussino [email protected] Strumenti statistici per le ricerche di mercato e la customer satisfaction

Transcript of 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino [email protected]...

Page 1: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di mercato e la.

1

Parte prima

Introduzione all’inferenza statisticadi Antonio Mussino

[email protected]

Strumenti statistici per le ricerche di mercato e la customer satisfaction

Page 2: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di mercato e la.

2

Premessa

E’ sempre più diffuso il ricorso all’informazione quantitativa nel mondo della comunicazione, sia pubblica e istituzionale che privata e imprenditoriale. Questa informazione, in particolare nell’ambito delle analisi dei comportamenti di consumo, si basa quasi esclusivamente su risultati di indagini campionarie e quindi su risultati che vengono generalizzati utilizzando, propriamente o (ahinoi!) impropriamente, l’inferenza statistica.

Page 3: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di mercato e la.

3

Le informazioni

È, pertanto, fondamentale che Voi sappiate leggere e interpretare report contenenti informazioni statistiche, ma anche contribuire a comunicare queste informazioni in modo adeguato.

Non è, in genere, necessario che sappiate applicare i metodi statistici, anche per la diffusione ormai capillare di software user oriented che elaborano facilmente l’informazione, ma certamente dovete sapere quale input è stato dato al software e, di conseguenza, comprendere e interpretare l’output fornito.

Page 4: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di mercato e la.

4

Le definizioni base

In un’indagine in cui si utilizza il metodo statistico vi sono due punti di riferimento chiave: le unità statistiche sulle quali si raccolgono le informazioni e i caratteri che costituiscono le informazioni stesse. L’insieme delle unità statistiche (consumatori, elettori, cittadini) è definito genericamente collettivo; se il collettivo è esaustivo, ossia vi sono incluse tutte le unità statistiche sulle quali vogliamo raccogliere le informazioni, allora lo definiamo popolazione; se, al contrario, solo una parte, in genere piccola, delle unità del collettivo è coinvolta nell’indagine, allora lo definiamo campione.

Page 5: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di mercato e la.

5

Variabili

I caratteri che costituiscono le informazioni devono assumere valori diversi nelle unità del collettivo; se tutte le unità presentano lo stesso valore il metodo statistico non serve; possiamo dire che la statistica studia la variabilità dell’informazione: pertanto risulta più facile definire le informazioni come variabili. Queste possono essere anche molte in un’indagine: nel caso se ne studi una sola alla volta parleremo di statistica univariata; nel caso si studino le relazioni fra due variabili di statistica bivariata; nel caso intervengano più variabili di statistica multivariata. In questo corso ci limiteremo a studiare l’inferenza nel caso univariato e in uno specifico caso di relazione fra due variabili.

Page 6: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di mercato e la.

6

Le “statistiche”

Prima di poter applicare la statistica inferenziale è necessario calcolare le “statistiche” nel campione: in questo caso parleremo di statistica descrittiva; i suoi metodi coincidono con quelli che applicheremmo a un generico collettivo, quindi anche a una popolazione.

Page 7: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di mercato e la.

7

Ancora le variabili

Qualunque carattere misurato sulle unità statistiche di un collettivo e che assume in tale ambito diversi valori è definibile variabile.

Per registrare i diversi valori di una variabile, che possiamo definire genericamente determinazioni, possiamo utilizzare diverse scale di misurazione: così per la variabile “sport praticato” i diversi valori sono esprimibili mediante etichette, quali Atletica, Baseball, Calcio, Ginnastica, Nuoto e così via; per la variabile “tempo nei 100 metri piani” i diversi valori sono esprimibili in secondi e decimi di secondo.

Page 8: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di mercato e la.

8

Quantitative e qualitative

Così appare subito evidente che alcune variabili possono assumere come valori le categorie, altre i numeri.

Una variabile è definita quantitativa quando le sue determinazioni sono numeri: questi possono essere interi (n. fratelli, età in anni compiuti) o vere e proprie misure (tempo nei cento m. piani, peso). È definita qualitativa quando le sue determinazioni sono categorie, esprimibili tramite codici alfanumerici; per lo sport possono essere: 01 calcio, 02 baseball, 03 pallavolo e così via; per lo stato civile: 1 coniugato, 2 vedovo, 3 separato, 4 divorziato, 5 single).

Page 9: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di mercato e la.

9

Variabili qualitative ordinabili

Una attenzione particolare va posta nel caso qualitativo quando le categorie sono naturalmente ordinabili; ad esempio la pratica religiosa può essere espressa tramite la frequenza alla messa domenicale: se vengono contate le domeniche in un anno in cui l’intervistato va a messa abbiamo una variabile quantitativa; se la frequenza viene raggruppata in categorie (1 - tutte le settimane, 2 - almeno una domenica al mese, 3 - più raramente, 4 - mai) allora la variabile è qualitativa, ma in questo caso le categorie hanno una gerarchia di importanza e la variabile è definita qualitativa ordinabile.

Page 10: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di mercato e la.

10

In sintesi

La distinzione fra variabili quantitative, qualitative ordinabili e qualitative non ordinabili è importante, perché le statistiche che permettono la sintesi delle loro distribuzioni sono diverse nei tre casi.

Page 11: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di mercato e la.

11

Spesso nelle indagini di marketing ci troviamo di fronte a variabili qualitative ordinabili, espresse mediante una codifica numerica; ad esempio, la variabile è la risposta alla domanda “Che giudizio dà del servizio di prestito interbibliotecario?”: le categorie sono: 1 - per niente gradito, 2 - poco gradito, 3 - abbastanza gradito, 4 - molto gradito (una scala Likert con numero pari di alternative).

In questo caso la variabile può essere trattata più propriamente come una qualitativa ordinabile, ma spesso risulta comodo utilizzare i codici numerici come veri e propri numeri e trattarla come quantitativa.

Un caso particolare

Page 12: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di mercato e la.

12

La scelta è sempre molto rischiosa, perché corrisponde a un trattamento dell’informazione nel quale la distanza fra per niente gradito e poco gradito dovrebbe essere la stessa di quella che c’è fra poco gradito e abbastanza gradito, o, ancora, molto gradito dovrebbe valere quattro volte per niente gradito e così via, ma spesso viene fatta per la comodità delle sintesi che si ottengono.

Che fare?

Page 13: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di mercato e la.

13

Il campionamento

Si è visto che con l’inferenza statistica si usano le statistiche ottenute in un campione per fare previsioni (stimare) su quelle corrispondenti nella popolazione, che chiamiamo parametri: ma quanto sono valide queste previsioni?

Spesso si sente dire, nell’ambito della ricerca sociale, che sono tanto più valide quanto più il campione è rappresentativo della popolazione da cui è stato estratto: si tratta di una affermazione errata e paradossale, perché se potessi verificare la rappresentatività della popolazione da parte del campione, rispetto ai parametri che sto stimando, vorrebbe dire che conosco già le caratteristiche di tali parametri e quindi il campionamento è inutile!

Page 14: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di mercato e la.

14

Campioni non probabilistici

In realtà la rappresentatività può essere controllata rispetto ad altre variabili che non sono in gioco nell’indagine, ad esempio nella composizione per età e sesso, come si fa nel campionamento per quote, o nel campionamento ragionato: queste sono due modalità di campionamento che definiamo non probabilistiche.

Page 15: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di mercato e la.

15

Campioni probabilistici

Tornando alla domanda precedente, ad essa si può dare risposta solo se il campionamento è probabilistico, ossia se la scelta delle unità della popolazione da inserire nel campione è fatta con una procedura casuale (randomization). Se il campione è scelto in tal modo sarà possibile misurare l’errore che si commette nella stima del parametro della popolazione, ossia quando si fanno le previsioni, partendo dalle statistiche campionarie.

Page 16: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di mercato e la.

16

Campioni casuali: con e senza reintroduzione

Un campione è casuale semplice, se ogni unità della popolazione ha una uguale possibilità di esservi inserita, ovvero di essere scelta.

Questa scelta è ben rappresentata da una estrazione di più palline da un’urna contenente tante palline quante sono le unità della popolazione (e contraddistinte da un codice identificativo): se la pallina è estratta e reinserita nell’urna prima della successiva estrazione si parla di campionamento con reintroduzione; se non viene reinserita oppure (è la stessa cosa!) le palline che faranno parte del campione sono estratte in blocco, allora si parla di campionamento senza reintroduzione.

Page 17: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di mercato e la.

17

Altre strategie probabilistiche e non

La procedura di campionamento casuale può essere più articolata, e allora si parla di campionamento casuale stratificato, di campionamento a grappoli, di campionamento sistematico, oppure di campionamento casuale a più stadi e così via.

Page 18: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di mercato e la.

18

(segue)

In questi casi il processo di inferenza è molto complesso, mentre a noi interessa comprenderne la logica, quindi limiteremo lo studio delle stime al campionamento casuale semplice, lasciando a testi più completi la descrizione della effettiva strategia di campionamento: ad esempio nelle indagini campionarie dell’Istat il disegno di campionamento è molto complesso, a più stadi stratificati, ed è descritto accuratamente nelle note metodologiche al momento della pubblicazione dei risultati.

Page 19: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di mercato e la.

Esempio

Solo alcuni cenni alle procedure che differenziano le principali strategie di campionamento: quello stratificato e quello a grappoli, mentre il campionamento a più stadi si basa su diverse fasi nelle quali le unità da campionare nei vari stadi sono via, via aggregazioni sempre più complesse (ad esempio: municipi, scuole, sezioni, classi, alunni) e in ogni stadio si sceglie una procedura stratificata o a grappoli o semplice (vedi Esercitazione n.1).

19

Page 20: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di mercato e la.

20

(segue)

Nel campionamento stratificato la popolazione viene divisa in gruppi distinti, chiamati strati (ad esempio maschi e femmine, le classi di una scuola, i municipi di una città e così via) e in ogni strato viene effettuato un campionamento casuale semplice. Nel campionamento a grappoli la popolazione viene suddivisa in gruppi distinti, chiamati grappoli (in genere molto più numerosi degli strati) e in ogni grappolo sono prese tutte le unità.

Page 21: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di mercato e la.

21

(segue)

Ad esempio in una scuola, volendo campionare studenti delle prime classi, si può suddividere la popolazione per sezioni e prendere un campioni di alunni in ogni prima, oppure prendere un numero ridotto di prime (almeno due) nelle quali tutti gli studenti entrano nel campione.

Page 22: 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di mercato e la.

22

(segue)

La prima scelta è preferibile se si ipotizza che le sezioni abbiano una composizione differente, la seconda se, al contrario, esse ne hanno una omogenea: in un’indagine sulla pratica di attività fisico motorie, ipotizzando che i compagni di classe siano anche compagni nelle attività ludiche e sportive, sarebbe preferibile un campionamento a strati; in un test sulle abilità logico matematiche, invece, potrebbe essere più facile coinvolgere solo due o tre classi e somministrarvi il test a tutti gli alunni.