“Teoria e metodi della ricerca sociale e organizzativa”

38
1 “Teoria e metodi della ricerca sociale e organizzativa” Corso di Laurea in Scienze dell’Organizzazione Facoltà di Sociologia Università Milano-Bicocca 2009 Simone Sarti

description

“Teoria e metodi della ricerca sociale e organizzativa”. Corso di Laurea in Scienze dell’Organizzazione Facoltà di Sociologia Università Milano-Bicocca 2009 Simone Sarti. Elementi introduttivi di statistica. LA PROBABILITA’. Definizione classica (o frequentista): - PowerPoint PPT Presentation

Transcript of “Teoria e metodi della ricerca sociale e organizzativa”

Page 1: “Teoria e metodi della ricerca sociale e organizzativa”

1

“Teoria e metodi della ricerca sociale e organizzativa”

Corso di Laurea in Scienze dell’OrganizzazioneFacoltà di Sociologia

Università Milano-Bicocca

2009Simone Sarti

Page 2: “Teoria e metodi della ricerca sociale e organizzativa”

2

Elementi introduttivi di statistica

Page 3: “Teoria e metodi della ricerca sociale e organizzativa”

3

LA PROBABILITA’

Definizione classica (o frequentista):

la probabilità di evento è il rapporto tra la frequenza con cui un evento accade e l’insieme degli eventi possibili.

5,02

1

)(

)()(

possibilieventi

testaeventitestap

La probabilità che dal lancio di una moneta otteniamo testa è 0,5.

16,06

1

)(

)1()1(

possibilieventi

eventip

La probabilità che dal lancio di un dado otteniamo 1 è 0,16.

Page 4: “Teoria e metodi della ricerca sociale e organizzativa”

4

LA PROBABILITA’

11,036

4

)(

)5()5(

possibilieventi

eventip

La probabilità che dal lancio di due dadi otteniamo 5 è 0,11.

D1 D2 Tot D1 D2 Tot D1 D2 Tot D1 D2 Tot D1 D2 Tot D1 D2 Tot

1 1 2 2 1 3 3 1 4 4 1 5 5 1 6 6 1 7

1 2 3 2 2 4 3 2 5 4 2 6 5 2 7 6 2 8

1 3 4 2 3 5 3 3 6 4 3 7 5 3 8 6 3 9

1 4 5 2 4 6 3 4 7 4 4 8 5 4 9 6 4 10

1 5 6 2 5 7 3 5 8 4 5 9 5 5 10 6 5 11

1 6 7 2 6 8 3 6 9 4 6 10 5 6 11 6 6 12

Page 5: “Teoria e metodi della ricerca sociale e organizzativa”

5

DISTRIBUZIONE DI PROBABILITA’

La distribuzione di probabilità rappresenta come le probabilità sono associate ai diversi eventi (discreti).

La somma delle probabilità da sempre 1.

Risultato del lancio di una moneta

0

0.1

0.2

0.3

0.4

0.5

0.6

o x

Page 6: “Teoria e metodi della ricerca sociale e organizzativa”

6

DISTRIBUZIONE DI PROBABILITA’

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

0.16

0.18

2 3 4 5 6 7 8 9 10 11 12

Somma ricavata dal lancio di due dadi

Evento più probabile

Page 7: “Teoria e metodi della ricerca sociale e organizzativa”

LA FUNZIONE DI PROBABILITA’ è una funzione algebrica che

descrive la forma della distribuzione di probabilità

)( xXPxpX

La funzione di probabilità assegna una probabilità ad ogni realizzazione x della

variabile casuale discreta X.

px(2)=0.03

px(3)=0.06

px(4)=0.08

px(5)=0.11

px(6)=0.14

px(7)=0.17

px(8)=0.14

px(9)=0.11

px(10)

=0.08

px(11)

=0.06

px(12)

=0.03

1 xpX

Page 8: “Teoria e metodi della ricerca sociale e organizzativa”

8

Se invece di avere un numero discreto di eventi, ne avessimo uno continuo le funzioni di probabilità sono funzioni di

densità di probabilità ed avrebbero la forma di una linea.

In tal caso l’area sottesa alla curva darebbe valore 1.

p

Reddito0 1300 4000

L’area è uguale a 1.

Page 9: “Teoria e metodi della ricerca sociale e organizzativa”

9

Molti fenomeni hanno una distribuzione che approssima una distribuzione nota detta curva normale o gaussiana.

Z

L’area è uguale a 1.p(Z)

Page 10: “Teoria e metodi della ricerca sociale e organizzativa”

10

Somma ricavata dal lancio di due dadi

p

x

0,17

0,08

Page 11: “Teoria e metodi della ricerca sociale e organizzativa”

11

Statura in cm, maschi 20-64 anni

Page 12: “Teoria e metodi della ricerca sociale e organizzativa”

12

«E non è ingiusto, questo? Non è forse vero che chi si comporta così, evidentemente vive tra gli uomini senza averne nessuna esperienza? Se, infatti, li conoscesse appena, saprebbe che son pochi quelli veramente buoni o completamente malvagi e che per la maggior parte, invece, sono dei mediocri.»

«In che senso?» feci.

«È lo stesso delle cose molto piccole e molto grandi. Credi forse che sia tanto facile trovare un uomo o un cane o un altro essere qualunque molto grande o molto piccolo o, che so io, uno molto veloce o molto lento o molto brutto o molto bello o tutto bianco o tutto nero? Non ti sei mai accorto che in tutte le cose gli estremi sono rari mentre gli aspetti intermedi sono frequenti, anzi numerosi?»

Platone, Fedone, XXXIX

Page 13: “Teoria e metodi della ricerca sociale e organizzativa”

13

La curva normale ha delle proprietà statistiche, per cui ad un valore sull’asse delle ascisse corrisponde

un preciso valore dell’area della curva.

xxp

xX

Za

1

p(x)

Page 14: “Teoria e metodi della ricerca sociale e organizzativa”

14

Quando la curva normale è standardizzata (media=0, varianza=1) i valori in ascissa sono detti

punteggi ZETA (Z) e ai punti zeta è possibile associare direttamente l’area sottesa alla curva in

base ad alcune tavole statistiche.

Z

Quando za>1

L’area vale 0,159

za

p(z)

Page 15: “Teoria e metodi della ricerca sociale e organizzativa”

15

ALTRI VALORI DI CORRISPONDENZA TRA Z E LA DENSITA’ DI PROBABILITA’

0,500 = P{ z < 0 }0,500 = P{ z > 0 }0,900 = P{- 1,65 < z < +1,65 }0,950 = P{- 1,96 < z < +1,96 } 0,955 = P{- 2 < z < + 2 } 0,990 = P{- 2,58 < z < + 2,58 } 0,997 = P{ - 3 < z < + 3 }

Page 16: “Teoria e metodi della ricerca sociale e organizzativa”

16

QUALSIASI DISTRIBUZIONE CONTINUA PUO’ ESSERE STANDARDIZZATA

xx

Z i Una distribuzione standardizzata ha media uguale a 0 e deviazione standard (o varianza) uguale a 1.

Page 17: “Teoria e metodi della ricerca sociale e organizzativa”

17

Elementi introduttivi di statistica inferenziale

Page 18: “Teoria e metodi della ricerca sociale e organizzativa”

18

Elementi introduttivi di statistica inferenziale

Si usano le lettere latine per il campione, quelle greche per la popolazione (o universo)

Page 19: “Teoria e metodi della ricerca sociale e organizzativa”

19

Statistica descrittiva e statistica inferenzialeLa statistica descrittiva si propone di riassumere le proprietà di un campione di osservazione (distribuzioni di frequenze, valori tipici).Queste statistiche non offrono alcuna informazione diretta sulla popolazione dalla quale è stato tratto il campione analizzato.Per ottenere tali informazioni è necessario ricorrere alla statistica inferenziale che, applicando la teoria matematica della probabilità, desume le caratteristiche dell’intera popolazione sulla base dell’evidenza campionaria disponibile.

Un’inferenza è una generalizzazione o conclusione riguardante una data popolazione formulata sulla base di dati campionari. Se un campione è altamente “rappresentativo” della popolazione di riferimento, allora le inferenze relative a quest’ultima possono essere formulate con un elevato livello di accuratezza (sebbene mai con certezza).

Page 20: “Teoria e metodi della ricerca sociale e organizzativa”

20

  Il fatto che ci rivolgiamo ad un campione, che è solo una parte della popolazione, comporta che le “misure” che effettuiamo sul campione sono in qualche modo sbagliate.

Più correttamente, le STIME che effettuiamo sul campione hanno un certo grado di INCERTEZZA.

Page 21: “Teoria e metodi della ricerca sociale e organizzativa”

21

 

Quando parliamo di valori tipici della popolazione, parliamo di PARAMETRI

Quando parliamo di valori tipici di un campione, parliamo di STATISTICHE.

Quando facciamo inferenza, attribuiamo conclusioni fatte sul campione alla popolazione, parliamo allora di STIME DI

PARAMETRI, e relativi INTERVALLI DI CONFIDENZA (o di intervalli di credibilità nella statistica bayesiana)

Si usano le lettere latine per il campione (S, X, Y..) quelle greche per la popolazione (μ, σ , …)

Page 22: “Teoria e metodi della ricerca sociale e organizzativa”

22

Teorema del limite centrale

Se tutti i possibili campioni casuali di numerosità n vengono estratti da una data popolazione avente media mu e varianza sigma-quadro,

all’aumentare di n le medie di questi campioni approssimeranno una distribuzione normale, con media mu e varianza sigma-quadro/N.

Indipendentemente dalla forma della distribuzione !

YY n

YY

22

Media della popolazione Varianza della

popolazione

Media delle medie

campionarieVarianza

delle medie campionarie

Page 23: “Teoria e metodi della ricerca sociale e organizzativa”

universo

Media, varianza

Media, varianza

campioni

………………

Distribuzione delle medie campionarie

Y

Y

YY

nY

Y

22

2Y

2Y

Media, varianzaMedia, varianzaMedia, varianza

Page 24: “Teoria e metodi della ricerca sociale e organizzativa”

24

Teorema del limite centrale

La varianza delle medie campionarie diminuisce all’aumentare della grandezza del campione (n). Si parla di ERRORE STANDARD.

Più grandi sono i campioni, minore è l’errore standard e più precisa è la media campionaria nello stimare la media della popolazione.

nY

Y

22

nse Y

Y

2

..

Page 25: “Teoria e metodi della ricerca sociale e organizzativa”

25

Teorema del limite centrale

Distribuendosi le medie campionarie secondo una curva normale, possiamo conoscere la probabilità che le medie campionarie siano

comprese in un dato intervallo.

nse Y

2

..

Page 26: “Teoria e metodi della ricerca sociale e organizzativa”

Teorema del limite centrale

UNIVERSO 100000 CASI

Campione 1 Campione 2 Campione 3 Campione 4 Campione t. . .100 100 100 100 100

. . .

Media=173 Media=174 Media=176 Media=172 Media=175

Le medie campionarie (sotto) approssimano la media della popolazione (174) a meno di un certo margine di incertezza

(che dipende dall’errore standard).

Media= 174 Dev.std.=15

Page 27: “Teoria e metodi della ricerca sociale e organizzativa”

27

Teorema del limite centrale

UNIVERSO 100000 CASI

Campione 1 Campione 2 Campione 3 Campione 4 Campione t. . .100 100 100 100 100

. . .

Media=173 Media=174 Media=176 Media=172 Media=175

5,1100

15..

22

n

se Y

Media= 174 Dev.std.=15

n campionario uguale a 100

Page 28: “Teoria e metodi della ricerca sociale e organizzativa”

28

Z

YZY 2

2Z 2Z

0,950,025 0,025

Il 95% di tutte le medie campionarie sono comprese nell’intervallo: 96,12 Z

05,0

p(Z)

Page 29: “Teoria e metodi della ricerca sociale e organizzativa”

29

Sappiamo che Z ritaglia un’area di 0,95 con valori corrispondenti a più/meno 1,96.

YZY 2 5,196,1 Y

Se consideriamo il primo campione estratto abbiamo che l’incertezza della stima del valore medio di questo campione riguarda l’intervallo:

5,196,1173

1,170 9,176

Page 30: “Teoria e metodi della ricerca sociale e organizzativa”

30

Se stiamo lavorando sul primo campione estratto abbiamo che l’incertezza della stima del valore medio

dell’altezza nella popolazione riguarda l’intervallo:

5,196,1173

1,170 9,176

Estratti un numero molto elevato di campioni di numerosità 100, l’altezza è nel 95% dei casi

compresa tra 170,1 e 176,9

Page 31: “Teoria e metodi della ricerca sociale e organizzativa”

31

0,950,025 0,025

173 176,9170,1

5,196,1173

Page 32: “Teoria e metodi della ricerca sociale e organizzativa”

0,95

0,025 0,025

Prendendo un campione più ampio… n=1000

174 174,9173,1

47,096,1174

Page 33: “Teoria e metodi della ricerca sociale e organizzativa”

170 175,4164,6

0,95

0,025 0,025

Prendendo un campione più piccolo … n=30

74,296,1170

Page 34: “Teoria e metodi della ricerca sociale e organizzativa”

34

Incertezza e numerosità campionaria

YZY 2

n=1000

n=100

n=50

Y

L’e.s. è funzione di n

Page 35: “Teoria e metodi della ricerca sociale e organizzativa”

270,6 300 329,4

0

270,6 300 329,4

10

18

27

• •• •• •• • •• • •• •• • •• •• ••••• • ••• ••• ••••• •• •• • •• • •• •• •• •• •••• • ••

1

^

95%

Esempio tratto da M.Pisati, “Analisi dei dati”

Page 36: “Teoria e metodi della ricerca sociale e organizzativa”

36

Quando la deviazione standard della popolazione non è nota, e la numerosità del campione è elevata, è

possibile stimare l’errore standard usando la deviazione standard del campione.

n

sseStima Y

Y

2

ˆ.).( IN TAL CASO PERO’ SI USA LA DISTRIBUZIONE t di

Student, una distribuzione che approssima la curva normale, ma che ha errori standard più ampi (le code

sono più lunghe) ed è funzione anche della dimensione del campione.

Se n è molto grande T e Z convergono.

Page 37: “Teoria e metodi della ricerca sociale e organizzativa”

37

VALORI DI CORRISPONDENZA TRA T E LA DENSITA’ DI PROBABILITA’:

0,500 = P{ t < 0 }0,500 = P{ t > 0 }0,900 = P{- 1,66 < t < +1,66 }0,950 = P{- 1,98 < t < +1,98 } 0,990 = P{- 2,62 < t < + 2,62 }

0,500 = P{ t < 0 }0,500 = P{ t > 0 }0,900 = P{- 1,65 < t < +1,65 }0,950 = P{- 1,96 < t < +1,96 } 0,990 = P{- 2,57 < t < + 2,57 }

PER n=100

PER n molto grande(convergono con Z)

Page 38: “Teoria e metodi della ricerca sociale e organizzativa”

38

Test di significatività

Se testiamo un’ipotesi su un campione, quanto la risposta che diamo a questa ipotesi è “vera” anche nella

popolazione?