Tommaso Di Fonzo Istat Scuola Superiore di Statistica e di ... · di t t t tidiventa una certezza...

69
Le statistiche e la statistica Tommaso Di Fonzo Istat Scuola Superiore di Statistica e di Analisi Sociali ed Economiche Milano - 9 novembre 2012 Milano 9 novembre 2012

Transcript of Tommaso Di Fonzo Istat Scuola Superiore di Statistica e di ... · di t t t tidiventa una certezza...

Le statistiche e la statistica

Tommaso Di FonzoIstat

Scuola Superiore di Statistica e di Analisi Sociali ed Economiche

Milano - 9 novembre 2012 Milano 9 novembre 2012

PREMESSAEE

QUALCHE RIFLESSIONE INTRODUTTIVA INTRODUTTIVA

GALILEO (1564 –1642):

Il d lib d ll t è ittIl grande libro della natura è scrittoin linguaggio matematico

Mentre una singola persona è unintrico incomprensibile, nell’aggregatodi t t t tidiventa una certezza matematica.O così dicono le statistiche

Arthur Conan Doyley

Ma la natura e la realtà, lo sappiamo bene, , pp ,hanno grande margine di incertezza….e l’incertezza genera rischio!!!

In quel periodo lei era fertile al 10%, io al 5%:Ora diventeremo genitori al 100%(l t ti ti l d t(la statistica va presa con le dovute precauzioni)

Daniele Frongiag

Per minimizzare il rischio occorre una strategia.Una definizione intuitiva della statistica:

strumento strategico che consente di fare scelte consapevoli per minimizzare il scelte consapevoli per minimizzare il rischio

La statistica è la sorella maggioreLa statistica è la sorella maggioredella matematica:È troppo saggia per dare tutto per certo

Alessandro Agus

Una definizione ‘più rigorosa’:l i i è l i d i f i ll i i la statistica è la scienza dei fenomeni collettivi. Ci aiuta a passare dalla estrema variabilità dei fenomeni (economici, demografici, sociali…) a modelliinterpretativi della realtà che ci circonda, attraverso la classificazione e l’astrazione

Un modello statistico può essere errato ma la statistica non sbaglia mai.greengreen

La statistica aiuta dunque a comprendere i fenomeni sociali e a fare sceltea fare scelte…

ed è condizione essenziale per la piena partecipazione dei cittadini alla vita della collettivitàcollettività.

La statistica è la voce dei numeri.Afoni da soli, i numeri con lei prendono la parolaprendono la parola.E ci raccontano storie, vite e scelte di interi popoli…

Silvia Da Valle

La statistica è la continua ricercadella frequenza giusta per sintonizzarsi con il mondo

L diff i d ll lt

sfumatureviola

La diffusione della cultura statistica rappresenta perciò una priorità strategica per un una priorità strategica per un Istituto Nazionale di statistica perché…..nella società della conoscenza, il divario tra ,chi sa e chi non sa è il più grave di tutti.g

t2

Dunque, per la mission dell’Istat, è fondamentale diffondere dati e fondamentale diffondere dati e informazioni statistiche . . .ma anche . . .aiutare i cittadini a saperli leggere e interpretare, attraverso azioni mirate di diffusione della cultura statistica di diffusione della cultura statistica, perché . . .

La statistica è … il miglior suonocontro la cacofonia dei sondaggi

eibbaf

…il valore aggiunto della t ti ti ffi i lstatistica ufficiale

dipende dalla capacità di trasformare i dati in trasformare i dati in conoscenza ….

L’ideologia è personale,la statistica è pubblica

socidecssocidecs

Attraverso la statistica, infatti, La statistica è la scienza della

sintesi: un grafico spiega unè possibile trattare ed elaborare enormi

sintesi: un grafico spiega un fenomeno collettivo meglio di mille parole

elaborare enormi moli di dati ed estrarre

Alberto Verolino

informazioni, sintesi, stime,

i i iprevisioni, per non esserne sommersi sommersi….

LE STATISTICHE

Statistica ufficiale: Programma statistico nazionale

Statistiche da indagine Statistiche da fonti amministrative organizzateStatistiche derivate o rielaborazioniStudio progettualeSistema informativo statistico

La produzione dell’Istat

Circa la metà della produzione dell'Istat è pfinalizzata all'informazione economicaperché i dati relativi all'economia sono tradizionalmente considerati irrinunciabili per una corretta azione di governo.

La produzione dell’Istat

Dagli inizi degli anni Ottanta, tuttavia, le statistiche sociali hanno assunto un rilievo crescente e un ulteriore impulso alla loro valorizzazione proviene dagli organismi internazionali, a conferma di un'esigenza sentita al di là dei confini del Paese.

Attraverso i censimenti generali e le altre rilevazioni totali e campionarie, l'Istituto p ,produce informazioni sui vari aspetti economici, sociali, territoriali e

bi li ambientali.

Le informazioni statistiche vanno diff lt i ti i tilidiffuse, altrimenti sono inutili

htt // i t t ithttp://www.istat.it

La diffusione dell’Istat

L'Istat, a conclusione del processo di produzione dell'informazione statistica, p ,mette i risultati delle rilevazioni a disposizione dei cittadini, delle imprese e delle istituzioni. Le informazioni sono rilasciate gratuitamente su web sotto forma digratuitamente su web sotto forma dicomunicati stampa , pubblicazioni, banche dati e sistemi informativi, tavole di dati. ,Tutte le informazioni pubblicate sono accompagnate dai metadati.

La diffusione dell’Istat

Possiamo definire i metadati come “dati che descrivono e definiscono altri dati in un determinato contesto". Il contesto riguarda le condizioni in cui avviene il trattamento dei dati.

La predisposizione da parte degli istituti di statistica e degli organismi internazionali statistica e degli organismi internazionali di glossari, manuali, documenti che illustrano i metadati (definizioni, classificazioni, metodologie utilizzate) permette agli utilizzatori di interpretare e

tt t i d ti usare correttamente i dati.

La Scuola superiore

Una novità di contesto molto rilevante è Una novità di contesto molto rilevante è rappresentata dalla costituzione presso l’Istat della Scuola Superiore di statistica e analisi sociali ed economiche (dpr n.166 del 7 ottobre 2010).

La Scuola superiore

Il decreto di riordino dell’Istat stabilisce Il decreto di riordino dell Istat stabilisce che l’Istituto svolge attività di formazione e qualificazione professionale per i dirigenti e il personale dell’Istat e delle amministrazioni pubbliche, per gli

t i li dd tti d l Si t operatori e per gli addetti del Sistan e per altri soggetti pubblici e privati. In sostanza, per chi produce le statistiche e sostanza, per chi produce le statistiche e per chi le deve usare.

La Scuola su web

http://www.istat.it/it/istituto-nazionale-di-statistica/attivit%C3%A0/scuola superiore distatistica/attivit%C3%A0/scuola-superiore-di-statistica

Un supporto per studenti e docenti

La promozione della cultura statistica, come ricordato, è tra le priorità strategiche dell’Istat. In questo scenario, molta attenzione viene rivolta al target delle scuole/studenti/giovani. g / /g

http://www.istat.it/it/istituto-nazionale-di-http://www.istat.it/it/istituto nazionale distatistica/attivit%C3%A0/scuola-superiore-di-statistica/under-21

Informazioni utili per docenti e studenti si ritrovano anche sul sito Istat all’indirizzohtt // i t t it/it/i f i i/ t d tihttp://www.istat.it/it/informazioni/per-studenti-e-docenti

Un laboratorio on line per lo il d l t l t t ti tisviluppo del talento statistico

L’Istat ha progettato un ambiente web per offrire agli utilizzatori (prioritariamente docenti e studenti) uno strumento interattivo per la ) pcostruzione di indicatori statistici e l’impiego di strumenti di analisi quantitativa, anche attraverso l’utilizzo di tool avanzati di visualizzazione grafica l utilizzo di tool avanzati di visualizzazione grafica interattiva e dinamica. In questi mesi è in sperimentazione con alcune scuole pilota.

Un laboratorio on line per lo il d l t l t t ti ti

L’uscita pubblica sul web è prevista per giugno

sviluppo del talento statistico

2013. La piattaforma realizzata coniuga al suo interno: a) un’area laboratoriale che, attraverso vari livelli di complessità, offre un percorso p , ppragmatico (essendo la parte teorica rinviata e demandata all’area formazione) attraverso cui avvicinarsi alla comprensione dei dati statistici e avvicinarsi alla comprensione dei dati statistici e delle informazioni maggiormente complesse; b) un’area formazione, in cui vengono forniti una serie di materiali didattici strutturati in maniera serie di materiali didattici strutturati in maniera ipertestuale che consentono sia l’autoformazione che, per il profilo del docente, anche l’ i i di i l’organizzazione di corsi.

LA STATISTICA

Elementi di statistica descrittiva

a) variabili;b) caratteri qualitativi, quantitativi b) ca atte qua tat , qua t tat

discreti e quantitativi continui;c) distribuzioni di quantità e ) q

distribuzioni di frequenza;d) valori medi: media aritmetica,

moda, mediana;e) misure di variabilità: varianza e

t t d ti discostamento quadratico medio;f) correlazione.

VariabiliIn statistica si usa il termine variabile(oppure carattere) per indicare una caratteristica che iene rile ata su ciascuna caratteristica che viene rilevata su ciascuna unità.Ad esempio, se consideriamo un gruppo di Ad esempio, se consideriamo un gruppo di studenti universitari, possiamo rilevare su di essi le variabili:

sesso;età;altezza;altezza;peso;luogo di residenza;luogo di residenza;nazionalità;facoltà cui sono iscritti.

Caratteri qualitativi e quantitativiNel caso in cui il carattere sia misurabile, ovvero per esso sia possibile definire un’unità di misura si parla di carattere quantitati odi misura, si parla di carattere quantitativo(ad esempio il peso, l’altezza, il numero dei fratelli ecc.), esprimibile in numeri cardinali.fratelli ecc.), esprimibile in numeri cardinali.In tutti gli altri casi si è in presenza di caratteri qualitativi (ad esempio: il colore dei capelli o la nazionalità).

Caratteri quantitativi continui e discreti

Un carattere quantitativo è detto continuose, comunque si fissino due valori, tutti i qvalori intermedi possono essere assunti come modalità del carattere (si pensi al “ ” h ll’” tà” i t i “peso” e anche all’”età” se misurata in anni, mesi, giorni, ore, minuti).Un carattere che non sia continuo è detto Un carattere che non sia continuo è detto discontinuo.Un carattere discontinuo è denominato discreto se, comunque si fissi una sua modalità, esiste tutto un intervallo - di cui l d lità è il t i i ll’i f i la modalità è il centro – in cui, all’infuori di essa, nessun altro valore può essere assunto come modalità del carattere.assunto come modalità del carattere.

Caratteri quantitativi discreti e continui

Ad esempio, il “numero dei fratelli” è un carattere discreto: infatti, mentre si possono avere 3 fratelli, non se ne possono avere 2,7 o 2,8 o 2,9 o 3,1 e così via… e

i di ti lti i l i quindi questi ultimi valori non possono essere assunti come modalità del carattere “numero dei fratelli”numero dei fratelli .

Distribuzioni di quantità e distribuzioni di frequenzaIn una distribuzione di quantità viene presentato il modo in cui un carattere pquantitativo si distribuisce tra le sue varie modalità. S d i id i l Se ad esempio considerassimo la distribuzione di alcune aziende per numero di dipendenti potremmo ottenere una tabella dipendenti potremmo ottenere una tabella simile alla seguente:

Numero dipendenti Numero aziendeNumero dipendenti Numero aziendeFino a 5 452.150 258.332da 6 a 20 267.703 27.812da 21 a 50 173.854 5.795d 5 5 7da 51 a 100 134.352 1.967da 101 a 500 214.846 1.140da 501 a 1.000 63.453 93oltre 1 000 118 654 52oltre 1.000 118.654 52Totale 1.425.012 295.193

Distribuzioni di quantità e distribuzioni di frequenzaIn una distribuzione di frequenza viene presentato il numero di unità sulle quali viene rilevata ciascuna modalità del carattererilevata ciascuna modalità del carattere.Se ad esempio considerassimo la distribuzione dei ragazzi iscritti ad una scuola secondaria di g2° grado secondo il carattere «età», potremmo ottenere una tabella, contenente le frequenze

l li i il ll assolute e percentuali, simile alla seguente:Studenti di una scuola secondaria di secondo grado

secondo il carattere etàEtà N. studenti Valori percentualiMeno di 15 anni 56 6,815 anni 154 18,6

secondo il carattere età

,16 anni 167 20,217 anni 145 17,518 anni 182 22,019 anni e oltre 124 15,0Totale 828 100,0

Due esempi di rappresentazione grafica: il diagramma a barre e il grafico a torta

Studenti di una scuola secondaria di

6,8

18,6

15,0

secondo grado secondo il carattere età

Meno di 15 anni

15 i

22,0

15 anni

16 anni

17 anni

18 anni

20,2

17,5

19 anni e oltre

La media aritmetica

La media aritmetica è il tipo di media impiegato più comunemente e quello al quale, p g p q qcon il termine "media", si fa in genere riferimento nel parlare comune. Viene usata

i l per riassumere con un solo numero un insieme di dati su un fenomeno misurabile (ad esempio l'altezza media di una esempio, l altezza media di una popolazione).Viene calcolata sommando i diversi valori a disposizione, i quali vengono divisi per il loro numero complessivo.

La media aritmetica

Ecco un esempio di calcolo della media aritmetica per un gruppo di 9 studenti:p g pp

A 145Altezza di alcuni studenti (cm)

A 145B 154C 162D 170E 165F 146G 162H 168I 150Somma delle altezze 1.422Media aritmetica 158Media aritmetica 158(somma delle altezze divisa per 9, numero degli studenti)

La moda

In statistica la moda o norma di una distribuzione di frequenza è la modalità (o la q (classe di modalità) caratterizzata dalla massima frequenza. In altre parole, è il valore h iù f t tche compare più frequentemente.

La moda

Se ad esempio analizziamo la seguente distribuzione di alcuni studenti suddivisi per pclasse di peso…

Studenti suddivisi per classi di pesoAl di sotto dei 50 kg 12Dai 50 ai 55 kg 23Dai 55 ai 60 kg 35

p p

Dai 55 ai 60 kg 35Dai 60 ai 65 kg 32Dai 65 ai 70 kg 24Al di d i 70 k 8

i t l l d l

Al di sopra dei 70 kg 8Totale 134

…possiamo notare come la classe modale della distribuzione sia quella «Dai 55 ai 60 kg», che ha la frequenza più alta.kg», che ha la frequenza più alta.

La moda ‘si vede’ nel grafico a barre

0 10 20 30 40

l di d i 5 k

Studenti suddivisi per classi di peso

12

23

35

Al di sotto dei 50 kg

Dai 50 ai 55 kg

Dai 55 ai 60 kg 35

32

24

Dai 55 ai 60 kg

Dai 60 ai 65 kg

Dai 65 ai 70 kg

8Al di sopra dei 70 kg

La mediana

Data la distribuzione di un carattere quantitativo oppure qualitativo ordinabile q pp q(ovvero le cui modalità possano essere ordinate in base a qualche criterio), si d fi i l di il l / d lità definisce la mediana come il valore/modalità (o l'insieme di valori/modalità) assunto dalle unità statistiche che si trovano nel mezzo unità statistiche che si trovano nel mezzo della distribuzione. Ovvero come il/i valore/i che divide/dividono la distribuzione in due parti uguali.Per poter ottenere la mediana di una di t ib i l l l f distribuzione occorre calcolare le frequenze assolute (o percentuali) cumulate.Vediamo meglio con un esempio.Vediamo meglio con un esempio.

La mediana

Se utilizziamo nuovamente la distribuzione utilizzata per la moda e calcoliamo le frequen e cumulatefrequenze cumulate…

Peso Frequenze assolute Frequenze cumulateStudenti suddivisi per classi di peso

Peso Frequenze assolute Frequenze cumulateAl di sotto dei 50 kg 12 12Dai 50 ai 55 kg 23 35Dai 55 ai 60 kg 35 70Dai 55 ai 60 kg 35 70Dai 60 ai 65 kg 32 102Dai 65 ai 70 kg 24 126Al di d i 70 k 8 134

…osserviamo come la mediana sia compresa

Al di sopra dei 70 kg 8 134Totale 134

…osserviamo come la mediana sia compresa nella classe «Dai 55 ai 60 kg», nella quale vi è il valore 67 (metà di 134) che divide la distribuzione in parti uguali.

La media e la mediana

La media aritmetica e la mediana possono essere anche moltodistanti tra loro distanti tra loro. Ciò avviene per ledistribuzioni distribuzioni asimmetriche,come possiamo osservare nei due…

esempi esposti…esempi esposti.

La media e la mediana

Mentre per la curva gaussiana…

…i valori di media e mediana coincidono.…i valori di media e mediana coincidono.

La varianza e lo scostamento quadratico medio

La varianza e lo scostamento quadratico medio di una ariabile sono indici della medio di una variabile sono indici della variabilità del carattere, ovvero di quanto i valori rilevati si discostino dalla media. valori rilevati si discostino dalla media. Lo scostamento quadratico medio si calcola come radice quadrata della varianza.

La varianza e lo scostamento quadratico medioSe osserviamo le due distribuzioni delle altezze di due gruppi M e P possiamo notare…

Altezza Scostamento dalla media

Altezza di un gruppo M di studenti (cm)

A 166 1B 162 -3C 169 4D 163 2D 163 -2Somma delle altezze 660Media aritmetica 165

Altezza Scostamento dalla media

Altezza di un gruppo P di studenti (cm)

E 174 9F 157 -8G 169 4H 160 5H 160 -5Somma delle altezze 660Media aritmetica 165

La varianza e lo scostamento quadratico medio

…come entrambe le distribuzioni abbiano come media aritmetica il alore 165 cm ma come media aritmetica il valore 165 cm ma nel caso del gruppo M i valori siano tutti molto vicini a tale media, per cui gli molto vicini a tale media, per cui gli scostamenti dalla media siano piccoli, mentre nel caso del gruppo P, pur in presenza di una media uguale a quella del gruppo M, gli scostamenti sono molto più grandi.Potremo quindi concludere che la varianza (e Potremo, quindi, concludere che la varianza (e dunque lo scostamento quadratico medio) è molto più alta per il gruppo P che per il molto più alta per il gruppo P che per il gruppo M.

La correlazione

Per correlazione si intende una relazione tra due variabili tale che a ciascun valore della prima ariabile corrisponda con una certa prima variabile corrisponda con una certa regolarità un valore della seconda.La correlazione si dice diretta o positivaLa correlazione si dice diretta o positivaquando variando una variabile in un senso anche l'altra varia nello stesso senso (alle stature alte dei padri corrispondono stature alte dei figli); si dice inversa o negativaquando variando una variabile in un senso quando variando una variabile in un senso l'altra varia in senso opposto (a una maggiore produzione di grano corrisponde un prezzo produzione di grano corrisponde un prezzo minore).Prendiamo in considerazione due esempi.

La correlazione

Vediamo un esempio di correlazione positiva:Altezza e peso di un gruppo di studenti

Altezza (cm)

Peso (kg)

A 149 45

Altezza e peso di un gruppo di studenti

A 149 45B 152 51C 155 52D 157 58E 159 62F 161 60G 166 61

Si può notare come all’aumentare dell’altezza degli studenti aumenti anche il loro peso

H 173 68

degli studenti aumenti anche il loro peso, com’è prevedibile che sia.

Un altro esempio di rappresentazione grafica: il grafico a dispersioneI dati appena illustrati possono essere rappresentati graficamente attraverso un l i di fi il fi di i altro tipo di grafico, il grafico a dispersione:

70

Altezza e peso di un gruppo di studenti

40

50

60

10

20

30

0145 150 155 160 165 170 175

La correlazione

Ma la correlazione tra due variabili può essere anche negativa, come possiamo notare con quest’altro esempio:quest’altro esempio:

Produzione annua di Prezzo medio al litro

Produzione annua di vino e prezzo medio al litro

vino (migliaia di ettolitri)

Prezzo medio al litro (in euro)

2004 60.000 4,502005 58 500 702005 58.500 4,702006 57.500 5,002007 57.000 5,202008 54 500 5 602008 54.500 5,602009 54.000 5,902010 53.700 6,102011 51.000 6,70

Vediamo, infatti, che al diminuire della produzione annua di vino aumenta il prezzo

,

medio di un litro di vino.

Un secondo esempio di grafico a dispersioneAnche stavolta possiamo rappresentare graficamente i dati illustrati attraverso un grafico a dispersione: grafico a dispersione:

7 00

8,00

Produzione annua di vinoe prezzo medio al litro

4,00

5,00

6,00

7,00

0,00

1,00

2,00

3,00

50 000 52 000 54 000 56 000 58 000 60 000 62 00050.000 52.000 54.000 56.000 58.000 60.000 62.000

La correlazione lineare e non lineareLa correlazione esaminata finora è di tipo lineare ma esistono relazioni tra variabili anche di tipo non lineare come accade nel anche di tipo non lineare, come accade nel caso di una parabola…

…in questo caso, pur esistendo una relazione …in questo caso, pur esistendo una relazione tra la x e la y, il coefficiente di correlazione lineare ρ tra loro sarebbe uguale a 0.

La statistica in azione

a) probabilità;b) elementi di base del calcolo

bi icombinatorio;c) l’inferenza statistica;d) il i td) il campionamento;e) la regressione.

La probabilitàIl concetto di probabilità è diventato con il passare del tempo la base di diverse discipline scientifiche In particolare su di esso si basa scientifiche. In particolare su di esso si basa la statistica inferenziale.

In probabilità si considera un fenomeno osservabile esclusivamente dal punto di vista della possibilità o meno del suo verificarsi, prescindendo dalla sua natura. Tra due estremi detti evento certo (ad esempio: estremi, detti evento certo (ad esempio: lanciando un dado si ottiene un numero compreso tra 1 e 6) ed evento impossibilecompreso tra 1 e 6) ed evento impossibile(ottenere 1 come somma dal lancio di due dadi), si collocano eventi più o meno probabili(aleatori).

La probabilitàSecondo la definizione classica di probabilità si definisce probabilità di un evento il rapporto tra il numero dei casi favorevolirapporto tra il numero dei casi favorevoliall'evento e il numero dei casi possibili, purché questi ultimi siano tutti equiprobabili.purché questi ultimi siano tutti equiprobabili.

Nel tempo si sono date, tuttavia, anche altre definizioni più complesse e articolate del concetto di probabilità (definizione frequentista definizione soggettiva e frequentista, definizione soggettiva e definizione assiomatica).

Uno degli elementi di base della probabilità è il calcolo combinatorio.

Il calcolo combinatorioPer calcolo combinatorio tradizionalmente si intende la branca della matematica che studia i modi per raggruppare e/o ordinare secondo i modi per raggruppare e/o ordinare secondo date regole gli elementi di un insieme finito di oggetti.oggetti.

Il calcolo combinatorio si interessa soprattutto di contare tali modi, ovvero le configurazioni, e solitamente risponde a domande quali "Quanti sono " "In quanti domande quali "Quanti sono...", "In quanti modi...", "Quante possibili combinazioni..." eccetera.eccetera.

Il calcolo combinatorioPermutazioni semplici (senza ripetizioni)

Una permuta ione di un insieme di oggetti è Una permutazione di un insieme di oggetti è una presentazione ordinata, cioè una sequenza, dei suoi elementi nella quale ogni sequenza, dei suoi elementi nella quale ogni oggetto viene presentato una ed una sola volta.

Per contare quante siano le permutazioni di un insieme con n oggetti si può osservare che un insieme con n oggetti, si può osservare che che il primo elemento della configurazione può essere scelto in n modi diversi, il secondo può essere scelto in n modi diversi, il secondo in (n-1), il terzo in (n-2) e così via sino all'ultimo che potrà essere preso in un solo modo essendo l'ultimo rimasto.

Il calcolo combinatorioPermutazioni con ripetizioniIn alcuni casi un insieme può contenere elementi che si ripetono In questo caso elementi che si ripetono. In questo caso alcune permutazioni di tali elementi saranno uguali tra loro.uguali tra loro.

Disposizioni semplici (senza ripetizioni)Una disposizione semplice di lunghezza k di elementi di un insieme S di n oggetti, con k ≤ n è una presentazione ordinata di k elementi n, è una presentazione ordinata di k elementi di S nella quale non si possono avere ripetizioni di uno stesso oggetto.ripetizioni di uno stesso oggetto.

Il calcolo combinatorioDisposizioni con ripetizioni

Una presenta ione ordinata di elementi di un Una presentazione ordinata di elementi di un insieme nella quale si possono avere ripetizioni di uno stesso elemento si dice ripetizioni di uno stesso elemento si dice disposizione con ripetizioni.

Cerchiamo il numero delle possibili sequenze di k oggetti estratti dagli elementi di un insieme di n oggetti ognuno dei quali può insieme di n oggetti, ognuno dei quali può essere preso più volte. Si hanno n possibilità per scegliere il primo componente, n per il per scegliere il primo componente, n per il secondo, altrettante per il terzo e così via, sino al k-esimo che completa la configurazione.

Il calcolo combinatorioCombinazioni semplici (senza ripetizioni) Si chiama combinazione semplice una presenta ione di elementi di un insieme nella presentazione di elementi di un insieme nella quale non ha importanza l'ordine dei componenti e non si può ripetere lo stesso componenti e non si può ripetere lo stesso elemento più volte.

Combinazioni con ripetizioniQuando l'ordine non è importante ma è possibile avere componenti ripetute si parla di possibile avere componenti ripetute si parla di combinazioni con ripetizione.

L’inferenza statisticaL'inferenza statistica è il procedimento per cui si inducono le caratteristiche di una popola ione dall'osser a ione di una parte popolazione dall'osservazione di una parte di essa, detta campione, selezionata solitamente mediante un esperimento solitamente mediante un esperimento casuale (aleatorio).

Possiamo definire l’inferenza statistica un processo cognitivo in un certo senso opposto al calcolo delle probabilitàopposto al calcolo delle probabilità.

Cerchiamo di capire meglio con un Cerchiamo di capire meglio con un esempio…

L’inferenza statisticaData un'urna con composizione nota di 7 palline rosse e 3 palline bianche, utili ando le regole del calcolo delle utilizzando le regole del calcolo delle probabilità possiamo dedurre che, se estraiamo una pallina a caso dall'urna, la estraiamo una pallina a caso dall urna, la probabilità che essa sia rossa è 0,7.

Si ha invece un problema di inferenza statistica quando abbiamo un'urna di cui non conosciamo la composizione non conosciamo la composizione, estraiamo n palline a caso, ne osserviamo il colore e, a partire da questo, cerchiamo il colore e, a partire da questo, cerchiamo di inferire la composizione dell'urna.

Il campionamento

In statistica il campionamento statistico (che si appoggia sulla teoria dei campioni o teoria si appoggia sulla teoria dei campioni o teoria del campionamento) sta alla base dell'inferenza statistica.dell inferenza statistica.

In particolare una rilevazione si dice campionaria quando è utile per fare inferenza ossia per desumere dal campione stesso informazioni relative all'intera popolazioneinformazioni relative all'intera popolazione.

Il campionamento

Le indagini censuarie, al contrario, riguardano l'intera popola ione e pur essendo più l'intera popolazione e pur essendo più affidabili riguardo ai parametri oggetto d'indagine soffrono di:d indagine soffrono di:

maggiori costi

tempi più lunghi

minore accuratezza e minori risorseconcentrate sul controllo della qualità della concentrate sul controllo della qualità della rilevazione

Il campionamentoLe modalità di selezione del campione sono:

scelta di comodo (campionamento per scelta di comodo (campionamento per quote)

scelta ragionata (campionamento ragionato)

scelta probabilistica (campionamento probabilistico, o casuale).

Nella pratica quotidiana dei sondaggi di opinione e delle ricerche di mercato vengono opinione e delle ricerche di mercato vengono usati tutti e tre gli approcci.

Il campionamentoI concetti di base del campionamento sono:

popola ione d'analisi e popola ione di popolazione d'analisi e popolazione di rilevazione

piano di campionamento e disegno di campionamento

errore campionario

La scelta di un tipo di campionamento avviene in base alle proprietà degli stimatori avviene in base alle proprietà degli stimatori di alcuni parametri oppure per tener conto di problemi di costo, mobilità o altro.

La regressioneL'analisi della regressione è una tecnica usata per modellare ed analizzare una serie di dati che consistono in una ariabile di dati che consistono in una variabile dipendente e una o più variabili indipendenti.indipendenti.

La variabile dipendente nella equazione di regressione è modellata come una funzione delle variabili indipendenti più un termine d'errored'errore.

Quest'ultimo è una variabile casuale e Quest ultimo è una variabile casuale e rappresenta una variazione non controllabile e imprevedibile nella variabile dipendente.

La regressione

XY 1 niXY iii ,,1

niE i ,,102

niVar i 0

,,12

jiE ji 0

La regressioneI parametri dell’equazione di regressione sono stimati in modo da descrivere al meglio i dati.

Il metodo più comunemente utilizzato per ottenere le migliori stime dei parametri è il ottenere le migliori stime dei parametri è il metodo dei "minimi quadrati" ma sono utilizzati anche altri metodi.

30

35

40

45

15

20

25

30

0

5

10

0 5 10 15 20 25

Ma la storia continua ….

GRAZIE PER OL’ATTENZIONE

[email protected]