Ambiente3 elaborazione-statistica-dati ver1

25
ELABORAZIONE STATISTICA DEI DATI METEOROLOGICI e CLIMATICI

Transcript of Ambiente3 elaborazione-statistica-dati ver1

Page 1: Ambiente3 elaborazione-statistica-dati ver1

ELABORAZIONE STATISTICA DEI DATI METEOROLOGICI e

CLIMATICI

Page 2: Ambiente3 elaborazione-statistica-dati ver1

FASI DI UNA ANALISI STATISTICAUna corretta indagine statistica richiede una accurata pianificazione alla scopo di consentire alle informazioni raccolte di essere analizzate in modo appropriato secondo metodi statistici corretti:

– definizione degli obiettivi della ricerca: individuare con estrema cura le informazioni da ricercare:

• evitando la raccolta di informazioni non coerenti con l'obiettivo, • evitando equivoci nelle definizioni, • circoscrivendo con cura ed esattezza il territorio ed il periodo della

indagine, – rilevazione dei dati: che può essere completa, qualora si

esaminano tutti gli elementi oggetto di studio (popolazione), o parziale quando ci si deve limitare a studiare un sotto-insieme di dati rappresentativi del fenomeno oggetto di studio (campione),

Page 3: Ambiente3 elaborazione-statistica-dati ver1

FASI DI UNA ANALISI STATISTICA– elaborazione metodologica: occorre applicare ai dati gli

strumenti di analisi propri della scienza statistica,– presentazione ed interpretazione dei risultati: una

disamina particolareggiata delle implicazioni operative proprie del settore in cui si opera e’ un elemento decisivo per il buon esito di una indagine statistica,

– utilizzazione dei risultati della ricerca: i risultati di una indagine scientifica devono essere utilizzati circoscrivendo l'ambito interpretativo e richiamandosi ai vincoli entro cui essa assume validità.

L'insieme di queste fasi di programmazione dell'indagine prende il nome di disegno sperimentale

Page 4: Ambiente3 elaborazione-statistica-dati ver1

ELEMENTI DI UNA RILEVAZIONE STATISTICA

Definizione della terminologia scientifica utilizzata per quanto concerne una rilevazione statistica:

– rilevazione statistica: con tale termine si intende l'insieme delle operazioni rivolte ad acquisire una o più informazioni su un insieme di elementi oggetto di studio e quindi di indagine statistica;

– popolazione o universo: con tale termine si intende un qualsiasi insieme di elementi che forma oggetto di uno studio statistico;

– campione: si intende come tale qualsiasi sotto-insieme derivato da una certa popolazione o universo e finalizzato ad uno studio statistico. Nello studio dei fenomeni ambientali l'approccio statistico non può che essere di natura campionaria in quanto non è oggettivamente possibile raccogliere dati dell'intera popolazione

– unità statistica: si intende come tale l'elemento di base della popolazione e del campione sul quale viene effettuata la rilevazione di uno o più fenomeni oggetto di studio;

Page 5: Ambiente3 elaborazione-statistica-dati ver1

ELEMENTI DI UNA RILEVAZIONE STATISTICA

• variabile o dato: si intende come tale il fenomeno oggetto dello studio, rilevato o misurato sulle unità statistiche;

• modalità: si intende come tale l'espressione concreta mediante la quale la variabile si manifesta nelle unità statistiche (cioe’ il numero o l'attributo che l'unità statistica manifesta nella rilevazione, a seconda che si tratti di variabile quantitativa o qualitativa)

---------- Esempio ----------• Nello studio del clima di una qualsiasi località, chiameremo:

– campione, l'insieme degli elementi del clima analizzati nell'indagine statistica, quali temperatura, precipitazione, ecc...,

– unità statistica, ogni singolo elemento del clima analizzato e facente parte del campione (temperatura, precipitazione, ecc...),

– variabile o dato, il fenomeno legato alla variabile o dato raccolto (regime termico, regime pluviometrico, ecc...)

– modalità, il valore osservato durante la rilevazione o misurazione dell'unità statistica (es 10,5 °C per la temperatura, 20 mm per la precipitazione, ecc...).

Page 6: Ambiente3 elaborazione-statistica-dati ver1

TIPI DI VARIABILI o DATINell'analisi statistica occorre porre sempre molta attenzione alle caratteristiche delle variabili poiché da esse dipendono le metodologie e gli strumenti statistici da utilizzare.

Le variabili che si misurano per analisi statistiche, quali i dati meteorologici, possono essere classificate secondo il seguente schema:

– qualitative o categoriali : quando le modalità utilizzate per descrivere il fenomeno analizzato assumono la forma di aggettivi o di altre espressioni verbali. A loro volta i dati qualitativi possono essere catalogati in:

• nominali, se non esiste nessun ordinamento naturale tra le modalità e pertanto l'unica operazione consentita è il confronto finalizzato alla verifica dell'esistenza o meno di uno stesso attributo,

• ordinali nel caso in cui le modalità posseggano un ordinamento naturale e cioè siano manifeste in modo logicamente sequenziale, crescente o decrescente (es. visibilità: pessima, cattiva, discreta, buona, ottima).

– Quando le modalità sono solamente due si parla di variabili dicotomiche o binarie

Page 7: Ambiente3 elaborazione-statistica-dati ver1

TIPI DI VARIABILI o DATI– quantitative o numeriche: quando le modalità sono espresse da numeri. Dal punto di

vista delle tecniche statistiche utilizzate i dati numerici si suddividono:• discreti, fenomeni come le precipitazioni, che hanno un inizio ed una fine e sono pertanto

definibili in un intervallo di tempo,• continui, fenomeni come la temperatura, che hanno un valore sempre diverso dallo 0

assoluto.

– univariate : siamo in presenza di variabile univariata quando ogni unità statistica rileva una sola variabile;

– multivariate : siamo in presenza di variabile multivariata quando ogni unità statistica rileva più variabili. Nel caso le variabili siano solamente due parleremo di variabili bivariate (es. vento: direzione e velocita’).

Page 8: Ambiente3 elaborazione-statistica-dati ver1

SCALE DI MISURAZIONELe misure possono essere invece raggruppate in quattro tipi di scale che godono di proprietà formali differenti e, di conseguenza, esse ammettono anche operazioni differenti. Per tutte le discipline naturali, una scala di misurazione dei fenomeni può essere:

– nominale o classificatoria : rappresenta il livello più basso di misurazione ed è utilizzata quando i dati possono essere classificati o raggruppati in categorie qualitative, dette anche nominali. Operazioni consentite: conteggio degli elementi presenti in ogni categoria (es. tempo atmosferico in buono o cattivo, secco o umido, caldo o freddo, ecc...)

– ordinale o per ranghi : assume modalità logicamente sequenziali, in ordine crescente o decrescente. Con la scala per ranghi può essere effettuato un ordinamento sulla base dell'intensità del fenomeno utilizzando la proprietà dei numeri di avere tra loro una relazione di ordine (maggiore di..., superiore a ..., successivo a..., ecc...). Operazioni consentite: conteggio, ordinamento (es. visibilità: ottima, buona, discreta, cattiva, pessima)

Page 9: Ambiente3 elaborazione-statistica-dati ver1

SCALE DI MISURAZIONE– scala ad intervalli equivalenti: permette di misurare le distanze o differenze tra tutte le

coppie di valori. Il punto di origine e l'unità di misura sono arbitrari (es. temperatura, misurata in gradi Celsius o Fahrenheit). Tale scala presenta comunque un limite in quanto non gode della proprietà del rapporto tra coppie di misure. Operazioni consentite : addizioni e sottrazioni.

– scala a rapporti equivalenti: essa presenta il grande vantaggio di avere un'origine reale. Ad esempio la temperatura espressa in gradi Kelvin il cui il valore 0 (zero) significa quantità nulla. Non solo le differenze ma anche gli stessi valori possono essere moltiplicati o divisi per quantità costanti senza che l'informazione di maggior importanza, il rapporto tra essi, ne risulti alterata. Operazioni consentite: tutte le operazioni.

Le scale di misura sono tra loro in relazione gerarchica: – la scala a rapporti equivalenti contiene tutte le altre e rappresenta il livello di misurazione più

elevato in quanto consente di ottenere il maggior numero di informazioni. – la scala nominale è il livello di misura più basso.

Ogni scala può essere trasformata in una di livello inferiore, ma non il contrario ed comunque ogni trasformazione comporta una perdita di informazione.

Page 10: Ambiente3 elaborazione-statistica-dati ver1

SERIE, SERIAZIONE E DISTRIBUZIONE DI FREQUENZA

Per sintetizzare i dati rilevati si deve partire con tre definizioni:

– frequenza: rappresenta il numero di volte in cui una determinata modalità si verifica nel collettivo di riferimento, popolazione o campione;

–serie: rappresenta l'insieme delle modalità rilevate in una popolazione o campione di riferimento ed organizzate in modo che a ciascuna unità della popolazione o del campione corrisponda una ben definita modalità;

–seriazione: rappresenta l'insieme delle modalità di una popolazione o campione di riferimento organizzate in modo che a ciascuna modalità corrisponda la relativa frequenza

Page 11: Ambiente3 elaborazione-statistica-dati ver1

SERIE, SERIAZIONE E DISTRIBUZIONE DI FREQUENZA

Le serie e le seriazioni statistiche si suddividono in :– storiche o temporali : quelle in cui viene esposta la distribuzione di un dato

fenomeno nel tempo;– territoriali o di luogo : quelle in cui viene esposta la distribuzione di un dato

fenomeno nello spazio;– statiche : quelle in cui viene esposta la distribuzione di un dato fenomeno che

non presenta rilevanti variazioni nel tempo e/o nello spazio;– dinamiche : quelle in cui viene esposta la distribuzione di un dato fenomeno

che presenta variazioni nel tempo e/o nello spazio e pertanto sono rappresentative di una precisa tendenza evolutiva;

– rettilinee : sono quelle le cui modalità o frequenze vengono disposte secondo un ordine logico o naturale, dal principio alla fine ;

– cicliche : sono quelle le cui modalità o frequenze si succedono secondo un ordine logico il quale però ha caratteristica di ripetersi ciclicamente;

– sconnesse : sono quelle le cui modalità o frequenze non necessitano di alcun ordine.

Page 12: Ambiente3 elaborazione-statistica-dati ver1

SERIE, SERIAZIONE E DISTRIBUZIONE DI FREQUENZA

• Quando le serie o le seriazioni non risultano ordinate non evidenziano le caratteristiche fondamentali del fenomeno oggetto di studio.

• La prima ed elementare elaborazione può essere rappresentata dall'ordinamento della distribuzione, in modo crescente oppure decrescente.

• Il valore minimo ed il valore massimo, presi insieme, permettono di individuare immediatamente il campo o intervallo di variazione.

• La serie o la seriazione può essere raggruppata per modalità, contando quanti valori o unità statistiche appartengono ad ogni gruppo o categoria ottenendo una distribuzione di frequenza o d'intensità, detta anche semplicemente distribuzione.

• Le distribuzioni di frequenza consentono di analizzare la gran parte dei fenomeni reali a fini di sintesi, confronto ed interpretazione.

Page 13: Ambiente3 elaborazione-statistica-dati ver1

DISTRIBUZIONE DI FREQUENZA PER VARIABILI DISCRETE

Il primo passaggio, quasi intuitivo in una distribuzione discreta, consiste nel definire le modalità :

– identificando il valore minimo e quello massimo;– contando quante volte compare ogni modalità di espressione.

Queste informazioni di norma sono presentate in una tabella (seriazione) (24 osservazioni al gg x 30 gg copertura nuvolosa):

a) frequenza assoluta della classe è il numero di volte con la quale si manifestano le differenti modalitàb) frequenza relativa della classe è la sua frequenza assoluta divisa per il numero totale delle unità statistiche della popolazione o campionec) frequenza cumulata di una classe è la somma di tutte le frequenze delle classi minori con quella della classe stessa

Modalità di espressione x 0 1 2 3 4 5 6 7 8Frequenza assoluta n 173 17 24 29 37 23 97 118 202Frequenza relativa f 0,24 0,02 0,03 0,04 0,05 0,03 0,13 0,17 0,29Frequenza cumulata 0,24 0,26 0,29 0,33 0,38 0,41 0,54 0,71 1,00

Page 14: Ambiente3 elaborazione-statistica-dati ver1

DISTRIBUZIONE DI FREQUENZA PER VARIABILI DISCRETE

La trasformazione da frequenza assoluta a frequenza relativa risulta utile quando si vogliono confrontare due o più distribuzioni, che hanno un differente numero complessivo di osservazioni.

La frequenza cumulata offre invece informazioni importanti quando si intende stimare il numero totale di osservazioni inferiore o superiore ad un valore prefissato.

La distribuzione dei dati e la distribuzione delle frequenze cumulate sono diverse nella loro forma in quanto la prima risulta a campana, mentre la seconda a forma di "S", di tipo asintotico e come vedremo si prestano ad analisi differenti e tale scelta viene fatta sulla base del loro utilizzo statistico.

Page 15: Ambiente3 elaborazione-statistica-dati ver1

DISTRIBUZIONE DI FREQUENZA PER VARIABILI CONTINUE

Nel caso di una variabile continua non è mai possibile far corrispondere ai valori che essa assume le rispettive frequenze (assolute o relative) perché tra due modalità qualsiasi ve ne possono essere infinite altre.

E’ necessario suddividere l'intervallo dei valori che la variabile può assumere (tra il minimo ed il massimo) in classi di modalità (cioè sub-intervalli dell'intervallo di definizione) riferendo la distribuzione delle frequenze agli elementi che appartengono a ciascuna classe così considerata.

Il numero di classi di frequenza da utilizzare dipende strettamente dal numero totale N di osservazioni e, in misura minore, dalla variabilità dei dati.

Un numero troppo basso di classi, raggruppando eccessivamente i dati, determina una perdita di informazione sulle caratteristiche della distribuzione e la rende poco o addirittura per nulla significativa.

Inversamente un numero troppo elevato di classi disperde eccessivamente i valori e non rende manifesta la forma della distribuzione.

Page 16: Ambiente3 elaborazione-statistica-dati ver1

DISTRIBUZIONE DI FREQUENZA PER VARIABILI CONTINUE

Il numero di classi possono essere calcolati con i seguenti metodi:1) metodo di H. Sturges : il numero ottimale di classi C viene ottenuto sulla base del numero di osservazioni N secondo la seguente relazione:

C = 1 + [(10/3) x Log (N) ]dove :a) gli operatori e simboli matematici sono indicati con +,-,x,/b) log N sta per : logaritmo in base 10 di N.

2) metodo di D. Scott : determina l'ampiezza ottimale h delle classi, e quindi in modo indiretto il numero di esse, mediante la relazione :

h = (3,5 x S) / Radq(N)dove :a) gli operatori e simboli matematici sono indicati con +,-,x,/b) S rappresenta la deviazione standardc) Radq(N) rappresenta la radice quadrata di N.

Page 17: Ambiente3 elaborazione-statistica-dati ver1

ESEMPIO: distribuzione di frequenza per variabili continue

(piogge totali mensili)

• Tabelle di frequenza:

• Tavola delle frequenze cumulate:

Page 18: Ambiente3 elaborazione-statistica-dati ver1

• Tavola della distribuzione empirica cumulata: si ottiene ordinando prima le osservazioni secondo un valore crescente e assegnando a ciascuna un valore progressivo, e calcolando infine la probabilita' che si verifichi quel valore o valori inferiori.

F = m / (N+1)dove N = numero osserv.

ESEMPIO: distribuzione di frequenza per variabili continue

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 100 200 300 400 500 600

nel 75% dei casi le precipitazioni saranno inferiori a 300 mm (cioe’

38

anni su 50)

Page 19: Ambiente3 elaborazione-statistica-dati ver1

ESEMPIO: Forma della distribuzione dei principali parametri meteorologici

Page 20: Ambiente3 elaborazione-statistica-dati ver1

Indicatori sintetici per l’analisi delle distribuzione delle frequenze

Tali indicatori, evidentemente, devono tenere conto sia delle modalità assunte dalle variabili che delle corrispondenti frequenze.

E' quindi prioritario esplicitare quali aspetti di una distribuzione di frequenza si intendono esaminare:

a) la tendenza centrale o posizione : cioè la misura della sua centralità complessiva in rapporto alla posizione della popolazione/campione sull'asse delle X,

b) la dispersione o variabilità : cioè la mutevolezza dei dati nella popolazione o campione, ovvero, che indicano l'ampiezza della distribuzione e quindi la sua variabilita',

c) la forma : cioè l'aspetto complessivo della distribuzione di frequenza rispetto a configurazioni standard

Page 21: Ambiente3 elaborazione-statistica-dati ver1

Indicatori sintetici per l’analisi delle distribuzione delle frequenze

Tutti questi indici statistici possono essere suddivisi in tre categorie:a) indici assoluti : sono misure che possono variare liberamente da un

minimo ad un massimo ed i cui valori dipendono strettamente dalla natura della variabile che si sta esaminando

b) indici relativi : sono misure svincolate dall'unità di misura perché costituiscono rapporti tra indici assoluti; sono pertanto numeri puri e sono utili per confrontare fenomeni simili, o anche differenti ma logicamente comparabili;

c) indici normalizzati : sono particolari indici relativi che variano in un intervallo finito, generalmente fra zero ed uno, o zero e cento; essere utilizzati per effettuare sintesi e confronti tra qualsiasi tipo di fenomeni per i quali essi siano logicamente ed analiticamente calcolabili.

Page 22: Ambiente3 elaborazione-statistica-dati ver1

Parametri di posizione• 1. Media aritmetica che si ottiene:

La media possiede tre proprietà:- e' la stima della media della popolazione,- e' il valore centrale di una popolazione normale,- rende nulla la somma degli scarti.

• 2. Mediana, e' il valore della variabile la cui probabilità di essere raggiunta e' pari a 0.5 (Si puo' ottenere dalle tabelle della distribuzione empirica cumulata).

• 3. Moda, e' il valore che compare con la maggiore frequenza e si ottiene:

Moda = Media - 3 (Media- Mediana)

N

xi i∑

=x

Page 23: Ambiente3 elaborazione-statistica-dati ver1

Parametri di dispersione• 1. Intervallo di variazione, si calcola facendo la differenza tra il valore

massimo e quello minimo degli elementi che formano la popolazione.

• 2. Quantili (quartile, decile, percentile), si ottengono ordinando in senso crescente i valori degli elementi e dividendo poi la popolazione in x gruppi,

• 3. Scarto, e' la deviazione di ciascun valore dalla media.

• 4. Varianza, e' la media dei quadrati degli scarti:

• 5. Deviazione standard, e' la radice quadrata della varianza:

• 6. Coefficiente di varianza, e' il rapporto tra la deviazione standard e la media:

( )N

xxS i i∑ −

=2

2

2SS =

Page 24: Ambiente3 elaborazione-statistica-dati ver1

Parametri di formaServono per valutare se la distribuzione è o meno normale, attraverso:

– la forma della simmetria della distribuzione rispetto ad un asse centrale (indice di simmetria)– l'entità dell’appiattimento rispetto ad una distribuzione normale (indice di appiattimento).

Indice di simmetriaUna distribuzione e’ simmetrica quando la distribuzione a destra ed a sinistra del valore medio si equivalgono o asimmetrica quando invece si riscontra una coda più lunga da una parte. La misura della asimmetria si effettua con il Coefficiente di Pearson (o Skewness)

Nel caso di una distribuzione normale poiché media, mediana e moda coincidono il valore del coefficiente di Pearson è zero.

Page 25: Ambiente3 elaborazione-statistica-dati ver1

Parametri di formaIndice di appiattimento (Curtosi)• Si tratta del grado di altezza di

una distribuzione in riferimento ad una distribuzione normale.– Quando questa sia maggiore

della normale si parla di distribuzione leptocurtica, quando è più bassa di platicurtica.

– Nel caso della distribuzione normale il valore è uguale a 3.