Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati...

36

Transcript of Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati...

Page 1: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure
Page 2: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

IDROLOGIA

P Claps

Analisi esplorativa di serie di dati

ANALISI ESPLORATIVA

DI SERIE DI OSSERVAZIONI

IDROLOGIA

P Claps

Analisi esplorativa di serie di dati

Rappresentazione tabellare della serie storica

2

Sequenza ordinata

Sequenza cronologica

Osservazioni di massimo annuo di pioggia in un giorno

Page 3: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

IDROLOGIA

P Claps

Analisi esplorativa di serie di dati

Rappresentazione grafica della serie storica (Sequenza cronologica)

3

0 100 200 300 400 500

1921

1926

1931

1936

1941

1946

1951

1956

1961

1966

1971

1976

1981

1986

h(m

m)

anno

massimo annuo di pioggia in un giorno

IDROLOGIA

P Claps

Analisi esplorativa di serie di dati

4

Altro esempio: regione Lombardia. Consumi energetici annui

Non stazionarietà (Civile, industria)

Bassa variabilità (Agricolt.)

Page 4: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

IDROLOGIA

P Claps

Analisi esplorativa di serie di dati

5

Diagramma a punti

Ampiezza del campione

Distribuzione del campione (Caratteristiche di variabilità)

IDROLOGIA

P Claps

Analisi esplorativa di serie di dati

6

n= numero totale di dati campionari k= numero di classi Numero di dati campionari che ricadono nella classe(0-75) divisi per il numero totale di dati

•  Rappresentazione ad istogramma delle frequenze di classe, sia •  Assolute (n°elementi per classe), che •  Relative: (n° elementi per classe divisi per N=numero totale dati) frequenza relativa

Per evitare arbitrarietà nella determinazione del numero di classi, si può utilizzare la relazione suggerita da Sturges che lega il numero delle classi, k, alla dimensione del campione, N, secondo la relazione :

(logaritmo in base 10)

Distribuzione del campione (Caratteristiche di variabilità)

Page 5: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

IDROLOGIA

P Claps

Analisi esplorativa di serie di dati

7

0

0.2

0.4

0.6

0.8

1

1.2

0 50 100 150 200 250 300 350 400 450

X(mm)

freq

uenz

a cu

mul

ata

Curva di Frequenza cumulata (campionaria)

Frequenza cumulata campionaria:

Distribuzione del campione (Caratteristiche di variabilità)

IDROLOGIA

P Claps

Analisi esplorativa di serie di dati

Media campionaria Varianza

Coefficiente di

asimmetria (skewness)

Coefficiente di

appiattimento (kurtosi)

8

MOMENTI CAMPIONARI

singolo dato campionario Media campionaria

Page 6: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

IDROLOGIA

P Claps

Analisi esplorativa di serie di dati

9

QUARTILI del Campione

0

0.2

0.4

0.6

0.8

1

1.2

0 50 100 150 200 250 300 350 400 450

X(mm)

freq

uenz

a cu

mul

ata

0,25

I II III

0,50

0,75

IDROLOGIA

P Claps

Analisi esplorativa di serie di dati

Rappresentazione Box-Plot della serie   Limiti del box:   Si definisce range interquartile (IQR) la differenza:

IQR = X(Φ=0.75) - X(Φ=0.25)

10

Inferiore: I quartile del campione x(Φ=0.25)

Superiore: III quartile del campione x(Φ=0.75)

Linea mediana: II quartile del campione x(Φ=0.50)

Page 7: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

IDROLOGIA

P Claps

Analisi esplorativa di serie di dati

Limiti dei whiskers:

Inferiore

Valor minimo della serie delle osservazioni (X1)

oppure

I quartile - 1.5 volte IQR ! X(Φ=0.25) - 1.5 IQR

Se negativo può essere posto pari a zero quando le osservazioni sono

definite positive

Superiore

Valor massimo della serie delle osservazioni (Xn)

oppure

III quartile + 1.5 volte IQR ! X(Φ=0.75) + 1.5 IQR

11

IDROLOGIA

P Claps

Analisi esplorativa di serie di dati

Nella rappresentazione con i whiskers si possono indicare tutte le osservazioni di valore inferiore al whisker minimo e superiore al whisker massimo

12

Page 8: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

IDROLOGIA

P Claps

Analisi esplorativa di serie di dati

13

IDROLOGIA

P Claps

Analisi esplorativa di serie di dati

14

SIMBOLOGIA

Page 9: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

CONCETTI FONDAMENTALI DELLA TEORIA DELLE PROBABILITA’.

Esperimento aleatorio.

Spazio campionario o popolazione.

Esempi:

Esperimento Popolazione Tipo

Numero di giorni piovosi in un anno { }365,.....2,1,0 Finito, numero

Numero di giorni non piovosi consecutivi { }.........2,1,0 Infinito, numero

Valori osservati della portata { }0; !xx Infinito, non numero

• Evento aleatorio semplice CBA ,, : ciascun elemento della popolazione (punto).

• Evento aleatorio composto CBA ,, : insieme di due o più punti.

• Complemento dell’elemento A : A : insieme dei punti che non appartengono ad A.

• Evento certo ! : insieme di tutti i punti della popolazione.

• Evento nullo ! : insieme vuoto.

• Unione di eventi A e B : BA! : insieme dei punti dei due eventi.

• Intersezione di CA! : insieme dei punti comuni ad A e a B

Page 10: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

PROPRIETA’ FONDAMENTALI DELLA PROBABILITA’.

Probabilità dell’evento A:

1. [ ] 10 !! AP

2. [ ] 1=!P

3. Se ....321 AAAB !!= e se .....,, 321 AAA sono mutuamente escludentisi:

[ ] [ ] [ ] [ ] ....321 +++= APAPAPBP

Esempi:

[ ] [ ]APAP != 1

[ ] [ ] 01 =!"=# PP

PROBABILITA’ DELLE UNIONI DI EVENTI.

Esempio: In un istituto universitario vi sono 10 docenti (3 donne e 7 uomini) e 30 non docenti (10

donne e 20 uomini).

Qual è la probabilità che un membro dell’istituto scelto a caso sia un docente e/o una donna?

[ ] [ ] [ ] [ ]FDPFPDPFDP !" !+=

Eventi mutuamente escludentisi: [ ] 0=BAP !

Page 11: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

PROBABILITA’ CONDIZIONATA.

Esempio: Qual è la probabilità che un membro dell’istituto donna sia docente?

[ ] [ ][ ]FPFDPFDP !

=

Eventi statisticamente indipendenti: [ ] [ ] [ ]BPAPBAP !=!

Eventi mutuamente escludentisi: [ ] 0=BAP

TEOREMA DELLA PROBABILITA’ TOTALE.

A evento qualsiasi.

!"#

$=nn BBB

siescludentimutuamenteeventiBBBB

!!! .....

.....,

21321

( ),1 AB ! ( ),2 AB ! ( ),3 AB ! ( )ABn !...., Altra serie di eventi mutuamente escludentisi.

( )!" AB1 ( )!" AB2 ( )!" AB3 ( ) AABn =!"....

[ ] [ ] [ ]+= 11 BPBAPAP [ ] [ ] ......22 +BPBAP [ ] [ ]nn BPBAP

Page 12: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

VARIABILI ALEATORIE E LORO DISTRIBUZIONE.

Variabili aleatoria o casuale.

Il valore assunto da una variabile aleatoria associata con un esperimento dipende dal risultato

dell’esperimento.

Ad ogni punto dello spazio campionario si associa un valore della variabile.

Esempio:

“Testa e Croce”: due monete (argento e oro) lanciate simultaneamente.

Variabile aleatoria (v.a.): X numero di teste ottenute.

Evento Semplice Descrizione

Valore di X Dorata Argentata

A Croce Croce 0=x

B Testa Croce 1=x

C Croce Testa 1=x

D Testa Testa 2=x

Page 13: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

VARIABILI DISCRETE.

V.a. che possono assumere solo valori interi un dato intervallo.

Funzione massa di probabilità (f.m.p.) associa una probabilità ad ogni valore della variabile.

[ ] )(xpxXP X==

Esempio:

[ ] [ ]410)0( ==== APXPpX [ ] [ ] [ ] [ ]

211)1( =+==== CPBPCBPXPpx !

[ ] [ ]412)2( ==== DPXPpX

• 1)(0 !! xpX

• 1)( =! iX xp

• [ ] !""

=""bxa

ixi

xpbXaP )(

Page 14: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

Funzione di distribuzione cumulata.

[ ] !"

="=xx

iXXi

xpxXPxF )()(

Esempio:

[ ] !"

="=xx

iXXi

xpxXPxF )()(

1)2( =XF 43)1( =XF

41)0( =XF 0)1( =!XF

Page 15: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

VARIABILI ALEATORIE CONTINUE.

Possono assumere qualsiasi valore numerico reale in un dato intervallo.

Funzione di densità di probabilità.

x

xxX

xxP

xfxX !

"#

$%&

' !+((

!)

=*!

22lim)(0

! 0)( !xf X 1)( =!+"

"#

dxxf X [ ] dxxfbXaPb

aX!="" )(

Page 16: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

Funzione di distribuzione cumulata:

[ ] duufxXPxF XX !+"

"#

=$= )()(

! )()(xf

dxxdF

xX = solo per variabili assolutamente continue.

! 1)( =!XF ; 0)( =!"XF

! )()( xFxF xX !+ " per qualsiasi 0>! ; [ ]2112 )()( xXxPxFxF XX !!="

Per ogni tipo di variabile definita nell’intervallo [ ]ba, :

! 1)(0 !! xFX ; 0)( =aFX ; 1)( =bFX

Page 17: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

MOMENTI

MEDIA (VALORE SPERATO) di una variabile aleatoria discreta.

[ ] ! ==ix

ixi xPxXE µ)(

di una variabile aleatoria continua.

[ ] µ== !+"

"#

dxxxfXE x )(

di una funzione )(xg di una v.a. continua o discreta:

[ ] !=ix

ixi xPxgxgE )()()(

[ ] dxxfxgxgE x!+"

"#

= )()()(

r-esimo momento di X :

[ ]

[ ][ ]XE

dxxfxXE

xPxXE

xrr

r

xix

ri

rr

i

==

!!"

!!#

$

==

==

%

&'+

'(

µµµ

µ

1

)(

)(

Page 18: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

r-esimo momento di centrale di X :

[ ]

[ ][ ] [ ] [ ] 2'

2222'

2'1

''

'

var;0)()()(

)()()(

µµ!µµµµµ

µµµ

"="====

##$

##%

&

"="=

"="=

'

()+

)"

XEXEXdxxfxXE

xPxXE

xrr

r

xix

ri

rr

i

MISURA DI LOCAZIONE.

Moda: x~

max)~( =xf x

Page 19: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

Mediana: xx !=5.0

50.0)( =xFx!

Media: [ ]xEx =µ

Media geometrica: ik

ig kxM !=

[ ]xEM g loglog =

Page 20: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

MISURA DI DISPERSIONE.

Varianza: [ ] [ ] 22)(var !µ ="= xEx

Scarto quadratico medio: [ ]xvar=!

Coefficiente di variazione: !µ"==Cv

MISURA DI ASIMMETRIA.

Coefficiente di asimmetria: 3

'3

1 !µ

" ==Ca

MISURA DI APPIATTIMENTO O CURTOSI.

Curtosi: 4

'4

=k

Coefficiente di eccesso o di Curtosi: 33 4

'4

2 !=!="µ

# k

Page 21: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

DISTRIBUZIONE NORMALE DEL CASO O DI GAUSS Funzione densità di probabilità:

Funzione di distribuzione cumulata:

può essere calcolata numericamente per ogni θ1 e θ2.

I parametri θ1 e θ2 sono dati da:

Page 22: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

IDROLOGIA

P Claps

Analisi esplorativa di serie di dati

Il confronto tra un campione e la popolazione si può effettuare attraverso la comparazione delle forme delle curve di distribuzione cumulata (campionaria e teorica). Affinchè la comparazione sia coerente, per la distribuzione campionaria si deve usare una Stima della probabilità cumulata della popolazione, chiamata Plotting position

Una possibilità valida se non si ha alcuna indicazione sulla distribuzione teorica da usare è:

detta Weibull Plotting position (è distribution free). Corrisponde a porre �=0 nella relazione più generale:

18

IDROLOGIA

P Claps

Analisi esplorativa di serie di dati

•  Distribution dependent

Si hanno ad esempio:

- Distribuzioni debolmente asimmetriche (Cunnane)

- Distribuzioni debolmente asimmetriche (Gringorten)

- Distribuzioni fortemente asimmetriche (Hazen)

19

Page 23: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

IDROLOGIA

P Claps

Analisi esplorativa di serie di dati

Analogamente, le stime dei momenti della popolazione richiedono

alcune correzioni sulle espressioni dei momenti campionari:

per la varianza:

per l’asimmetria

20

IDROLOGIA

P Claps

Analisi esplorativa di serie di dati

21

Page 24: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

DISTRIBUZIONE NORMALE IN FORMA CANONICA Variabile normale standardizzata o ridotta

Valori notevoli di u(F) e di F(u)

Esempio:

Quantile di X corrispondente a F(x) = 0.025

F u(F)

0.025 -1.96

0.50 0.00

0.975 +1.96

u F(u)

-2.0 0.0228

-1.0 0.1587

0.0 0.5000

1.0 0.8413

2.0 0.9772

dist-s-norm inv.s.norm

Page 25: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

DISTRIBUZIONI DERIVATE Funzione Y = g(x) strettamente monotona crescente e derivabile di una v.a. continua X Esempio: oppure oppure

Quando si conosce la distribuzione della Y e si ricerca quella della X vale, ovviamente

Esempio: variabile normale standard

Vale anche:

Page 26: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

MEDIA DI UNA VARIABILE FUNZIONE DI UN�ALTRA Se c è una costante:

Similmente

In generale

Esempio:

Page 27: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

VARIANZA DI UNA VARIABILE FUNZIONE

VARIABILE STANDARDIZZATA

Page 28: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

Carta probabilistica normale

In diagramma cartesiano con ascissa X ed ordinata u la funzione di probabilità

cumulata F(X)x sarà rappresentata dalla retta

Rappresentazione in carta normale delle osservazioni xi

Esempio: Fi=0,975 u(Fi)=1,96

Page 29: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

PROPRIETA' DELLA DISTRIBUZIONE NORMALE

Probabilità che una variabile casuale normale cada in un intervallo

Coefficiente di asimmetria:

Somma di variabili normali indipendenti e

Coefficiente di Curtosi (misura dell�appiattimento di una distribuzione):

è

Page 30: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

Periodo di Ritorno L’occorrenza di un nuovo evento puo’ essere considerato un esperimento tipo Bernoulli che genera solo due eventi incompatibili, tipo successo – insuccesso.

p = probabilità di un insuccesso .

(1-p) = probabilità di un successo .

Esempio:

Qi Massima portata nell’anno. Q0 Portata di progetto.

p=P(Qi>Q0)

Tp è il numero medio di insuccessi in T prove. Assegnata la condizione Tp=1 si ha che

T è il numero di prove (anni) da attendere mediamente prima di un insuccesso

T = PERIODO DI RITORNO

Page 31: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

RL,T =1− 1−1T

"

#$

%

&'L

L Orizzonte temporale di riferimento. PL Probabilità di un superamento in un periodo di L anni consecutivi.

Il Rischio (naturale) RESIDUALE

RL = FX (L) =1− 1− p( )L

1p

= T (Periodo di Ritorno)

Rischio RESIDUALE

Se RL,T è assegnato:

T = 1

1− 1− RL.T( )1L

Il periodo di ritorno T non caratterizza completamente il rischio idrologico in campo progettuale e nella pianificazione

Tenuto conto che

Page 32: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

Esempi

Perchè accada una piena con T=50 non si devono attendere 50 anni!

R10,50 =1− 1−150

"

#$

%

&'10

≅ 0.2

La probabilità che in un orizzonte di 10 anni venga superata una piena con T=50 è circa pari al 20%

Per L<<T vale

RL,T =1− 1−1T

"

#$

%

&'L

≅LT

Si può considerare L come un moltiplicatore del rischio naturale

Page 33: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

Inoltre:

Che, per L=T conduce a:

Se L diventa grande, in via approssimata vale:

Ovvero:

RL,T ≅1− e−L/T

RL ≅1− e−1 = 0.632

Un sistema idrico progettato per un quantile XT corrispondente al periodo di ritorno T sara’ inadeguato con una probabilità� 0.632 almeno una volta durante un periodo di T anni.

Page 34: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

DISTRIBUZIONE LOG-NORMALE La variabile X si dice log-normalmente distribuita se:

è normalmente distribuita

Funzione di densità di probabilità:

Page 35: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

Espressioni teoriche dei momenti:

Relazioni tra momenti e parametri:

Espressioni semplificate:

Due momenti della popolazione: e Due parametri: e

per piccolo

per

Page 36: Intro Data Analysis - idrologia@polito · IDROLOGIA P Claps Analisi esplorativa di serie di dati Limiti dei whiskers: Inferiore Valor minimo della serie delle osservazioni (X 1) oppure

Carta probabilistica Log-normale

In diagramma cartesiano con ascissa ln X ed ordinata u la funzione di

probabilità cumulata F(Y)y sarà rappresentata dalla retta

Rappresentazione in carta Log-normale delle osservazioni xi

Esempio: Fi=0,975 u(Fi)=1,96

L’asse delle ascisse puo’ essere Relativo alle y o, in scala logaritmica, Anche riferito alle x.