67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql...

91
STATISTICA PER LA DIGITAL ECONOMY 2020 Marco Riani [email protected] http://www.riani.it

Transcript of 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql...

Page 1: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

STATISTICA PER LA DIGITAL ECONOMY

2020

Marco [email protected]

http://www.riani.it

Page 2: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

INFORMAZIONI SUL CORSO

• Orario (lezioni in stremaing)• MER 11.15-12.45 (frontale)• GIO 9.15-10.45 (frontale)• VEN 11.00 -13.00 (esercitazione in

MATLAB)

• Ricevimento– GIO 11.00-13.00– VEN 9.00-11.00

Page 3: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

INFORMAZIONI SUL CORSO

• Conoscenze preliminari conoscenza di base di statistica descrittiva e inferenziale

• Tutti i lucidi saranno disponibili su www.riani.it/sde

• Le lezioni in streaming saranno rese disponibili su canle youtube oppure su Microsoft stream

Page 4: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

E’ necessario registrarsi per accedere ai computer dei

laboratori!• http://www.cce.unipr.it/html/labinfo

Page 5: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Calendario degli esami

• 16 dicembre 2020 ore 16.00• 15 gennaio 2021 ore 9.00• 29 gennaio 2021 ore 9.00• 26 maggio 2020 ore 9.00• 09 giugno 2021 ore 9.00• 23 giugno 2021 ore 9.00• 08 settembre 2021 ore 9.00• Tutti gli appelli: a computer

Page 6: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

LIBRO DI TESTO

MATERIALE PRESENTE ALLA PAGINA www.riani.it/sde

E’ consentito tenere gli appunti durante l’esame !

Page 7: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Software utilizzati nel corso

• Excel 2016• MATLAB 2020A o 2020B + FSDA toolbox• http://www.mathworks.com• Per scaricare MATLAB è necessario creare

un account nel sito www.mathworks.com• V. la schermata sito del corso

http://www.riani.it/SDE

Page 8: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Perché MATLAB

• I consulenti MATLAB non si muovono con meno di 1500 per diem

• Gli studenti di UNIPR hanno un’area riservata in cui possono fare più di 100 ore di corso on line

Page 9: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Corso di MATLAB on line

• https://trainingenrollment.mathworks.com/selfEnrollment?code=TA6EEH5EYZTZ

• Occorre registrarsi

Page 10: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Course certificate

• La certificazione rilasciata on line da questo corso può essere condivisa sui social

Page 11: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

MATLAB online(si apre direttamente dal browser)• https://matlab.mathworks.com/

Page 12: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

MODALITÀ DI ESAME (prova al computer)

• Quattro (tre) domande, ciascuna costituita da vari punti:– Elaborazione dei dati con MATLAB– aspetti di calcolo– aspetti di commento e di interpretazione dei

risultati circa della medesima importanza

Page 13: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Il compito è diviso in due parti

• Programmazione• Analisi dei dati

Page 14: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

L’ouput da consegnare è un file in formato .m oppure .mlx

Page 15: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Obiettivi del corso

• Imparare a programmare• Illustrare i metodi statistici per il

trattamento delle informazioni d’interesse aziendale, considerando contemporaneamente più variabili, sia qualitative sia quantitative.

• Fornire un supporto conoscitivo razionale per le decisioni

Page 16: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Why analytics?

Page 17: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

EVOLUZIONE DI CONCETTI• Statistica (descrittiva e inferenziale)

• Analisi dei dati multidimensionali

• Data Mining = «Estrazione da una miniera di dati» (di grandi dimensioni)

• Scavare in insiemi di dati molto numerosi per estrarre informazioni utili– Text mining– Web mining

Page 18: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

PUNTO DI PARTENZA dell’analisi dei dati

• MATRICE DEI DATI: X riferita a n unità e p variabili

Ipermercati Sup. addetti vendite

Centro TorriEsselunga

. . .

Page 19: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

MATRICE DEI DATI

npnsn

ipisi

ps

pn

xxx

xxx

xxx

X

1

1

1111

xis = modalità che presenta la variabile s-esima nell’unità statistica i-esima

Significato dei vettori riga e dei vettori colonna

Tipologia delle unità statistiche

Page 20: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

TIPI DI DATI• Qualitativi (categorici) nominali:

Esempi: sesso, tipo di laurea, forma giuridica delle imprese

BINARI (DICOTOMICI) O CON CATEGORIE MULTIPLE (POLITOMICI)

• Qualitativi (categorici) ordinali:giudizi: insuff., suff., discreto, buono, ottimo

• Quantitativi:peso, fatturato, n. dipendenti

Page 21: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Es. file Firm.xlsx

Page 22: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

TIPI DI MATRICI DEI DATIunità x variabili

• X di dimensioni n x p• Individui (questionari)• Aziende• Prodotti o marche• Unità territoriali (province, …)• Tempi (serie storiche o temporali)

Page 23: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

DATI ASSOLUTI E RELATIVI

• Esempio: n aziende• DATI ASSOLUTI:• Fatturato, valore aggiunto, n. addetti, …• DATI RELATIVI:• Fatturato per addetto, valore aggiunto sul

fatturato, ROE, …• A PRIORI DEFINISCO LO SCOPO

DELLA RICERCA E POI SCELGO IL DATA SET DA ANALIZZARE

Page 24: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

SCHEMA FONDAMENTALE DELLA RICERCA SCIENTIFICA

• Problema (domanda)• Raccolta di dati• Analisi dei dati• Conclusione provvisoria (risposta)• Estensioni, generalizzazioni, nuovi

problemi

Page 25: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

• X riferita a n unità e p variabili (features): • X = [ xis ]• Visualizzazione delle informazioni e scoperta di

eventuali valori anomali• Studio delle relazioni tra variabili- Quantitative (correlazione)- Qualitative nominali e ordinali (ASSOCIAZIONE)

MATRICE DEI DATI:

Page 26: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

TECNICHE DI ANALISI DEI DATI

– TRATTAMENTI PRELIMINARI DEI DATI • “pulizia” dei dati• Dati mancanti (missing values)• Valori anomali (outliers)

– VISUALIZZAZIONE DEI DATI – Grafici univariati, bivariati e multivariati

– RIDUZIONE DELLE DIMENSIONI – Analisi delle componenti principali e Analisi delle corrispondenze

Page 27: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Riduzione delle dimensioni (componenti principali, principal

components, PCA)• Da una matrice n x p ad una matrice n x r

con (r <<p)

Page 28: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

– FORMAZIONE DI GRUPPI OMOGENEI• Misure di dissimilarità e di similarità tra oggetti o

individui per variabili quantitative, qualitative e miste

• Cluster analysis: metodi gerarchici e non gerarchici• Segmentazione dei prodotti e dei consumatori

TECNICHE DI ANALISI DEI DATI

Page 29: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Formazione di gruppi omogenei

• Da una matrice n x p ad una matrice k x p con (k << n)

1 x p

1 x p

1 x p

Page 30: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

SEGMENTAZIONE COMPORTAMENTALE

(cluster analysis)

Page 31: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Operazione preliminare Individuazione dei valori

anomali (outliers)

Gr 1

Gr. 5

Gr. 8

Gr. 6Gr 2

Gr. 7

Page 32: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Centroidi e matrici di covarianze: definiscono la posizione,

l’orientamento e l’ampiezza dei diversi ellissoidi (gruppi)

۞

۞

۞

۞

۞

۞

Page 33: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Probabilità di appartenenza di un’unità ai diversi gruppi (un’unità

non appartiene completamente ad un gruppo)

Gr 1 (0.3)

Gr. 5 (0)

Gr. 8 (0)

Gr. 6 (0)Gr 2 (0.6)

Gr. 7 (0)

Ciascun cliente è attribuito ad ogni segmento con una certa probabilità

Page 34: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Cluster analysis individuzione di gruppi omogenei) + PCA

(riduzione delle dimensioni) • Input (n x p) Output (n x 2)

Page 35: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Cluster analysis individuzione di gruppi omogenei) + PCA

(riduzione delle dimensioni) • Input (n x p) Output (4 x 2)

Page 36: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Esempio

• Indicatori di qualità della vita delle province italiane (matrice di input dimensione 103 x 7)

Page 37: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Matrice di outputPC1 e PC2 sono due indicatori sintetici

I colori indicano l’appartenenza ai diversi gruppi

Page 38: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Rappresentazioni dei punti (province) e delle variabili (features) nello spazio

delle prime due CP

Page 39: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Analisi discriminante

• I gruppi sono noti. Lo scopo è trovare le funzioni migliori che li separano

• Analisi discriminante quadratica

Page 40: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Analisi discriminante

• Analisi discriminante non lineare

Page 41: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Caratteristiche dei file di esercitazione

• Osservazione: tutti i file di input e di output per ogni esercizio sono scaricabili dalla pagina http://www.riani.it/SDE/index.htm

Page 42: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Struttura dei file

• File di input (in formato Excel oppure MATLAB): xxx.xlsx, xxx.m opppure xxx.mlx

• File di output (in formato MATLAB solo codice): xxxout.m

• File di output (in formato MATLAB live script codice e output del codice): xxxMLX.mlx

Page 43: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Panoramica su MATLAB

• Vettori/Matrici (solo dati numerici)• Dati booleani• https://www.mathworks.com/videos/introdu

cing-matlab-fundamental-classes-data-types-68991.html

• Cell e structure (dati misti numerici e qualitativi)

• https://www.mathworks.com/videos/introducing-structures-and-cell-arrays-101508.html

Page 44: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Video di introduzione a MATLAB

• https://www.mathworks.com/videos/introduction-to-matlab-81592.html

Page 45: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Esercizio

• Importare il file Firm.xlsx in MATLAB

• Osservazione: tutti i file di input e di output per ogni esercizio sono scaricabili dalla pagina http://riani.it/SDE/index.htm

Page 46: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

• Un primo modo per importare un dataset di Excel è tramite «Import Data»

Page 47: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

• E’ possibile specificare quante righe importare e/o il tipo di output

Page 48: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

• Esplorare cosa succede quando stabilisco di importare come

• Table• Column vectors• Numeric Matrix

Page 49: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Esercizio

• Importare il dataset come «Table» in una variabile denominata X

• Come accedere ai diversi elementi della Table– Es. estrarre l’elemento all’incrocio della terza

riga e quanto colonna – Es. estrarre la quindicedima unità statistica

(15esima riga)

Page 50: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Come accedere ai diversi elementi della Table

• Es. estrarre la variabile «gender»• Es. estrarre la quarta colonna• Es. estrarre le righe della table

denominate «P0256» e «P0214» e delle prime 3 colonne:

Page 51: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Esempi (supponiamo che la table si chiami X)• Estrazione della riga della table

denominata «P0320»: X('P0320',:)

• Estrazione delle righe della tabledenominate «P0256» e «P0214» e delle prime 3 colonne:

X({'P0256' 'P0214'},1:3)Estrazione della colonna riferita alla variabile «Height»X(:,'Height') oppure X.Height

Page 52: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Esercizio

• Generare uno script che carichi automaticamente la zona A1:I20 del foglio denominato «data» del file «Firm.xlsx»

Page 53: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Esercizio

• Generare uno script che carichi automaticamente la zona A1:I10 del foglio denominato «data» del file «Firm.xlsx»

Page 54: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Esercizio

• Creare uno script che importi i dati dentro MATLAB utilizzando la funzione xlsread

Page 55: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Soluzione

• [num,txt,raw] = xlsread('Firm.xlsx','data','A2:I10');

• Esplorare il contenuto di num, txt e raw• num contiene solo le colonne del dataset con dati

quantitativi (variabili numeriche). Matrice di double• txt contiene solo le colonne del dataset con dati

qualitativi (variabili categorighe). Cell array • Raw contiene tutte le colonne del dataset. Cell array

Page 56: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Esercizio• Importare i dati contenuti dentro il file

Firm.xlsx in una table denominata X tramite la funzione readtable calcolare per ogni variabile quantitativa il min il max e la mediana

Page 57: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Soluzione

• X=readtable('Firm.xlsx')• summary(X)

Page 58: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Obiettivo

• Confrontare unità statistiche in presenza di fenomeni con diverso ordine di grandezza e diversa scala di misura

Page 59: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

SCOSTAMENTI STANDARDIZZATI• Definizione: zi = (xi –M)/ σ

ove M è la media e σ (a volte indicato con s) è la deviazione standard (corretta)

• Proprietà:

1. M = O

2. σ = 13. puri numeri (confrontabili)

MATRICE DEGLI SCOST. STAND. : Z

Page 60: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Proprietà delle variabili standardizzate

• Hanno valor medio nullo M(Z)=0• Hanno varianza unitaria VAR(Z)=1

σMxz i

i−

=

se Y=bX+a ⇒ σ2(Y)=VAR(Y) = b2VAR(X)

Page 61: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Esempio

Peso AltezzaA 67 180B 82 167C 74 183D 69 167E 61 167F 93 176

Media 74,33 173,33σ 10,55 6,65

Peso Altezza

-0,695 1,003

0,727 -0,952

-0,032 1,454

-0,506 -0,952

-1,264 -0,952

1,770 0,401

Media 0 0σ 1 1

Valori originali Scostamenti standardizzatiσ

Mxz ii

−=

Page 62: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Analisi della forma di distribuzione delle variabili

statisticheIndici di asimmetria e curtosi

Page 63: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

La forma di distribuzione

• I valori medi e gli indici di variabilità descrivono sinteticamente gli aspetti di una variabile statistica (v.s.)

• La conoscenza di tali indici non permette di individuare univocamente la corrispondente v.s.

Page 64: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Indici di asimmetriaAsimmetria positiva e negativa

Page 65: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Formule da utilizzare per l’indice di asimmetria

• Indice di asimmetria (skewness)

Page 66: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

La distribuzione normale

• Nella distribuzione normale

Page 67: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Indice di curtosi (normalità)

• Se la variabile è normale

Page 68: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

L’indici di curtosi serve per capire se la distribuzione è leptocurtica (code leggere

o iponomali) oppure platicurtica (code pesanti oppure ipernormale)

Page 69: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Formule da utilizzare per gli indici di asimmetria e curtosi

• Indice di curtosi (kurtosis) (k0 è la versione corretta)

Page 70: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Funzioni MATLAB

• Le funzioni MATLAB per calcolare rispettivamente gli indici di asimmetria e curtosi si chiamano

Page 71: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Creazione del grafico

• Il modo più semplice per creare un grafico è quello di selezionare la zona della variabile che mi interessa e (dopo aver selezionato la scheda plots) fare click sul grafico che mi interessa

Page 72: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Osservazione• La modifica di un valore all’interno di una

table può essere fatto direttamente aprendo la variabile nell’editor delle variabili

• L’istruzione da codice (assumendo che la table di cui sopra si chiami Y) è la seguente

• Y.Wage(4) =1916.26

Page 73: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

I PERCENTILI

• DEF. Si dice percentile di ordine z e si indica con xz (0<z<1) il numero che suddivide la successione dei valori ordinati in senso non decrescente in due parti, tale che i valori minori o uguali a xz siano una percentuale uguale a z.

Page 74: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Quartili

• dividono la distribuzione in quattro parti uguali: x25%, x50%, x75%

Ad esempio:• x25% = valore che discrimina il primo

quarto delle unità, con i valori più piccoli della variabile considerata, dai restanti tre quarti con i valori più grandi

Page 75: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Decili• Dividono la distribuzione in dieci parti uguali:• x10% x20% x30% x40% x50% x60% x70% x80% x90%• Ad esempio:• x90% = valore che suddivide la distribuzione in

due parti tali che• le unità per cui X ≤ x90% sono il 90% del totale • le unità per cui X ≥ x90% sono il restante 10%

N. B. → Me = x50%

Page 76: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Esempio: calcolo dei quartiliAziende Fatturato

A 1.234B 1.350C 1.583D 1.972E 2.164 (5°) x25% = (2.164 + 2.321)/2 =

= 2.242,5F 2.321 (6°)

G 2.407H 3.105I 4.540L 4.607 (10°) x50% = Me = (4.607 + 5.200)/2

= 4.903,5M 5.200 (11°)

N 5.555O 6.890P 8.267Q 9.945 (15°) x75% = (9.945 + 12.671)/2 =

= 11.308R 12.671 (16°)

S 14.707T 15.875U 22.560V 40.800

fatturato, in migliaia di euro, di 20 PMI alimentari

Page 77: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

• La funzione MATLAB per calcolare i percentili

Page 78: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

BOXPLOT (grafico a scatola)

• Indici occorrenti:• quartili• Differenza interquartile• xmin e xmax

Page 79: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Boxplot di 16 punti

Page 80: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Boxplot di 16 punti

Il punto di troncamento superiore è in corrispondenza del valore più grande ≤ x75%+1.5DI

Il punto di troncamento inferiore si colloca in corrispondenza del valore più piccolo ≥ x25%-1.5DI

Page 81: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Esercizio: inserire dentro MATLAB i dati numerici della spesa riportati nella tabella che segue.

Calcolare ed interpretare i seguenti percentili di spesa 0 0.25 0.50 0.75 1. Calcolare ed interpretare la

differenza interquartile. Costruire ed interpretare il relativo boxplot. Costruire il boxplot con orientamento orizzontale. Inserire tutte le istruzioni dentro uno script

denominato boxp.m

Page 82: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Soluzione

Page 83: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Soluzione

Page 84: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Esercizio

• Importare come «table» il file Firm.xlsx• Calcolare ed interpretare il boxplot per le

variabili peso e altezza (prima per tutte le unità statistiche e poi tenendo separati i maschi dalle femmine)

Page 85: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Traccia di soluzione• Di seguito si suppone che la table si

chiami Y• boxplot(Y{:,’Height’}))• ylabel('Altezza in cm')

Page 86: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Soluzione• Boxplot separato per maschi e femmine• boxplot(Y.Height,Y.Gender)

Page 87: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Esercizio riepilogativo

Page 88: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Ponderazione delle unità

Unità statistiche:• con la stessa importanza• con importanza diversa: ponderazione

Vettore dei pesi (relativi):w = [w1, …, wi, …, wn]’

Page 89: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Media semplice e media ponderata

• Caso particolare:• wi = 1/n → media aritmetica semplice

• Confronto con media ponderata in distribuzione di frequenze

Page 90: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Scostamento quadratico medio ponderato

Page 91: 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Esercizio

• V. file