67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql...

Post on 22-Aug-2020

4 views 0 download

Transcript of 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< - Riani · 67$7,67,&$ 3(5 /$ ',*,7$/ (&2120< 0dufr 5ldql...

STATISTICA PER LA DIGITAL ECONOMY

2020

Marco Rianimriani@unipr.it

http://www.riani.it

INFORMAZIONI SUL CORSO

• Orario (lezioni in stremaing)• MER 11.15-12.45 (frontale)• GIO 9.15-10.45 (frontale)• VEN 11.00 -13.00 (esercitazione in

MATLAB)

• Ricevimento– GIO 11.00-13.00– VEN 9.00-11.00

INFORMAZIONI SUL CORSO

• Conoscenze preliminari conoscenza di base di statistica descrittiva e inferenziale

• Tutti i lucidi saranno disponibili su www.riani.it/sde

• Le lezioni in streaming saranno rese disponibili su canle youtube oppure su Microsoft stream

E’ necessario registrarsi per accedere ai computer dei

laboratori!• http://www.cce.unipr.it/html/labinfo

Calendario degli esami

• 16 dicembre 2020 ore 16.00• 15 gennaio 2021 ore 9.00• 29 gennaio 2021 ore 9.00• 26 maggio 2020 ore 9.00• 09 giugno 2021 ore 9.00• 23 giugno 2021 ore 9.00• 08 settembre 2021 ore 9.00• Tutti gli appelli: a computer

LIBRO DI TESTO

MATERIALE PRESENTE ALLA PAGINA www.riani.it/sde

E’ consentito tenere gli appunti durante l’esame !

Software utilizzati nel corso

• Excel 2016• MATLAB 2020A o 2020B + FSDA toolbox• http://www.mathworks.com• Per scaricare MATLAB è necessario creare

un account nel sito www.mathworks.com• V. la schermata sito del corso

http://www.riani.it/SDE

Perché MATLAB

• I consulenti MATLAB non si muovono con meno di 1500 per diem

• Gli studenti di UNIPR hanno un’area riservata in cui possono fare più di 100 ore di corso on line

Corso di MATLAB on line

• https://trainingenrollment.mathworks.com/selfEnrollment?code=TA6EEH5EYZTZ

• Occorre registrarsi

Course certificate

• La certificazione rilasciata on line da questo corso può essere condivisa sui social

MATLAB online(si apre direttamente dal browser)• https://matlab.mathworks.com/

MODALITÀ DI ESAME (prova al computer)

• Quattro (tre) domande, ciascuna costituita da vari punti:– Elaborazione dei dati con MATLAB– aspetti di calcolo– aspetti di commento e di interpretazione dei

risultati circa della medesima importanza

Il compito è diviso in due parti

• Programmazione• Analisi dei dati

L’ouput da consegnare è un file in formato .m oppure .mlx

Obiettivi del corso

• Imparare a programmare• Illustrare i metodi statistici per il

trattamento delle informazioni d’interesse aziendale, considerando contemporaneamente più variabili, sia qualitative sia quantitative.

• Fornire un supporto conoscitivo razionale per le decisioni

Why analytics?

EVOLUZIONE DI CONCETTI• Statistica (descrittiva e inferenziale)

• Analisi dei dati multidimensionali

• Data Mining = «Estrazione da una miniera di dati» (di grandi dimensioni)

• Scavare in insiemi di dati molto numerosi per estrarre informazioni utili– Text mining– Web mining

PUNTO DI PARTENZA dell’analisi dei dati

• MATRICE DEI DATI: X riferita a n unità e p variabili

Ipermercati Sup. addetti vendite

Centro TorriEsselunga

. . .

MATRICE DEI DATI

npnsn

ipisi

ps

pn

xxx

xxx

xxx

X

1

1

1111

xis = modalità che presenta la variabile s-esima nell’unità statistica i-esima

Significato dei vettori riga e dei vettori colonna

Tipologia delle unità statistiche

TIPI DI DATI• Qualitativi (categorici) nominali:

Esempi: sesso, tipo di laurea, forma giuridica delle imprese

BINARI (DICOTOMICI) O CON CATEGORIE MULTIPLE (POLITOMICI)

• Qualitativi (categorici) ordinali:giudizi: insuff., suff., discreto, buono, ottimo

• Quantitativi:peso, fatturato, n. dipendenti

Es. file Firm.xlsx

TIPI DI MATRICI DEI DATIunità x variabili

• X di dimensioni n x p• Individui (questionari)• Aziende• Prodotti o marche• Unità territoriali (province, …)• Tempi (serie storiche o temporali)

DATI ASSOLUTI E RELATIVI

• Esempio: n aziende• DATI ASSOLUTI:• Fatturato, valore aggiunto, n. addetti, …• DATI RELATIVI:• Fatturato per addetto, valore aggiunto sul

fatturato, ROE, …• A PRIORI DEFINISCO LO SCOPO

DELLA RICERCA E POI SCELGO IL DATA SET DA ANALIZZARE

SCHEMA FONDAMENTALE DELLA RICERCA SCIENTIFICA

• Problema (domanda)• Raccolta di dati• Analisi dei dati• Conclusione provvisoria (risposta)• Estensioni, generalizzazioni, nuovi

problemi

• X riferita a n unità e p variabili (features): • X = [ xis ]• Visualizzazione delle informazioni e scoperta di

eventuali valori anomali• Studio delle relazioni tra variabili- Quantitative (correlazione)- Qualitative nominali e ordinali (ASSOCIAZIONE)

MATRICE DEI DATI:

TECNICHE DI ANALISI DEI DATI

– TRATTAMENTI PRELIMINARI DEI DATI • “pulizia” dei dati• Dati mancanti (missing values)• Valori anomali (outliers)

– VISUALIZZAZIONE DEI DATI – Grafici univariati, bivariati e multivariati

– RIDUZIONE DELLE DIMENSIONI – Analisi delle componenti principali e Analisi delle corrispondenze

Riduzione delle dimensioni (componenti principali, principal

components, PCA)• Da una matrice n x p ad una matrice n x r

con (r <<p)

– FORMAZIONE DI GRUPPI OMOGENEI• Misure di dissimilarità e di similarità tra oggetti o

individui per variabili quantitative, qualitative e miste

• Cluster analysis: metodi gerarchici e non gerarchici• Segmentazione dei prodotti e dei consumatori

TECNICHE DI ANALISI DEI DATI

Formazione di gruppi omogenei

• Da una matrice n x p ad una matrice k x p con (k << n)

1 x p

1 x p

1 x p

SEGMENTAZIONE COMPORTAMENTALE

(cluster analysis)

Operazione preliminare Individuazione dei valori

anomali (outliers)

Gr 1

Gr. 5

Gr. 8

Gr. 6Gr 2

Gr. 7

Centroidi e matrici di covarianze: definiscono la posizione,

l’orientamento e l’ampiezza dei diversi ellissoidi (gruppi)

۞

۞

۞

۞

۞

۞

Probabilità di appartenenza di un’unità ai diversi gruppi (un’unità

non appartiene completamente ad un gruppo)

Gr 1 (0.3)

Gr. 5 (0)

Gr. 8 (0)

Gr. 6 (0)Gr 2 (0.6)

Gr. 7 (0)

Ciascun cliente è attribuito ad ogni segmento con una certa probabilità

Cluster analysis individuzione di gruppi omogenei) + PCA

(riduzione delle dimensioni) • Input (n x p) Output (n x 2)

Cluster analysis individuzione di gruppi omogenei) + PCA

(riduzione delle dimensioni) • Input (n x p) Output (4 x 2)

Esempio

• Indicatori di qualità della vita delle province italiane (matrice di input dimensione 103 x 7)

Matrice di outputPC1 e PC2 sono due indicatori sintetici

I colori indicano l’appartenenza ai diversi gruppi

Rappresentazioni dei punti (province) e delle variabili (features) nello spazio

delle prime due CP

Analisi discriminante

• I gruppi sono noti. Lo scopo è trovare le funzioni migliori che li separano

• Analisi discriminante quadratica

Analisi discriminante

• Analisi discriminante non lineare

Caratteristiche dei file di esercitazione

• Osservazione: tutti i file di input e di output per ogni esercizio sono scaricabili dalla pagina http://www.riani.it/SDE/index.htm

Struttura dei file

• File di input (in formato Excel oppure MATLAB): xxx.xlsx, xxx.m opppure xxx.mlx

• File di output (in formato MATLAB solo codice): xxxout.m

• File di output (in formato MATLAB live script codice e output del codice): xxxMLX.mlx

Panoramica su MATLAB

• Vettori/Matrici (solo dati numerici)• Dati booleani• https://www.mathworks.com/videos/introdu

cing-matlab-fundamental-classes-data-types-68991.html

• Cell e structure (dati misti numerici e qualitativi)

• https://www.mathworks.com/videos/introducing-structures-and-cell-arrays-101508.html

Video di introduzione a MATLAB

• https://www.mathworks.com/videos/introduction-to-matlab-81592.html

Esercizio

• Importare il file Firm.xlsx in MATLAB

• Osservazione: tutti i file di input e di output per ogni esercizio sono scaricabili dalla pagina http://riani.it/SDE/index.htm

• Un primo modo per importare un dataset di Excel è tramite «Import Data»

• E’ possibile specificare quante righe importare e/o il tipo di output

• Esplorare cosa succede quando stabilisco di importare come

• Table• Column vectors• Numeric Matrix

Esercizio

• Importare il dataset come «Table» in una variabile denominata X

• Come accedere ai diversi elementi della Table– Es. estrarre l’elemento all’incrocio della terza

riga e quanto colonna – Es. estrarre la quindicedima unità statistica

(15esima riga)

Come accedere ai diversi elementi della Table

• Es. estrarre la variabile «gender»• Es. estrarre la quarta colonna• Es. estrarre le righe della table

denominate «P0256» e «P0214» e delle prime 3 colonne:

Esempi (supponiamo che la table si chiami X)• Estrazione della riga della table

denominata «P0320»: X('P0320',:)

• Estrazione delle righe della tabledenominate «P0256» e «P0214» e delle prime 3 colonne:

X({'P0256' 'P0214'},1:3)Estrazione della colonna riferita alla variabile «Height»X(:,'Height') oppure X.Height

Esercizio

• Generare uno script che carichi automaticamente la zona A1:I20 del foglio denominato «data» del file «Firm.xlsx»

Esercizio

• Generare uno script che carichi automaticamente la zona A1:I10 del foglio denominato «data» del file «Firm.xlsx»

Esercizio

• Creare uno script che importi i dati dentro MATLAB utilizzando la funzione xlsread

Soluzione

• [num,txt,raw] = xlsread('Firm.xlsx','data','A2:I10');

• Esplorare il contenuto di num, txt e raw• num contiene solo le colonne del dataset con dati

quantitativi (variabili numeriche). Matrice di double• txt contiene solo le colonne del dataset con dati

qualitativi (variabili categorighe). Cell array • Raw contiene tutte le colonne del dataset. Cell array

Esercizio• Importare i dati contenuti dentro il file

Firm.xlsx in una table denominata X tramite la funzione readtable calcolare per ogni variabile quantitativa il min il max e la mediana

Soluzione

• X=readtable('Firm.xlsx')• summary(X)

Obiettivo

• Confrontare unità statistiche in presenza di fenomeni con diverso ordine di grandezza e diversa scala di misura

SCOSTAMENTI STANDARDIZZATI• Definizione: zi = (xi –M)/ σ

ove M è la media e σ (a volte indicato con s) è la deviazione standard (corretta)

• Proprietà:

1. M = O

2. σ = 13. puri numeri (confrontabili)

MATRICE DEGLI SCOST. STAND. : Z

Proprietà delle variabili standardizzate

• Hanno valor medio nullo M(Z)=0• Hanno varianza unitaria VAR(Z)=1

σMxz i

i−

=

se Y=bX+a ⇒ σ2(Y)=VAR(Y) = b2VAR(X)

Esempio

Peso AltezzaA 67 180B 82 167C 74 183D 69 167E 61 167F 93 176

Media 74,33 173,33σ 10,55 6,65

Peso Altezza

-0,695 1,003

0,727 -0,952

-0,032 1,454

-0,506 -0,952

-1,264 -0,952

1,770 0,401

Media 0 0σ 1 1

Valori originali Scostamenti standardizzatiσ

Mxz ii

−=

Analisi della forma di distribuzione delle variabili

statisticheIndici di asimmetria e curtosi

La forma di distribuzione

• I valori medi e gli indici di variabilità descrivono sinteticamente gli aspetti di una variabile statistica (v.s.)

• La conoscenza di tali indici non permette di individuare univocamente la corrispondente v.s.

Indici di asimmetriaAsimmetria positiva e negativa

Formule da utilizzare per l’indice di asimmetria

• Indice di asimmetria (skewness)

La distribuzione normale

• Nella distribuzione normale

Indice di curtosi (normalità)

• Se la variabile è normale

L’indici di curtosi serve per capire se la distribuzione è leptocurtica (code leggere

o iponomali) oppure platicurtica (code pesanti oppure ipernormale)

Formule da utilizzare per gli indici di asimmetria e curtosi

• Indice di curtosi (kurtosis) (k0 è la versione corretta)

Funzioni MATLAB

• Le funzioni MATLAB per calcolare rispettivamente gli indici di asimmetria e curtosi si chiamano

Creazione del grafico

• Il modo più semplice per creare un grafico è quello di selezionare la zona della variabile che mi interessa e (dopo aver selezionato la scheda plots) fare click sul grafico che mi interessa

Osservazione• La modifica di un valore all’interno di una

table può essere fatto direttamente aprendo la variabile nell’editor delle variabili

• L’istruzione da codice (assumendo che la table di cui sopra si chiami Y) è la seguente

• Y.Wage(4) =1916.26

I PERCENTILI

• DEF. Si dice percentile di ordine z e si indica con xz (0<z<1) il numero che suddivide la successione dei valori ordinati in senso non decrescente in due parti, tale che i valori minori o uguali a xz siano una percentuale uguale a z.

Quartili

• dividono la distribuzione in quattro parti uguali: x25%, x50%, x75%

Ad esempio:• x25% = valore che discrimina il primo

quarto delle unità, con i valori più piccoli della variabile considerata, dai restanti tre quarti con i valori più grandi

Decili• Dividono la distribuzione in dieci parti uguali:• x10% x20% x30% x40% x50% x60% x70% x80% x90%• Ad esempio:• x90% = valore che suddivide la distribuzione in

due parti tali che• le unità per cui X ≤ x90% sono il 90% del totale • le unità per cui X ≥ x90% sono il restante 10%

N. B. → Me = x50%

Esempio: calcolo dei quartiliAziende Fatturato

A 1.234B 1.350C 1.583D 1.972E 2.164 (5°) x25% = (2.164 + 2.321)/2 =

= 2.242,5F 2.321 (6°)

G 2.407H 3.105I 4.540L 4.607 (10°) x50% = Me = (4.607 + 5.200)/2

= 4.903,5M 5.200 (11°)

N 5.555O 6.890P 8.267Q 9.945 (15°) x75% = (9.945 + 12.671)/2 =

= 11.308R 12.671 (16°)

S 14.707T 15.875U 22.560V 40.800

fatturato, in migliaia di euro, di 20 PMI alimentari

• La funzione MATLAB per calcolare i percentili

BOXPLOT (grafico a scatola)

• Indici occorrenti:• quartili• Differenza interquartile• xmin e xmax

Boxplot di 16 punti

Boxplot di 16 punti

Il punto di troncamento superiore è in corrispondenza del valore più grande ≤ x75%+1.5DI

Il punto di troncamento inferiore si colloca in corrispondenza del valore più piccolo ≥ x25%-1.5DI

Esercizio: inserire dentro MATLAB i dati numerici della spesa riportati nella tabella che segue.

Calcolare ed interpretare i seguenti percentili di spesa 0 0.25 0.50 0.75 1. Calcolare ed interpretare la

differenza interquartile. Costruire ed interpretare il relativo boxplot. Costruire il boxplot con orientamento orizzontale. Inserire tutte le istruzioni dentro uno script

denominato boxp.m

Soluzione

Soluzione

Esercizio

• Importare come «table» il file Firm.xlsx• Calcolare ed interpretare il boxplot per le

variabili peso e altezza (prima per tutte le unità statistiche e poi tenendo separati i maschi dalle femmine)

Traccia di soluzione• Di seguito si suppone che la table si

chiami Y• boxplot(Y{:,’Height’}))• ylabel('Altezza in cm')

Soluzione• Boxplot separato per maschi e femmine• boxplot(Y.Height,Y.Gender)

Esercizio riepilogativo

Ponderazione delle unità

Unità statistiche:• con la stessa importanza• con importanza diversa: ponderazione

Vettore dei pesi (relativi):w = [w1, …, wi, …, wn]’

Media semplice e media ponderata

• Caso particolare:• wi = 1/n → media aritmetica semplice

• Confronto con media ponderata in distribuzione di frequenze

Scostamento quadratico medio ponderato

Esercizio

• V. file