INFORMAZIONI SUL CORSO
• Orario (lezioni in stremaing)• MER 11.15-12.45 (frontale)• GIO 9.15-10.45 (frontale)• VEN 11.00 -13.00 (esercitazione in
MATLAB)
• Ricevimento– GIO 11.00-13.00– VEN 9.00-11.00
INFORMAZIONI SUL CORSO
• Conoscenze preliminari conoscenza di base di statistica descrittiva e inferenziale
• Tutti i lucidi saranno disponibili su www.riani.it/sde
• Le lezioni in streaming saranno rese disponibili su canle youtube oppure su Microsoft stream
E’ necessario registrarsi per accedere ai computer dei
laboratori!• http://www.cce.unipr.it/html/labinfo
Calendario degli esami
• 16 dicembre 2020 ore 16.00• 15 gennaio 2021 ore 9.00• 29 gennaio 2021 ore 9.00• 26 maggio 2020 ore 9.00• 09 giugno 2021 ore 9.00• 23 giugno 2021 ore 9.00• 08 settembre 2021 ore 9.00• Tutti gli appelli: a computer
LIBRO DI TESTO
MATERIALE PRESENTE ALLA PAGINA www.riani.it/sde
E’ consentito tenere gli appunti durante l’esame !
Software utilizzati nel corso
• Excel 2016• MATLAB 2020A o 2020B + FSDA toolbox• http://www.mathworks.com• Per scaricare MATLAB è necessario creare
un account nel sito www.mathworks.com• V. la schermata sito del corso
http://www.riani.it/SDE
Perché MATLAB
• I consulenti MATLAB non si muovono con meno di 1500 per diem
• Gli studenti di UNIPR hanno un’area riservata in cui possono fare più di 100 ore di corso on line
Corso di MATLAB on line
• https://trainingenrollment.mathworks.com/selfEnrollment?code=TA6EEH5EYZTZ
• Occorre registrarsi
Course certificate
• La certificazione rilasciata on line da questo corso può essere condivisa sui social
MATLAB online(si apre direttamente dal browser)• https://matlab.mathworks.com/
MODALITÀ DI ESAME (prova al computer)
• Quattro (tre) domande, ciascuna costituita da vari punti:– Elaborazione dei dati con MATLAB– aspetti di calcolo– aspetti di commento e di interpretazione dei
risultati circa della medesima importanza
Il compito è diviso in due parti
• Programmazione• Analisi dei dati
L’ouput da consegnare è un file in formato .m oppure .mlx
Obiettivi del corso
• Imparare a programmare• Illustrare i metodi statistici per il
trattamento delle informazioni d’interesse aziendale, considerando contemporaneamente più variabili, sia qualitative sia quantitative.
• Fornire un supporto conoscitivo razionale per le decisioni
Why analytics?
EVOLUZIONE DI CONCETTI• Statistica (descrittiva e inferenziale)
• Analisi dei dati multidimensionali
• Data Mining = «Estrazione da una miniera di dati» (di grandi dimensioni)
• Scavare in insiemi di dati molto numerosi per estrarre informazioni utili– Text mining– Web mining
PUNTO DI PARTENZA dell’analisi dei dati
• MATRICE DEI DATI: X riferita a n unità e p variabili
Ipermercati Sup. addetti vendite
Centro TorriEsselunga
. . .
MATRICE DEI DATI
=×
npnsn
ipisi
ps
pn
xxx
xxx
xxx
X
1
1
1111
xis = modalità che presenta la variabile s-esima nell’unità statistica i-esima
Significato dei vettori riga e dei vettori colonna
Tipologia delle unità statistiche
TIPI DI DATI• Qualitativi (categorici) nominali:
Esempi: sesso, tipo di laurea, forma giuridica delle imprese
BINARI (DICOTOMICI) O CON CATEGORIE MULTIPLE (POLITOMICI)
• Qualitativi (categorici) ordinali:giudizi: insuff., suff., discreto, buono, ottimo
• Quantitativi:peso, fatturato, n. dipendenti
Es. file Firm.xlsx
TIPI DI MATRICI DEI DATIunità x variabili
• X di dimensioni n x p• Individui (questionari)• Aziende• Prodotti o marche• Unità territoriali (province, …)• Tempi (serie storiche o temporali)
DATI ASSOLUTI E RELATIVI
• Esempio: n aziende• DATI ASSOLUTI:• Fatturato, valore aggiunto, n. addetti, …• DATI RELATIVI:• Fatturato per addetto, valore aggiunto sul
fatturato, ROE, …• A PRIORI DEFINISCO LO SCOPO
DELLA RICERCA E POI SCELGO IL DATA SET DA ANALIZZARE
SCHEMA FONDAMENTALE DELLA RICERCA SCIENTIFICA
• Problema (domanda)• Raccolta di dati• Analisi dei dati• Conclusione provvisoria (risposta)• Estensioni, generalizzazioni, nuovi
problemi
• X riferita a n unità e p variabili (features): • X = [ xis ]• Visualizzazione delle informazioni e scoperta di
eventuali valori anomali• Studio delle relazioni tra variabili- Quantitative (correlazione)- Qualitative nominali e ordinali (ASSOCIAZIONE)
MATRICE DEI DATI:
TECNICHE DI ANALISI DEI DATI
– TRATTAMENTI PRELIMINARI DEI DATI • “pulizia” dei dati• Dati mancanti (missing values)• Valori anomali (outliers)
– VISUALIZZAZIONE DEI DATI – Grafici univariati, bivariati e multivariati
– RIDUZIONE DELLE DIMENSIONI – Analisi delle componenti principali e Analisi delle corrispondenze
Riduzione delle dimensioni (componenti principali, principal
components, PCA)• Da una matrice n x p ad una matrice n x r
con (r <<p)
– FORMAZIONE DI GRUPPI OMOGENEI• Misure di dissimilarità e di similarità tra oggetti o
individui per variabili quantitative, qualitative e miste
• Cluster analysis: metodi gerarchici e non gerarchici• Segmentazione dei prodotti e dei consumatori
TECNICHE DI ANALISI DEI DATI
Formazione di gruppi omogenei
• Da una matrice n x p ad una matrice k x p con (k << n)
1 x p
1 x p
1 x p
SEGMENTAZIONE COMPORTAMENTALE
(cluster analysis)
Operazione preliminare Individuazione dei valori
anomali (outliers)
Gr 1
Gr. 5
Gr. 8
Gr. 6Gr 2
Gr. 7
Centroidi e matrici di covarianze: definiscono la posizione,
l’orientamento e l’ampiezza dei diversi ellissoidi (gruppi)
۞
۞
۞
۞
۞
۞
Probabilità di appartenenza di un’unità ai diversi gruppi (un’unità
non appartiene completamente ad un gruppo)
Gr 1 (0.3)
Gr. 5 (0)
Gr. 8 (0)
Gr. 6 (0)Gr 2 (0.6)
Gr. 7 (0)
Ciascun cliente è attribuito ad ogni segmento con una certa probabilità
Cluster analysis individuzione di gruppi omogenei) + PCA
(riduzione delle dimensioni) • Input (n x p) Output (n x 2)
Cluster analysis individuzione di gruppi omogenei) + PCA
(riduzione delle dimensioni) • Input (n x p) Output (4 x 2)
Esempio
• Indicatori di qualità della vita delle province italiane (matrice di input dimensione 103 x 7)
Matrice di outputPC1 e PC2 sono due indicatori sintetici
I colori indicano l’appartenenza ai diversi gruppi
Rappresentazioni dei punti (province) e delle variabili (features) nello spazio
delle prime due CP
Analisi discriminante
• I gruppi sono noti. Lo scopo è trovare le funzioni migliori che li separano
• Analisi discriminante quadratica
Analisi discriminante
• Analisi discriminante non lineare
Caratteristiche dei file di esercitazione
• Osservazione: tutti i file di input e di output per ogni esercizio sono scaricabili dalla pagina http://www.riani.it/SDE/index.htm
Struttura dei file
• File di input (in formato Excel oppure MATLAB): xxx.xlsx, xxx.m opppure xxx.mlx
• File di output (in formato MATLAB solo codice): xxxout.m
• File di output (in formato MATLAB live script codice e output del codice): xxxMLX.mlx
Panoramica su MATLAB
• Vettori/Matrici (solo dati numerici)• Dati booleani• https://www.mathworks.com/videos/introdu
cing-matlab-fundamental-classes-data-types-68991.html
• Cell e structure (dati misti numerici e qualitativi)
• https://www.mathworks.com/videos/introducing-structures-and-cell-arrays-101508.html
Video di introduzione a MATLAB
• https://www.mathworks.com/videos/introduction-to-matlab-81592.html
Esercizio
• Importare il file Firm.xlsx in MATLAB
• Osservazione: tutti i file di input e di output per ogni esercizio sono scaricabili dalla pagina http://riani.it/SDE/index.htm
• Un primo modo per importare un dataset di Excel è tramite «Import Data»
• E’ possibile specificare quante righe importare e/o il tipo di output
• Esplorare cosa succede quando stabilisco di importare come
• Table• Column vectors• Numeric Matrix
Esercizio
• Importare il dataset come «Table» in una variabile denominata X
• Come accedere ai diversi elementi della Table– Es. estrarre l’elemento all’incrocio della terza
riga e quanto colonna – Es. estrarre la quindicedima unità statistica
(15esima riga)
Come accedere ai diversi elementi della Table
• Es. estrarre la variabile «gender»• Es. estrarre la quarta colonna• Es. estrarre le righe della table
denominate «P0256» e «P0214» e delle prime 3 colonne:
Esempi (supponiamo che la table si chiami X)• Estrazione della riga della table
denominata «P0320»: X('P0320',:)
• Estrazione delle righe della tabledenominate «P0256» e «P0214» e delle prime 3 colonne:
X({'P0256' 'P0214'},1:3)Estrazione della colonna riferita alla variabile «Height»X(:,'Height') oppure X.Height
Esercizio
• Generare uno script che carichi automaticamente la zona A1:I20 del foglio denominato «data» del file «Firm.xlsx»
Esercizio
• Generare uno script che carichi automaticamente la zona A1:I10 del foglio denominato «data» del file «Firm.xlsx»
Esercizio
• Creare uno script che importi i dati dentro MATLAB utilizzando la funzione xlsread
Soluzione
• [num,txt,raw] = xlsread('Firm.xlsx','data','A2:I10');
• Esplorare il contenuto di num, txt e raw• num contiene solo le colonne del dataset con dati
quantitativi (variabili numeriche). Matrice di double• txt contiene solo le colonne del dataset con dati
qualitativi (variabili categorighe). Cell array • Raw contiene tutte le colonne del dataset. Cell array
Esercizio• Importare i dati contenuti dentro il file
Firm.xlsx in una table denominata X tramite la funzione readtable calcolare per ogni variabile quantitativa il min il max e la mediana
Soluzione
• X=readtable('Firm.xlsx')• summary(X)
Obiettivo
• Confrontare unità statistiche in presenza di fenomeni con diverso ordine di grandezza e diversa scala di misura
SCOSTAMENTI STANDARDIZZATI• Definizione: zi = (xi –M)/ σ
ove M è la media e σ (a volte indicato con s) è la deviazione standard (corretta)
• Proprietà:
1. M = O
2. σ = 13. puri numeri (confrontabili)
MATRICE DEGLI SCOST. STAND. : Z
Proprietà delle variabili standardizzate
• Hanno valor medio nullo M(Z)=0• Hanno varianza unitaria VAR(Z)=1
σMxz i
i−
=
se Y=bX+a ⇒ σ2(Y)=VAR(Y) = b2VAR(X)
Esempio
Peso AltezzaA 67 180B 82 167C 74 183D 69 167E 61 167F 93 176
Media 74,33 173,33σ 10,55 6,65
Peso Altezza
-0,695 1,003
0,727 -0,952
-0,032 1,454
-0,506 -0,952
-1,264 -0,952
1,770 0,401
Media 0 0σ 1 1
Valori originali Scostamenti standardizzatiσ
Mxz ii
−=
Analisi della forma di distribuzione delle variabili
statisticheIndici di asimmetria e curtosi
La forma di distribuzione
• I valori medi e gli indici di variabilità descrivono sinteticamente gli aspetti di una variabile statistica (v.s.)
• La conoscenza di tali indici non permette di individuare univocamente la corrispondente v.s.
Indici di asimmetriaAsimmetria positiva e negativa
Formule da utilizzare per l’indice di asimmetria
• Indice di asimmetria (skewness)
La distribuzione normale
• Nella distribuzione normale
Indice di curtosi (normalità)
• Se la variabile è normale
L’indici di curtosi serve per capire se la distribuzione è leptocurtica (code leggere
o iponomali) oppure platicurtica (code pesanti oppure ipernormale)
Formule da utilizzare per gli indici di asimmetria e curtosi
• Indice di curtosi (kurtosis) (k0 è la versione corretta)
Funzioni MATLAB
• Le funzioni MATLAB per calcolare rispettivamente gli indici di asimmetria e curtosi si chiamano
Creazione del grafico
• Il modo più semplice per creare un grafico è quello di selezionare la zona della variabile che mi interessa e (dopo aver selezionato la scheda plots) fare click sul grafico che mi interessa
Osservazione• La modifica di un valore all’interno di una
table può essere fatto direttamente aprendo la variabile nell’editor delle variabili
• L’istruzione da codice (assumendo che la table di cui sopra si chiami Y) è la seguente
• Y.Wage(4) =1916.26
I PERCENTILI
• DEF. Si dice percentile di ordine z e si indica con xz (0<z<1) il numero che suddivide la successione dei valori ordinati in senso non decrescente in due parti, tale che i valori minori o uguali a xz siano una percentuale uguale a z.
Quartili
• dividono la distribuzione in quattro parti uguali: x25%, x50%, x75%
Ad esempio:• x25% = valore che discrimina il primo
quarto delle unità, con i valori più piccoli della variabile considerata, dai restanti tre quarti con i valori più grandi
Decili• Dividono la distribuzione in dieci parti uguali:• x10% x20% x30% x40% x50% x60% x70% x80% x90%• Ad esempio:• x90% = valore che suddivide la distribuzione in
due parti tali che• le unità per cui X ≤ x90% sono il 90% del totale • le unità per cui X ≥ x90% sono il restante 10%
N. B. → Me = x50%
Esempio: calcolo dei quartiliAziende Fatturato
A 1.234B 1.350C 1.583D 1.972E 2.164 (5°) x25% = (2.164 + 2.321)/2 =
= 2.242,5F 2.321 (6°)
G 2.407H 3.105I 4.540L 4.607 (10°) x50% = Me = (4.607 + 5.200)/2
= 4.903,5M 5.200 (11°)
N 5.555O 6.890P 8.267Q 9.945 (15°) x75% = (9.945 + 12.671)/2 =
= 11.308R 12.671 (16°)
S 14.707T 15.875U 22.560V 40.800
fatturato, in migliaia di euro, di 20 PMI alimentari
• La funzione MATLAB per calcolare i percentili
BOXPLOT (grafico a scatola)
• Indici occorrenti:• quartili• Differenza interquartile• xmin e xmax
Boxplot di 16 punti
Boxplot di 16 punti
Il punto di troncamento superiore è in corrispondenza del valore più grande ≤ x75%+1.5DI
Il punto di troncamento inferiore si colloca in corrispondenza del valore più piccolo ≥ x25%-1.5DI
Esercizio: inserire dentro MATLAB i dati numerici della spesa riportati nella tabella che segue.
Calcolare ed interpretare i seguenti percentili di spesa 0 0.25 0.50 0.75 1. Calcolare ed interpretare la
differenza interquartile. Costruire ed interpretare il relativo boxplot. Costruire il boxplot con orientamento orizzontale. Inserire tutte le istruzioni dentro uno script
denominato boxp.m
Soluzione
Soluzione
Esercizio
• Importare come «table» il file Firm.xlsx• Calcolare ed interpretare il boxplot per le
variabili peso e altezza (prima per tutte le unità statistiche e poi tenendo separati i maschi dalle femmine)
Traccia di soluzione• Di seguito si suppone che la table si
chiami Y• boxplot(Y{:,’Height’}))• ylabel('Altezza in cm')
Soluzione• Boxplot separato per maschi e femmine• boxplot(Y.Height,Y.Gender)
Esercizio riepilogativo
Ponderazione delle unità
Unità statistiche:• con la stessa importanza• con importanza diversa: ponderazione
Vettore dei pesi (relativi):w = [w1, …, wi, …, wn]’
Media semplice e media ponderata
• Caso particolare:• wi = 1/n → media aritmetica semplice
• Confronto con media ponderata in distribuzione di frequenze
Scostamento quadratico medio ponderato
Esercizio
• V. file
Top Related