ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione...

25
ALBERI DECISIONALI prima parte

Transcript of ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione...

Page 1: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità

ALBERI DECISIONALI prima parte

ALBERI DECISIONALI prima parte

Page 2: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità

Argomenti della lezioneArgomenti della lezione

Generazione di sistemi di classificazione

Generazione di sistemi di classificazione

Scelte dell’analisi Scelte dell’analisi

Criteri di valutazione della disomogeneità

Criteri di valutazione della disomogeneità

Page 3: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità

L’obiettivo è di selezionare, tra le variabili esplicative, quelle che

maggiormente spiegano la variabilità (o la mutabilità) della variabile target

L’obiettivo è di selezionare, tra le variabili esplicative, quelle che

maggiormente spiegano la variabilità (o la mutabilità) della variabile target

Gli alberi decisionali rientrano nell’ambito dell’analisi della

dipendenza

Gli alberi decisionali rientrano nell’ambito dell’analisi della

dipendenzaRealizzano un procedimento di

ripartizione del collettivo analizzato in gruppi mediante una successione

di spaccature di tipo gerarchico

Realizzano un procedimento di ripartizione del collettivo analizzato in gruppi mediante una successione

di spaccature di tipo gerarchico

Page 4: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità

Le partizioni prodotte sono di tipo gerarchico, e pertanto

rappresentabili mediante un dendrogramma ad albero

Le partizioni prodotte sono di tipo gerarchico, e pertanto

rappresentabili mediante un dendrogramma ad albero

La costruzione dell’albero è una procedura stepwise

La costruzione dell’albero è una procedura stepwise

Page 5: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità

Il collettivo (solitamente un campione probabilistico della popolazione di interesse) viene

suddiviso ripetutamente in modo da ottimizzare localmente (ovvero condizionatamente a ciascun gruppo intermedio) una funzione criterio

della variabile dipendente

Il collettivo (solitamente un campione probabilistico della popolazione di interesse) viene

suddiviso ripetutamente in modo da ottimizzare localmente (ovvero condizionatamente a ciascun gruppo intermedio) una funzione criterio

della variabile dipendente

Page 6: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità

Ognuno di questi gruppi può essere ulteriormente suddiviso, fino a

quando il processo viene interrotto in base ad una regola d’arresto

Ognuno di questi gruppi può essere ulteriormente suddiviso, fino a

quando il processo viene interrotto in base ad una regola d’arresto

Al primo passo il campione di n unità viene diviso in due o più sottoinsiemi, caratterizzati dai

valori assunti da una o più variabili esplicative

Al primo passo il campione di n unità viene diviso in due o più sottoinsiemi, caratterizzati dai

valori assunti da una o più variabili esplicative

Page 7: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità

La partizione migliore ad ogni passo viene scelta sulla base di un criterio

di omogeneità interna dei gruppi che vengono

generati dalle suddivisioni del campione

La partizione migliore ad ogni passo viene scelta sulla base di un criterio

di omogeneità interna dei gruppi che vengono

generati dalle suddivisioni del campione

Page 8: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità

La variabile dipendente può

essere:

La variabile dipendente può

essere:

qualitativa qualitativa

quantitativa quantitativa

Page 9: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità

La costruzione dell’albero può seguire una procedura di

partizione:

La costruzione dell’albero può seguire una procedura di

partizione:

binaria binaria

ternaria ternaria

multipla multipla

Page 10: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità

Ambiti di applicazione degli alberi decisionali:

Ambiti di applicazione degli alberi decisionali:

Page 11: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità

ricerca di interazioni tra variabili predittive

ricerca di interazioni tra variabili predittive

identificazione di gruppi devianti

identificazione di gruppi devianti

identificazione di dati anomali

identificazione di dati anomali

Page 12: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità

interpretazione causale del fenomeno rappresentato dalla variabile dipendente

interpretazione causale del fenomeno rappresentato dalla variabile dipendente

ricerca di relazioni non lineari tra variabili quantitative o di relazioni non monotone tra variabili ordinali

ricerca di relazioni non lineari tra variabili quantitative o di relazioni non monotone tra variabili ordinali

Page 13: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità

forzatura di un dato valido in sostituzione di un dato mancante

forzatura di un dato valido in sostituzione di un dato mancante

produzione di regole di previsione o di classificazione

produzione di regole di previsione o di classificazione

Page 14: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità

Regole di salvaguardia nella esecuzione dell‘analisi:

Regole di salvaguardia nella esecuzione dell‘analisi:

errore di stima nei gruppi formati

errore di stima nei gruppi formati

forma della distribuzione della variabile dipendente

forma della distribuzione della variabile dipendente

Page 15: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità

Scelte nell’analisi di

partizione

Scelte nell’analisi di

partizione

Page 16: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità

tipo di variabile dipendente tipo di variabile dipendente

ordine di ingresso dei predittori ordine di ingresso dei predittori

numero dei gruppi da tentare ad ogni passo dell’analisi

numero dei gruppi da tentare ad ogni passo dell’analisi

criteri che modificano la struttura dell’albero

criteri che modificano la struttura dell’albero

criteri di arresto del processo di segmentazione

criteri di arresto del processo di segmentazione

Page 17: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità

Eliminazione dall’analisi

di variabili di disturbo

Eliminazione dall’analisi

di variabili di disturbo

Page 18: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità

Se la variabile dipendente Y è fortemente correlata con la variabile Z, quasi tutta la variabilità risulterà

spiegata da questa variabile predittiva

Se la variabile dipendente Y è fortemente correlata con la variabile Z, quasi tutta la variabilità risulterà

spiegata da questa variabile predittiva

In questi casi è opportuno considerare invece della variabile

originaria Y, i residui della regressione della Y sulla Z

In questi casi è opportuno considerare invece della variabile

originaria Y, i residui della regressione della Y sulla Z

Page 19: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità

Scelta dei potenziali predittori:

Scelta dei potenziali predittori:

ipotesi a priori ipotesi a priori

analisi statistiche preliminari del campione osservato

analisi statistiche preliminari del campione osservato

Page 20: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità

Modalità dei predittoriModalità dei predittori

Tutte le variabili esplicative vanno trasformate in variabili categoriali

Tutte le variabili esplicative vanno trasformate in variabili categoriali

Conviene aggregare le categorie con frequenze esigue in modo da ottenere modalità con frequenze quasi uniformi

Conviene aggregare le categorie con frequenze esigue in modo da ottenere modalità con frequenze quasi uniformi

Limitare il numero di categorie e bilanciarle tra le variabili

Limitare il numero di categorie e bilanciarle tra le variabili

Page 21: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità

Monotonicità della

relazione

Monotonicità della

relazione

Page 22: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità

Si dice monotona la relazione tra una predittiva su scala ordinale X e la variabile dipendente Y su scala

almeno ordinale, quando la crescere della prima la seconda varia

costantemente

Si dice monotona la relazione tra una predittiva su scala ordinale X e la variabile dipendente Y su scala

almeno ordinale, quando la crescere della prima la seconda varia

costantemente

Si impone la monotonicità tra Y e X quando si vuole che siano aggregate

per formare gruppi solo modalità adiacenti sulla scala ordinale

Si impone la monotonicità tra Y e X quando si vuole che siano aggregate

per formare gruppi solo modalità adiacenti sulla scala ordinale

Page 23: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità

x1 > 0,7x1 > 0,7

t1t1

x2 > 0,5x2 > 0,5

x1 ≤ 0,7x1 ≤ 0,7

x2 ≤ 0,5x2 ≤ 0,5

t2t2 t3t3

t5t5t4t4

Page 24: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità

classe 1classe 1

classe 2classe 2

x2x2t5t5 t3t3

t4t4

x1x1

0,50,5

0,70,7

Page 25: ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione Scelte dellanalisi Criteri di valutazione della disomogeneità

Ordine d’ingresso dei predittori

Ordine d’ingresso dei predittori

E’ possibile imporre l’ordine d’ingresso dei predittori nell’analisi, in modo che vengano forzatamente

inserite per prime nel processo di partizione le variabili che stanno

all’origine della catena causale

E’ possibile imporre l’ordine d’ingresso dei predittori nell’analisi, in modo che vengano forzatamente

inserite per prime nel processo di partizione le variabili che stanno

all’origine della catena causale