ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione...

Post on 01-May-2015

221 views 0 download

Transcript of ALBERI DECISIONALI prima parte. Argomenti della lezione Generazione di sistemi di classificazione...

ALBERI DECISIONALI prima parte

ALBERI DECISIONALI prima parte

Argomenti della lezioneArgomenti della lezione

Generazione di sistemi di classificazione

Generazione di sistemi di classificazione

Scelte dell’analisi Scelte dell’analisi

Criteri di valutazione della disomogeneità

Criteri di valutazione della disomogeneità

L’obiettivo è di selezionare, tra le variabili esplicative, quelle che

maggiormente spiegano la variabilità (o la mutabilità) della variabile target

L’obiettivo è di selezionare, tra le variabili esplicative, quelle che

maggiormente spiegano la variabilità (o la mutabilità) della variabile target

Gli alberi decisionali rientrano nell’ambito dell’analisi della

dipendenza

Gli alberi decisionali rientrano nell’ambito dell’analisi della

dipendenzaRealizzano un procedimento di

ripartizione del collettivo analizzato in gruppi mediante una successione

di spaccature di tipo gerarchico

Realizzano un procedimento di ripartizione del collettivo analizzato in gruppi mediante una successione

di spaccature di tipo gerarchico

Le partizioni prodotte sono di tipo gerarchico, e pertanto

rappresentabili mediante un dendrogramma ad albero

Le partizioni prodotte sono di tipo gerarchico, e pertanto

rappresentabili mediante un dendrogramma ad albero

La costruzione dell’albero è una procedura stepwise

La costruzione dell’albero è una procedura stepwise

Il collettivo (solitamente un campione probabilistico della popolazione di interesse) viene

suddiviso ripetutamente in modo da ottimizzare localmente (ovvero condizionatamente a ciascun gruppo intermedio) una funzione criterio

della variabile dipendente

Il collettivo (solitamente un campione probabilistico della popolazione di interesse) viene

suddiviso ripetutamente in modo da ottimizzare localmente (ovvero condizionatamente a ciascun gruppo intermedio) una funzione criterio

della variabile dipendente

Ognuno di questi gruppi può essere ulteriormente suddiviso, fino a

quando il processo viene interrotto in base ad una regola d’arresto

Ognuno di questi gruppi può essere ulteriormente suddiviso, fino a

quando il processo viene interrotto in base ad una regola d’arresto

Al primo passo il campione di n unità viene diviso in due o più sottoinsiemi, caratterizzati dai

valori assunti da una o più variabili esplicative

Al primo passo il campione di n unità viene diviso in due o più sottoinsiemi, caratterizzati dai

valori assunti da una o più variabili esplicative

La partizione migliore ad ogni passo viene scelta sulla base di un criterio

di omogeneità interna dei gruppi che vengono

generati dalle suddivisioni del campione

La partizione migliore ad ogni passo viene scelta sulla base di un criterio

di omogeneità interna dei gruppi che vengono

generati dalle suddivisioni del campione

La variabile dipendente può

essere:

La variabile dipendente può

essere:

qualitativa qualitativa

quantitativa quantitativa

La costruzione dell’albero può seguire una procedura di

partizione:

La costruzione dell’albero può seguire una procedura di

partizione:

binaria binaria

ternaria ternaria

multipla multipla

Ambiti di applicazione degli alberi decisionali:

Ambiti di applicazione degli alberi decisionali:

ricerca di interazioni tra variabili predittive

ricerca di interazioni tra variabili predittive

identificazione di gruppi devianti

identificazione di gruppi devianti

identificazione di dati anomali

identificazione di dati anomali

interpretazione causale del fenomeno rappresentato dalla variabile dipendente

interpretazione causale del fenomeno rappresentato dalla variabile dipendente

ricerca di relazioni non lineari tra variabili quantitative o di relazioni non monotone tra variabili ordinali

ricerca di relazioni non lineari tra variabili quantitative o di relazioni non monotone tra variabili ordinali

forzatura di un dato valido in sostituzione di un dato mancante

forzatura di un dato valido in sostituzione di un dato mancante

produzione di regole di previsione o di classificazione

produzione di regole di previsione o di classificazione

Regole di salvaguardia nella esecuzione dell‘analisi:

Regole di salvaguardia nella esecuzione dell‘analisi:

errore di stima nei gruppi formati

errore di stima nei gruppi formati

forma della distribuzione della variabile dipendente

forma della distribuzione della variabile dipendente

Scelte nell’analisi di

partizione

Scelte nell’analisi di

partizione

tipo di variabile dipendente tipo di variabile dipendente

ordine di ingresso dei predittori ordine di ingresso dei predittori

numero dei gruppi da tentare ad ogni passo dell’analisi

numero dei gruppi da tentare ad ogni passo dell’analisi

criteri che modificano la struttura dell’albero

criteri che modificano la struttura dell’albero

criteri di arresto del processo di segmentazione

criteri di arresto del processo di segmentazione

Eliminazione dall’analisi

di variabili di disturbo

Eliminazione dall’analisi

di variabili di disturbo

Se la variabile dipendente Y è fortemente correlata con la variabile Z, quasi tutta la variabilità risulterà

spiegata da questa variabile predittiva

Se la variabile dipendente Y è fortemente correlata con la variabile Z, quasi tutta la variabilità risulterà

spiegata da questa variabile predittiva

In questi casi è opportuno considerare invece della variabile

originaria Y, i residui della regressione della Y sulla Z

In questi casi è opportuno considerare invece della variabile

originaria Y, i residui della regressione della Y sulla Z

Scelta dei potenziali predittori:

Scelta dei potenziali predittori:

ipotesi a priori ipotesi a priori

analisi statistiche preliminari del campione osservato

analisi statistiche preliminari del campione osservato

Modalità dei predittoriModalità dei predittori

Tutte le variabili esplicative vanno trasformate in variabili categoriali

Tutte le variabili esplicative vanno trasformate in variabili categoriali

Conviene aggregare le categorie con frequenze esigue in modo da ottenere modalità con frequenze quasi uniformi

Conviene aggregare le categorie con frequenze esigue in modo da ottenere modalità con frequenze quasi uniformi

Limitare il numero di categorie e bilanciarle tra le variabili

Limitare il numero di categorie e bilanciarle tra le variabili

Monotonicità della

relazione

Monotonicità della

relazione

Si dice monotona la relazione tra una predittiva su scala ordinale X e la variabile dipendente Y su scala

almeno ordinale, quando la crescere della prima la seconda varia

costantemente

Si dice monotona la relazione tra una predittiva su scala ordinale X e la variabile dipendente Y su scala

almeno ordinale, quando la crescere della prima la seconda varia

costantemente

Si impone la monotonicità tra Y e X quando si vuole che siano aggregate

per formare gruppi solo modalità adiacenti sulla scala ordinale

Si impone la monotonicità tra Y e X quando si vuole che siano aggregate

per formare gruppi solo modalità adiacenti sulla scala ordinale

x1 > 0,7x1 > 0,7

t1t1

x2 > 0,5x2 > 0,5

x1 ≤ 0,7x1 ≤ 0,7

x2 ≤ 0,5x2 ≤ 0,5

t2t2 t3t3

t5t5t4t4

classe 1classe 1

classe 2classe 2

x2x2t5t5 t3t3

t4t4

x1x1

0,50,5

0,70,7

Ordine d’ingresso dei predittori

Ordine d’ingresso dei predittori

E’ possibile imporre l’ordine d’ingresso dei predittori nell’analisi, in modo che vengano forzatamente

inserite per prime nel processo di partizione le variabili che stanno

all’origine della catena causale

E’ possibile imporre l’ordine d’ingresso dei predittori nell’analisi, in modo che vengano forzatamente

inserite per prime nel processo di partizione le variabili che stanno

all’origine della catena causale