DBMG Data mining: regole di associazione -...

3
Pag. 1 Data mining: regole di associazione Elena Baralis Politecnico di Torino DataBase and Data Mining Group of Politecnico di Torino D B M G DA TA MINING: REGOLE DI ASSOCIAZIONE - 1 Copyright – Tutti i diritti riservati Database and data mining group, Politecnico di Torino D B M G Elena Baralis Politecnico di Torino Regole di associazione Elena Baralis Politecnico di Torino D B M G DA TA MINING: REGOLE DI ASSOCIAZIONE - 2 Copyright – Tutti i diritti riservati Database and data mining group, Politecnico di Torino D B M G Elena Baralis Politecnico di Torino Regole di associazione Ricerca di correlazioni in una collezione di dati strumento efficace per analizzare i dati senza conoscenza a priori delle correlazioni cercate può restituire un numero elevato di regole versatili: estraibili da tipologie di dati eterogenee (basi di dati, testo, XML, …) non rappresentano un nesso causa-effetto • Numerosi ambiti applicativi market basket analysis, cross-marketing, progettazione di layout o di cataloghi DA TA MINING: REGOLE DI ASSOCIAZIONE - 3 Copyright – Tutti i diritti riservati Database and data mining group, Politecnico di Torino D B M G Elena Baralis Politecnico di Torino Esempio E` data una collezione di transazioni di cassa di un supermercato (scontrini) Regola di associazione pannolini birra il 2% delle transazioni contiene entrambi gli elementi il 30% delle transazioni che contengono pannolini contiene anche birra transazioni contenenti birra transazioni contenenti pannolini DA TA MINING: REGOLE DI ASSOCIAZIONE - 4 Copyright – Tutti i diritti riservati Database and data mining group, Politecnico di Torino D B M G Elena Baralis Politecnico di Torino Definizione generale Data una collezione di insiemi di oggetti insieme di oggetti = transazione gli oggetti nella transazione non sono ordinati Regola di associazione A, B C A, B = oggetti nel corpo della regola C = oggetti nella testa della regola • Esempi fiocchi, biscotti latte età = 42, assicurazione-vita = sì figli = sì customer, relationship data, mining DA TA MINING: REGOLE DI ASSOCIAZIONE - 5 Copyright – Tutti i diritti riservati Database and data mining group, Politecnico di Torino D B M G Elena Baralis Politecnico di Torino Misure di qualità A, B C Supporto è la frequenza di A, B, C num. trans. contenenti A,B,C num. trans. in base dati probabilita a priori dell’insieme A, B, C frequenza statistica della regola Confidenza è la frequenza di C nelle transazioni contenenti A, B num. trans. contenenti A,B,C num. trans. contenenti A,B probabilità condizionata di trovare C avendo trovato A,B “forza” dell’implicazione DA TA MINING: REGOLE DI ASSOCIAZIONE - 6 Copyright – Tutti i diritti riservati Database and data mining group, Politecnico di Torino D B M G Elena Baralis Politecnico di Torino Misure di qualità: esempio • Estrazione regole con supporto minimo 50% Regola: A C supporto 50% confidenza 66,6% Regola: C A supporto 50% confidenza 100% ID transazione Oggetti 2 A,B,C 1 A,C 4 A,D 5 B,E,F

Transcript of DBMG Data mining: regole di associazione -...

Page 1: DBMG Data mining: regole di associazione - polito.itdbdmg.polito.it/wordpress/wp-content/uploads/2010/12/14...2010/12/14  · Database and data mining group, Politecnico di Torino

Pag. 1

Data mining: regole di associazione

Elena BaralisPolitecnico di Torino

DataBase and Data Mining Group of Politecnico di Torino

DBMG

DA TA MINING: REGOLE DI ASSOCIAZIONE - 1Copyright – Tutti i diritti riservati

Database and data mining group, Politecnico di Tor ino

D ataB ase and D ata Mi ning G roup of Pol i tecni co di T ori no

DBMG

Elena BaralisPolitecnico di Torino

Regole di associazione

Elena BaralisPolitecnico di Torino

D ataB ase and D ata Mi ning G roup of Pol i tecni co di T ori no

DBMG

DA TA MINING: REGOLE DI ASSOCIAZIONE - 2Copyright – Tutti i diritti riservati

Database and data mining group, Politecnico di Tor ino

D ataB ase and D ata Mi ning G roup of Pol i tecni co di T ori no

DBMG

Elena BaralisPolitecnico di Torino

Regole di associazione

• Ricerca di correlazioni in una collezione di dati– strumento efficace per analizzare i dati senza conoscenza

a priori delle correlazioni cercate– può restituire un numero elevato di regole– versatili: estraibili da tipologie di dati eterogenee (basi di

dati, testo, XML, …)– non rappresentano un nesso causa-effetto

• Numerosi ambiti applicativi– market basket analysis, cross-marketing, progettazione di

layout o di cataloghi

DA TA MINING: REGOLE DI ASSOCIAZIONE - 3Copyright – Tutti i diritti riservati

Database and data mining group, Politecnico di Tor ino

D ataB ase and D ata Mi ning G roup of Pol i tecni co di T ori no

DBMG

Elena BaralisPolitecnico di Torino

Esempio• E` data una collezione di transazioni di cassa di

un supermercato (scontrini)• Regola di associazione

pannolini � birra– il 2% delle transazioni contiene entrambi gli elementi

– il 30% delle transazioni che contengono pannolini contiene anche birra

transazionicontenentibirra

transazionicontenentipannolini

DA TA MINING: REGOLE DI ASSOCIAZIONE - 4Copyright – Tutti i diritti riservati

Database and data mining group, Politecnico di Tor ino

D ataB ase and D ata Mi ning G roup of Pol i tecni co di T ori no

DBMG

Elena BaralisPolitecnico di Torino

Definizione generale• Data una collezione di insiemi di oggetti

– insieme di oggetti = transazione– gli oggetti nella transazione non sono ordinati

• Regola di associazioneA, B � C

– A, B = oggetti nel corpo della regola

– C = oggetti nella testa della regola

• Esempi– fiocchi, biscotti � latte

– età = 42, assicurazione-vita = sì � figli = sì

– customer, relationship � data, mining

DA TA MINING: REGOLE DI ASSOCIAZIONE - 5Copyright – Tutti i diritti riservati

Database and data mining group, Politecnico di Tor ino

D ataB ase and D ata Mi ning G roup of Pol i tecni co di T ori no

DBMG

Elena BaralisPolitecnico di Torino

Misure di qualitàA, B � C

• Supporto è la frequenza di A, B, Cnum. trans. contenenti A,B,C

num. trans. in base dati

– probabilita a priori dell’insieme A, B, C– frequenza statistica della regola

• Confidenza è la frequenza di C nelle transazioni contenenti A, B

num. trans. contenenti A,B,Cnum. trans. contenenti A,B

– probabilità condizionata di trovare C avendo trovatoA,B

– “forza” dell’implicazione

DA TA MINING: REGOLE DI ASSOCIAZIONE - 6Copyright – Tutti i diritti riservati

Database and data mining group, Politecnico di Tor ino

D ataB ase and D ata Mi ning G roup of Pol i tecni co di T ori no

DBMG

Elena BaralisPolitecnico di Torino

Misure di qualità: esempio

• Estrazione regole con supporto minimo 50%

• Regola: A � C– supporto 50% – confidenza 66,6%

• Regola: C � A– supporto 50% – confidenza 100%

ID transazione Oggetti2 A,B,C1 A,C4 A,D5 B,E,F

Page 2: DBMG Data mining: regole di associazione - polito.itdbdmg.polito.it/wordpress/wp-content/uploads/2010/12/14...2010/12/14  · Database and data mining group, Politecnico di Torino

Pag. 2

Data mining: regole di associazione

Elena BaralisPolitecnico di Torino

DataBase and Data Mining Group of Politecnico di Torino

DBMG

DA TA MINING: REGOLE DI ASSOCIAZIONE - 7Copyright – Tutti i diritti riservati

Database and data mining group, Politecnico di Tor ino

D ataB ase and D ata Mi ning G roup of Pol i tecni co di T ori no

DBMG

Elena BaralisPolitecnico di Torino

Uso delle regole di associazione

• Regole a supporto elevato(visione di alto livello delle correlazioni presenti, spesso già note)

• Regole a confidenza elevata(correlazioni forti, eventualmente poco frequenti)

• Analisi degli antecedenti* � birra

(cosa proporre per promuovere le vendite di birra?)• Analisi dei conseguenti

pannolini� *(cosa si vende contestualmente ai pannolini?)

DA TA MINING: REGOLE DI ASSOCIAZIONE - 8Copyright – Tutti i diritti riservati

Database and data mining group, Politecnico di Tor ino

D ataB ase and D ata Mi ning G roup of Pol i tecni co di T ori no

DBMG

Elena BaralisPolitecnico di Torino

Tipologie di regole

• Regole di associazione “tradizionali”– richiedono attributi categorici– registrano la presenza/assenza di un oggetto

• Regole quantitative– definite su attributi con valori continui– soluzione più semplice è la discretizzazione

• Regole multilivello– definite su gerarchie di generalizzazione

• Maximal itemsets, closed itemsets

DA TA MINING: REGOLE DI ASSOCIAZIONE - 9Copyright – Tutti i diritti riservati

Database and data mining group, Politecnico di Tor ino

D ataB ase and D ata Mi ning G roup of Pol i tecni co di T ori no

DBMG

Elena BaralisPolitecnico di Torino

Procedimento di estrazione

Itemset frequenti Supporto{A} 75%{B} 50%{C} 50%{A,C} 50%

ID transazione Oggetti2 A,B,C1 A,C4 A,D5 B,E,F

1. Estrazione degli item frequenti

2. Estrazione degli itemset con due elementi a partire dagli item frequenti

3. Se possibile, continua con n>2

• Supporto minimo 50%• Confidenza minima 50%

Principio Apriori: ogni sottoinsieme di un itemset frequente deve essere a sua volta frequente

DA TA MINING: REGOLE DI ASSOCIAZIONE - 10Copyright – Tutti i diritti riservati

Database and data mining group, Politecnico di Tor ino

D ataB ase and D ata Mi ning G roup of Pol i tecni co di T ori no

DBMG

Elena BaralisPolitecnico di Torino

Procedimento di estrazione

1. Estrazione degli itemset frequenti• procedimento iterativo a livelli (Apriori)• procedimento senza generazione dei candidati (FP-

growth)• passo computazionalmente più costoso• limitazione della complessità mediante soglia di

supporto

2. Estrazione delle regole di associazione• generazione di tutte le combinazioni a partire dagli

itemset frequenti

DA TA MINING: REGOLE DI ASSOCIAZIONE - 11Copyright – Tutti i diritti riservati

Database and data mining group, Politecnico di Tor ino

D ataB ase and D ata Mi ning G roup of Pol i tecni co di T ori no

DBMG

Elena BaralisPolitecnico di Torino

Regole di associazione multilivello

• Combinano elementi a livelli diversi della gerarchia– le correlazioni interessanti potrebbero non essere a

livello di singolo codice a barre

• Soglie di supporto diverse– livelli inferiori caratterizzati da elementi con supporto

basso– elementi nei livelli superiori hanno supporto elevato

DA TA MINING: REGOLE DI ASSOCIAZIONE - 12Copyright – Tutti i diritti riservati

Database and data mining group, Politecnico di Tor ino

D ataB ase and D ata Mi ning G roup of Pol i tecni co di T ori no

DBMG

Elena BaralisPolitecnico di Torino

Esempio

• Gerarchia merceologica: codice UPC, sottocategoria, categoria merceologica

alimentari

bevande dolci

limonata vino panforte panettone

• regola Moscato XYZ

– vino � dolci valida anche se

• bevande � dolci non ha confidenza suff.• Moscato XYZ � dolci non ha supporto suff.

Page 3: DBMG Data mining: regole di associazione - polito.itdbdmg.polito.it/wordpress/wp-content/uploads/2010/12/14...2010/12/14  · Database and data mining group, Politecnico di Torino

Pag. 3

Data mining: regole di associazione

Elena BaralisPolitecnico di Torino

DataBase and Data Mining Group of Politecnico di Torino

DBMG

DA TA MINING: REGOLE DI ASSOCIAZIONE - 13Copyright – Tutti i diritti riservati

Database and data mining group, Politecnico di Tor ino

D ataB ase and D ata Mi ning G roup of Pol i tecni co di T ori no

DBMG

Elena BaralisPolitecnico di Torino

Misure di interesse

• Misure oggettive– supporto: frequenza della regola– confidenza: forza della regola, talvolta non

attendibile

• Misure soggettive– imprevedibilità

– usabilità

DA TA MINING: REGOLE DI ASSOCIAZIONE - 14Copyright – Tutti i diritti riservati

Database and data mining group, Politecnico di Tor ino

D ataB ase and D ata Mi ning G roup of Pol i tecni co di T ori no

DBMG

Elena BaralisPolitecnico di Torino

Confidenza: una misura sempre affidabile?

• Sono dati 5000 studenti (high school USA)– 3750 mangiano cereali a colazione– 3000 giocano a basket– 2000 mangiano cereali e giocano a basket

• La regolagioca a basket �mangia cereali

supporto = 40%, confidenza = 66,7% è fuorviante perchémangia cereali ha supporto 75% (>66,7%)

basket not basket totalecereali 2000 1750 3750not cereali 1000 250 1250totale 3000 2000 5000

• Problema causato dalla frequenza elevata della testa della regola– correlazione

negativa

DA TA MINING: REGOLE DI ASSOCIAZIONE - 15Copyright – Tutti i diritti riservati

Database and data mining group, Politecnico di Tor ino

D ataB ase and D ata Mi ning G roup of Pol i tecni co di T ori no

DBMG

Elena BaralisPolitecnico di Torino

Correlazione o lift

Correlazione =)()(

),(

BPAP

BAP

sup(B)

conf(r)=

• Indipendenza statistica– Correlazione = 1

• Correlazione positiva– Correlazione > 1

• Correlazione negativa– Correlazione < 1

r: A � B

DA TA MINING: REGOLE DI ASSOCIAZIONE - 16Copyright – Tutti i diritti riservati

Database and data mining group, Politecnico di Tor ino

D ataB ase and D ata Mi ning G roup of Pol i tecni co di T ori no

DBMG

Elena BaralisPolitecnico di Torino

Esempio

• La regola di associazionegioca a basket � mangia cereali

ha corr = 0.89• È presente una correlazione negativa

gioca a basket � not (mangia cereali)

con corr = 1,34