Didamatica2012 - slides

14
Fattorizzazioni matriciali non negative per l’analisi dei dati nell’Educational Data Mining Department of Mathematics Department of Mathematics University of Bari University of Bari Nicoletta Del Buono Gabriella Casalino Ciro Castiello Corrado Mencar

Transcript of Didamatica2012 - slides

Fattorizzazioni matriciali non negative per l’analisi dei dati nell’Educational Data Mining

Department of Mathematics Department of Mathematics University of BariUniversity of BariNicoletta Del Buono

Gabriella CasalinoCiro CastielloCorrado Mencar

Introduzione

Analisi dei dati: attività di ricerca ed estrazione di informazioni da un dataset

Analisi dei dati: attività di ricerca ed estrazione di informazioni da un dataset

Problematiche:• Inesattezza dei dati raccolti• Interazione tra le variabili che caratterizzano i dati• Informazioni ambigue e sovrapposte

Inadeguatezza nel trasmettere conoscenza Inadeguatezza nel trasmettere conoscenza2

E-learning

Dati generati dall’interazione teaching-learning• Punteggi riportati dagli studenti• Risposte fornite ai questionari on-line• Eventi negli Intelligent Tutoring Systems

I dati grezzi non sono in grado di trasmettere conoscenza

esplicita e diretta agli attori del sistema educazionale

I dati grezzi non sono in grado di trasmettere conoscenza

esplicita e diretta agli attori del sistema educazionale

3

Educational Data Mining (EDM)

Attività:• Raggruppare informazioni omogenee• Scoprire relazioni tra gli argomenti di test• Evidenziare fattori latenti nei meccanismi di apprendimento

Scopi:• Rilevare categorie concettuali non direttamente osservabili• Realizzare forme di apprendimento individualizzato basate

sulle performance dello studente

Tecniche di estrazione di conoscenza dai dati in scenari di e-learning

Tecniche di estrazione di conoscenza dai dati in scenari di e-learning

4

Teorie nell’EDM

Risposte a specifici test sono manifestazioni di fattori latenti non immediatamente osservabili ma ricavabili indirettamente

Risposte a specifici test sono manifestazioni di fattori latenti non immediatamente osservabili ma ricavabili indirettamente

• Teoria Classica dei Test (CTT)• Valuta le performance di un soggetto in funzione del

punteggio totale ai test• Teoria di risposta agli Item (IRT)

• Modello statistico-matematico• Valuta le performance di un soggetto in funzione della

misura delle sue abilità relative a fattori latenti• Valuta le domande del test

5

Fattorizzazioni matriciali non negative (NMF)

• Lee e Seung 1997

• Decomposizione di un dataset mediante fattori latenti più interpretabili

• Permettono una rappresentazione ridotta dei dati utilizzando combinazioni lineari additive di basi non negative• Non negatività preservata

• Rappresentazione basata sulle parti: parti combinate additivamente per formare l’intero

Nell’e-learning:

• Quesiti influiscono positivamente sugli argomenti

• Abilità degli studenti sono valori positivi

Nell’e-learning:

• Quesiti influiscono positivamente sugli argomenti

• Abilità degli studenti sono valori positivi6

Formalizzazione matematica delle NMF

• Dato un dataset iniziale espresso mediante una matrice X di dimensioni n×m

• Ogni colonna è un vettore n-dimensionale non-negativo del database originario (m vettori)

• NMF consiste nell’approssimazione di X mediante il prodotto di due matrici a rango ridotto

X ≈ WH

matrice delle basi (n×r )

matrice di codifica(r×m)

Fattorizzazione matriciale non negativa

7

Semantica della NMF nell’e-learning

8

NMF per il calcolo della Q-matrix

Q-matrix (Tatsuoka, 1983) evidenzia le relazioni tra gli item che costituiscono un test e gli skill coinvolti nel processo cognitivo

Q-matrix (Tatsuoka, 1983) evidenzia le relazioni tra gli item che costituiscono un test e gli skill coinvolti nel processo cognitivo

NMF per estrarre automaticamente Q-matrix da score matrix (Desmarais et al., 2012)

NMF per estrarre automaticamente Q-matrix da score matrix (Desmarais et al., 2012)

9

Esempio illustrativoSAT dataset• 297 studenti, 40 domande• Matematica, Biologia, Storia mondiale, Francese

10

Fattori latenti

La decomposizione a valori singolari (SVD) applicata alla score matrix ha confermato la presenza di 4 fattori latenti

11

Risultati della NMF

Matrice delle basi W (Q-matrix)

Matrice di codifica H

0.5

1

1.5

2

2.5

3

3.5

4

4.52 4 6 8 10

12

Q-matrix ottenute con diversi algoritmi NMF

Q-matrix ottenute con diverse inizializzazioni

Parametri di configurazione della NMF

13

Conclusioni e sviluppi futuri• La NMF può estrarre automaticamente

informazioni latenti da score matrix• Fattori latenti possono essere interpretati come

skill• E’ possibile utilizzare i risultati forniti dalla NMF

per raffinare la progettazione dei test e attuare processi formativi individualizzati.

• Inclusione di forme di conoscenza addizionali per guidare il processo di fattorizzazione

14