Didamatica2012 - slides
-
Upload
gabriella-casalino -
Category
Technology
-
view
41 -
download
0
Transcript of Didamatica2012 - slides
Fattorizzazioni matriciali non negative per l’analisi dei dati nell’Educational Data Mining
Department of Mathematics Department of Mathematics University of BariUniversity of BariNicoletta Del Buono
Gabriella CasalinoCiro CastielloCorrado Mencar
Introduzione
Analisi dei dati: attività di ricerca ed estrazione di informazioni da un dataset
Analisi dei dati: attività di ricerca ed estrazione di informazioni da un dataset
Problematiche:• Inesattezza dei dati raccolti• Interazione tra le variabili che caratterizzano i dati• Informazioni ambigue e sovrapposte
Inadeguatezza nel trasmettere conoscenza Inadeguatezza nel trasmettere conoscenza2
E-learning
Dati generati dall’interazione teaching-learning• Punteggi riportati dagli studenti• Risposte fornite ai questionari on-line• Eventi negli Intelligent Tutoring Systems
I dati grezzi non sono in grado di trasmettere conoscenza
esplicita e diretta agli attori del sistema educazionale
I dati grezzi non sono in grado di trasmettere conoscenza
esplicita e diretta agli attori del sistema educazionale
3
Educational Data Mining (EDM)
Attività:• Raggruppare informazioni omogenee• Scoprire relazioni tra gli argomenti di test• Evidenziare fattori latenti nei meccanismi di apprendimento
Scopi:• Rilevare categorie concettuali non direttamente osservabili• Realizzare forme di apprendimento individualizzato basate
sulle performance dello studente
Tecniche di estrazione di conoscenza dai dati in scenari di e-learning
Tecniche di estrazione di conoscenza dai dati in scenari di e-learning
4
Teorie nell’EDM
Risposte a specifici test sono manifestazioni di fattori latenti non immediatamente osservabili ma ricavabili indirettamente
Risposte a specifici test sono manifestazioni di fattori latenti non immediatamente osservabili ma ricavabili indirettamente
• Teoria Classica dei Test (CTT)• Valuta le performance di un soggetto in funzione del
punteggio totale ai test• Teoria di risposta agli Item (IRT)
• Modello statistico-matematico• Valuta le performance di un soggetto in funzione della
misura delle sue abilità relative a fattori latenti• Valuta le domande del test
5
Fattorizzazioni matriciali non negative (NMF)
• Lee e Seung 1997
• Decomposizione di un dataset mediante fattori latenti più interpretabili
• Permettono una rappresentazione ridotta dei dati utilizzando combinazioni lineari additive di basi non negative• Non negatività preservata
• Rappresentazione basata sulle parti: parti combinate additivamente per formare l’intero
Nell’e-learning:
• Quesiti influiscono positivamente sugli argomenti
• Abilità degli studenti sono valori positivi
Nell’e-learning:
• Quesiti influiscono positivamente sugli argomenti
• Abilità degli studenti sono valori positivi6
Formalizzazione matematica delle NMF
• Dato un dataset iniziale espresso mediante una matrice X di dimensioni n×m
• Ogni colonna è un vettore n-dimensionale non-negativo del database originario (m vettori)
• NMF consiste nell’approssimazione di X mediante il prodotto di due matrici a rango ridotto
X ≈ WH
matrice delle basi (n×r )
matrice di codifica(r×m)
Fattorizzazione matriciale non negativa
7
NMF per il calcolo della Q-matrix
Q-matrix (Tatsuoka, 1983) evidenzia le relazioni tra gli item che costituiscono un test e gli skill coinvolti nel processo cognitivo
Q-matrix (Tatsuoka, 1983) evidenzia le relazioni tra gli item che costituiscono un test e gli skill coinvolti nel processo cognitivo
NMF per estrarre automaticamente Q-matrix da score matrix (Desmarais et al., 2012)
NMF per estrarre automaticamente Q-matrix da score matrix (Desmarais et al., 2012)
9
Esempio illustrativoSAT dataset• 297 studenti, 40 domande• Matematica, Biologia, Storia mondiale, Francese
10
Fattori latenti
La decomposizione a valori singolari (SVD) applicata alla score matrix ha confermato la presenza di 4 fattori latenti
11
Risultati della NMF
Matrice delle basi W (Q-matrix)
Matrice di codifica H
0.5
1
1.5
2
2.5
3
3.5
4
4.52 4 6 8 10
12
Q-matrix ottenute con diversi algoritmi NMF
Q-matrix ottenute con diverse inizializzazioni
Parametri di configurazione della NMF
13
Conclusioni e sviluppi futuri• La NMF può estrarre automaticamente
informazioni latenti da score matrix• Fattori latenti possono essere interpretati come
skill• E’ possibile utilizzare i risultati forniti dalla NMF
per raffinare la progettazione dei test e attuare processi formativi individualizzati.
• Inclusione di forme di conoscenza addizionali per guidare il processo di fattorizzazione
14