Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici
description
Transcript of Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici
Tecniche di raccomandazione automatica per lasottomissione di articoli scientificiCorso di Laurea Magistrale in Ingegneria Informatica
Laureando
Giulio Piccinin
Relatore Correlatori
prof. Alberto Bartoli prof. Eric Medvet
dott. Andrea De Lorenzo
Universita degli Studi di TriesteDipartimento di Ingegneria e Architettura
Anno Accademico 2012/2013
Raccomandazione di conferenze
Indice
1 Raccomandazione di conferenze
2 Tecniche di raccomandazioneVariante Cavnar-TrenkleVariante Two-steps-LDAVariante LDA+clustering
3 Valutazione sperimentale
4 Conclusioni
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 2 / 25
Raccomandazione di conferenze
Problema
Aspetto primario della ricerca scientifica: pubblicazione di articoli
Scelta della sede di pubblicazione
reputazione
settore d’interesse
conferenza/rivista/. . .
luogo e data
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 3 / 25
Raccomandazione di conferenze
Problema affrontato
Scelta delle conferenze che trattano argomenti corrispondenti a quellidell’articolo
ricevere review di qualita
far conoscere e apprezzare il lavoro
ottenere citazioni
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 4 / 25
Raccomandazione di conferenze
Motivazioni
La scelta delle conferenze puo essere molto difficile
1) Conferenze scientifiche estremamente numerose
es.: piu di 2000 conferenze solo di Computer Scienceda molto specifiche a generalistiche
2) Virtualmente impossibile per il ricercatore conoscerle tutte
da molto specifiche a generalistichees.: quando ricercatore esplora un nuovo settore
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 5 / 25
Raccomandazione di conferenze
Soluzione
Sistema di raccomandazione di conferenze ad articoli scientifici
corrispondenza tra argomenti
solo titolo, abstract e keyword
utilizzo nelle prime fasi di sviluppo dell’articolo
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 6 / 25
Raccomandazione di conferenze
Stato dell’arte (1)
Raccomandazione -definizione generale-
Selezione di N item d’interesse per un particolare utente
suggerimento di video simili su YouTube
inserimento di link sponsorizzati su Google, Bing, ecc. . .
. . .
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 7 / 25
Raccomandazione di conferenze
Stato dell’arte (2)
La raccomandazione di conferenze ha pochi rappresentanti in letteratura,tutti recenti (2012)
Distingue:
a) input: informazioni piu dettagliate (full text, autori, ecc. . . )
b) strumento applicabile avanti nello sviluppo dell’articolo
c) dataset
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 8 / 25
Raccomandazione di conferenze
Risultati
1) 3 varianti di raccomandazione automatica di conferenze
input: titolo, abstract e keyword dell’articoloelaborazione: strumenti matematici e statistici della linguisticacomputazionaleoutput: N raccomandazioni
2) Definizione delle baseline per le prestazioni
3) Valutazione delle prestazioni su dataset
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 9 / 25
Tecniche di raccomandazione
Indice
1 Raccomandazione di conferenze
2 Tecniche di raccomandazioneVariante Cavnar-TrenkleVariante Two-steps-LDAVariante LDA+clustering
3 Valutazione sperimentale
4 Conclusioni
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 10 / 25
Tecniche di raccomandazione
Machine Learning
3 varianti della raccomandazione
1. Cavnar-Trenkle2. Two-steps-LDA3. LDA+clustering
definite e sperimentate personalmente
ognuna in 2 fasi
learning, chiamata learning phasetesting, chiamata recommending phase
pre-processing sul dataset
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 11 / 25
Tecniche di raccomandazione
Il dataset
1) Pre-processing sul dataset
concatenazione di titolo, abstract e keywordaltre operazioni (stemming, rimozione stopword, ecc. . . )
2) Il risultato e un dataset di articoli
Articolo Conferenzaflow model joint action recognit ident mainten propos
framework perform action recognit ident mainten
multipl target simultan instead establish track use
appear model perform action [. . . ]
CVPR
stochast model load balanc schedul cloud comput
cluster cloud comput servic becom ubiquit start serv
primari sourc comput power enterpris person comput
applic consid stochast model cloud [. . . ]
INFOCOM
. . . . . .
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 12 / 25
Tecniche di raccomandazione
Il dataset
1) Pre-processing sul dataset
concatenazione di titolo, abstract e keywordaltre operazioni (stemming, rimozione stopword, ecc. . . )
2) Il risultato e un dataset di articoli
Articolo Conferenzaflow model joint action recognit ident mainten propos
framework perform action recognit ident mainten
multipl target simultan instead establish track use
appear model perform action [. . . ]
CVPR
stochast model load balanc schedul cloud comput
cluster cloud comput servic becom ubiquit start serv
primari sourc comput power enterpris person comput
applic consid stochast model cloud [. . . ]
INFOCOM
. . . . . .
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 12 / 25
Tecniche di raccomandazione Variante Cavnar-Trenkle
Cavnar-Trenkle
Learning phaseSi genera il profilo degli n-grammi per ogni conferenza:
profilo = lista ordinata dei 300 n-grammi piu frequentisulla base dei profili dei suoi articoli
Recommending phaseSi raccomandano N conferenze al nuovo articolo a:
i) calcolo del profilo di aii) selezione delle N conferenze alla minor distanza
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 13 / 25
Tecniche di raccomandazione Variante Two-steps-LDA
Two-steps-LDA - base matematica
Modello dei topic Latent Dirichlet Allocation (LDA)
Topic
Argomento o tema trattato in un testo, discorso, conversazione
LDA associa ad ogni articolo un vettore
rappresenta le proporzioni dei k topic nell’articolo
corrisponde ad un punto in uno spazio k-dimensionale
topic ≡ dimensione
Motivazione
Classificare articoli in base a dimensione principale (main topic e subtopic)
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 14 / 25
Tecniche di raccomandazione Variante Two-steps-LDA
Two-steps-LDA - implementazione
Learning phaseSi caratterizza ogni conferenza con un main topic e unsubtopic:
i) LDA sul dataset → main topicii) LDA sugli articoli con stesso main topic → subtopic
Recommending phaseSi raccomandano N conferenze al nuovo articolo a:
i) calcolo di main topic e subtopic di aii) sottoinsieme delle conferenze con stessi main topic e
subtopiciii) selezione delle N conferenze piu vicine
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 15 / 25
Tecniche di raccomandazione Variante LDA+clustering
LDA+clustering - base matematica
Clustering k-means
partiziona punti in kc
cluster
ogni punto e un articoloin coordinate LDA
0 0.2
0.2
0.4
0.4
0.6
0.6
0.8
0.8
1
1
Topic 1
Topic 2
Cluster 1
Cluster 2
Conferenza A
Conferenza B
Conferenza C
Motivazione
Conferenze rappresentate in piu cluster
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 16 / 25
Tecniche di raccomandazione Variante LDA+clustering
LDA+clustering - implementazione
Learning phaseSi caratterizza ogni conferenza con un punto “medio”:
i) LDA sul datasetii) si partizionano i punti in kc clusteriii) LDA in ogni cluster
Recommending phaseSi raccomandano N conferenze al nuovo articolo a:
i) LDA + clustering + LDAii) selezione delle N conferenze piu vicine
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 17 / 25
Valutazione sperimentale
Indice
1 Raccomandazione di conferenze
2 Tecniche di raccomandazioneVariante Cavnar-TrenkleVariante Two-steps-LDAVariante LDA+clustering
3 Valutazione sperimentale
4 Conclusioni
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 18 / 25
Valutazione sperimentale
Il dataset
Dataset prelevato da MicrosoftAcademic Search
solo domain ComputerScience
prelevate 60000pubblicazioni di 300conferenze
Ogni conferenza e associata amax 3 subdomain su 24
Subdomain1 Algorithms & Theory2 Security & Privacy3 Hardware & Architecture4 Software Engineering5 Artificial Intelligence6 Machine Learning & Pattern Recognition7 Data Mining8 Information Retrieval9 Natural Language & Speech
10 Graphics11 Computer Vision12 Human-Computer Interaction13 Multimedia14 Networks & Communications15 World Wide Web16 Distributed & Parallel Computing17 Operating Systems18 Databases19 Real-Time & Embedded Systems20 Simulation21 Bioinformatics & Computational Biology22 Scientific Computing23 Computer Education24 Programming Languages
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 19 / 25
Valutazione sperimentale
Il dataset
Dataset prelevato da MicrosoftAcademic Search
solo domain ComputerScience
prelevate 60000pubblicazioni di 300conferenze
Ogni conferenza e associata amax 3 subdomain su 24
Subdomain1 Algorithms & Theory2 Security & Privacy3 Hardware & Architecture4 Software Engineering5 Artificial Intelligence6 Machine Learning & Pattern Recognition7 Data Mining8 Information Retrieval9 Natural Language & Speech
10 Graphics11 Computer Vision12 Human-Computer Interaction13 Multimedia14 Networks & Communications15 World Wide Web16 Distributed & Parallel Computing17 Operating Systems18 Databases19 Real-Time & Embedded Systems20 Simulation21 Bioinformatics & Computational Biology22 Scientific Computing23 Computer Education24 Programming Languages
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 19 / 25
Valutazione sperimentale
Indice di prestazioni
Indice di prestazioni standard dei sistemi di raccomandazione:
accuracy@N =# raccomandazioni corrette
# raccomandazioni· 100%
2 varianti:
venue-accuracy@Nalmeno una delle N raccomandazioni corrisponde allaconferenza dell’articolo
subdomain-accuracy@Nalmeno una delle N raccomandazioni appartiene ad almenoun subdomain che coincide con un subdomain dellaconferenza dell’articolo
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 20 / 25
Valutazione sperimentale
Baseline
Stato dell’arte → baseline non confrontabili
Accuracy nel caso di raccomandazione casuale (N = 3):
a) venue-accuracy@N = 1%
b) subdomain-accuracy@N = 14.3%
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 21 / 25
Valutazione sperimentale
Valutazione e prestazioni delle tecniche
Metodologia di valutazione: 2-fold cross-validation.
Prestazioni (N = 3, 5, 10):
venue-acc.@N (%) subdomain-acc.@N (%)Metodo N =3 N =5 N =10 N =3 N =5 N =10
Cavnar-Trenkle 26.8 34.0 45.6 54.1 61.1 70.9Two-step-LDA 3.4 3.8 4.0 9.9 10.1 10.2LDA+clustering 16.1 21.7 33.2 47.3 56.5 68.9
Baseline 1.0 1.7 3.3 14.3 22.6 40.1
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 22 / 25
Conclusioni
Indice
1 Raccomandazione di conferenze
2 Tecniche di raccomandazioneVariante Cavnar-TrenkleVariante Two-steps-LDAVariante LDA+clustering
3 Valutazione sperimentale
4 Conclusioni
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 23 / 25
Conclusioni
Conclusioni
1) Sviluppate e valutate tre varianti di raccomandazione di conferenze adarticoli, partendo da titolo, asbstract e keyword
2) Composto un dataset di 60000 articoli da Microsoft Academic Search
3) Definita una baseline per le prestazioni
Sviluppi futuri:
Valutazione delle raccomandazioni su dataset differenti
Web-application
. . .
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 24 / 25
Grazie per l’attenzione
Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 25 / 25