Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici

Tecniche di raccomandazione automatica per lasottomissione di articoli scientificiCorso di Laurea Magistrale in Ingegneria Informatica

Laureando

Giulio Piccinin

Relatore Correlatori

prof. Alberto Bartoli prof. Eric Medvet

dott. Andrea De Lorenzo

Universita degli Studi di TriesteDipartimento di Ingegneria e Architettura

Anno Accademico 2012/2013

Raccomandazione di conferenze

Indice

1 Raccomandazione di conferenze

2 Tecniche di raccomandazioneVariante Cavnar-TrenkleVariante Two-steps-LDAVariante LDA+clustering

3 Valutazione sperimentale

4 Conclusioni

Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 2 / 25


Problema

Aspetto primario della ricerca scientifica: pubblicazione di articoli

Scelta della sede di pubblicazione

reputazione

settore d’interesse

conferenza/rivista/. . .

luogo e data



Problema affrontato

Scelta delle conferenze che trattano argomenti corrispondenti a quellidell’articolo

ricevere review di qualita

far conoscere e apprezzare il lavoro

ottenere citazioni



Motivazioni

La scelta delle conferenze puo essere molto difficile

1) Conferenze scientifiche estremamente numerose

es.: piu di 2000 conferenze solo di Computer Scienceda molto specifiche a generalistiche

2) Virtualmente impossibile per il ricercatore conoscerle tutte

da molto specifiche a generalistichees.: quando ricercatore esplora un nuovo settore



Soluzione

Sistema di raccomandazione di conferenze ad articoli scientifici

corrispondenza tra argomenti

solo titolo, abstract e keyword

utilizzo nelle prime fasi di sviluppo dell’articolo



Stato dell’arte (1)

Raccomandazione -definizione generale-

Selezione di N item d’interesse per un particolare utente

suggerimento di video simili su YouTube

inserimento di link sponsorizzati su Google, Bing, ecc. . .

. . .



Stato dell’arte (2)

La raccomandazione di conferenze ha pochi rappresentanti in letteratura,tutti recenti (2012)

Distingue:

a) input: informazioni piu dettagliate (full text, autori, ecc. . . )

b) strumento applicabile avanti nello sviluppo dell’articolo

c) dataset



Risultati

1) 3 varianti di raccomandazione automatica di conferenze

input: titolo, abstract e keyword dell’articoloelaborazione: strumenti matematici e statistici della linguisticacomputazionaleoutput: N raccomandazioni

2) Definizione delle baseline per le prestazioni

3) Valutazione delle prestazioni su dataset


Tecniche di raccomandazione

Indice




4 Conclusioni



Machine Learning

3 varianti della raccomandazione

1. Cavnar-Trenkle2. Two-steps-LDA3. LDA+clustering

definite e sperimentate personalmente

ognuna in 2 fasi

learning, chiamata learning phasetesting, chiamata recommending phase

pre-processing sul dataset



Il dataset

1) Pre-processing sul dataset

concatenazione di titolo, abstract e keywordaltre operazioni (stemming, rimozione stopword, ecc. . . )

2) Il risultato e un dataset di articoli

Articolo Conferenzaflow model joint action recognit ident mainten propos

framework perform action recognit ident mainten

multipl target simultan instead establish track use

appear model perform action [. . . ]

CVPR

stochast model load balanc schedul cloud comput

cluster cloud comput servic becom ubiquit start serv

primari sourc comput power enterpris person comput

applic consid stochast model cloud [. . . ]

INFOCOM

. . . . . .


Tecniche di raccomandazione Variante Cavnar-Trenkle

Cavnar-Trenkle

Learning phaseSi genera il profilo degli n-grammi per ogni conferenza:

profilo = lista ordinata dei 300 n-grammi piu frequentisulla base dei profili dei suoi articoli

Recommending phaseSi raccomandano N conferenze al nuovo articolo a:

i) calcolo del profilo di aii) selezione delle N conferenze alla minor distanza


Tecniche di raccomandazione Variante Two-steps-LDA

Two-steps-LDA - base matematica

Modello dei topic Latent Dirichlet Allocation (LDA)

Topic

Argomento o tema trattato in un testo, discorso, conversazione

LDA associa ad ogni articolo un vettore

rappresenta le proporzioni dei k topic nell’articolo

corrisponde ad un punto in uno spazio k-dimensionale

topic ≡ dimensione

Motivazione

Classificare articoli in base a dimensione principale (main topic e subtopic)


Tecniche di raccomandazione Variante Two-steps-LDA

Two-steps-LDA - implementazione

Learning phaseSi caratterizza ogni conferenza con un main topic e unsubtopic:

i) LDA sul dataset → main topicii) LDA sugli articoli con stesso main topic → subtopic


i) calcolo di main topic e subtopic di aii) sottoinsieme delle conferenze con stessi main topic e

subtopiciii) selezione delle N conferenze piu vicine


Tecniche di raccomandazione Variante LDA+clustering

LDA+clustering - base matematica

Clustering k-means

partiziona punti in kc

cluster

ogni punto e un articoloin coordinate LDA

0 0.2

0.2

0.4

0.4

0.6

0.6

0.8

0.8

1

1

Topic 1

Topic 2

Cluster 1

Cluster 2

Conferenza A

Conferenza B

Conferenza C

Motivazione

Conferenze rappresentate in piu cluster


Tecniche di raccomandazione Variante LDA+clustering

LDA+clustering - implementazione

Learning phaseSi caratterizza ogni conferenza con un punto “medio”:

i) LDA sul datasetii) si partizionano i punti in kc clusteriii) LDA in ogni cluster


i) LDA + clustering + LDAii) selezione delle N conferenze piu vicine


Valutazione sperimentale

Indice




4 Conclusioni



Il dataset

Dataset prelevato da MicrosoftAcademic Search

solo domain ComputerScience

prelevate 60000pubblicazioni di 300conferenze

Ogni conferenza e associata amax 3 subdomain su 24

Subdomain1 Algorithms & Theory2 Security & Privacy3 Hardware & Architecture4 Software Engineering5 Artificial Intelligence6 Machine Learning & Pattern Recognition7 Data Mining8 Information Retrieval9 Natural Language & Speech

10 Graphics11 Computer Vision12 Human-Computer Interaction13 Multimedia14 Networks & Communications15 World Wide Web16 Distributed & Parallel Computing17 Operating Systems18 Databases19 Real-Time & Embedded Systems20 Simulation21 Bioinformatics & Computational Biology22 Scientific Computing23 Computer Education24 Programming Languages



Indice di prestazioni

Indice di prestazioni standard dei sistemi di raccomandazione:

accuracy@N =# raccomandazioni corrette

# raccomandazioni· 100%

2 varianti:

venue-accuracy@Nalmeno una delle N raccomandazioni corrisponde allaconferenza dell’articolo

subdomain-accuracy@Nalmeno una delle N raccomandazioni appartiene ad almenoun subdomain che coincide con un subdomain dellaconferenza dell’articolo



Baseline

Stato dell’arte → baseline non confrontabili

Accuracy nel caso di raccomandazione casuale (N = 3):

a) venue-accuracy@N = 1%

b) subdomain-accuracy@N = 14.3%



Valutazione e prestazioni delle tecniche

Metodologia di valutazione: 2-fold cross-validation.

Prestazioni (N = 3, 5, 10):

venue-acc.@N (%) subdomain-acc.@N (%)Metodo N =3 N =5 N =10 N =3 N =5 N =10

Cavnar-Trenkle 26.8 34.0 45.6 54.1 61.1 70.9Two-step-LDA 3.4 3.8 4.0 9.9 10.1 10.2LDA+clustering 16.1 21.7 33.2 47.3 56.5 68.9

Baseline 1.0 1.7 3.3 14.3 22.6 40.1


Conclusioni

Indice




4 Conclusioni


Conclusioni

Conclusioni

1) Sviluppate e valutate tre varianti di raccomandazione di conferenze adarticoli, partendo da titolo, asbstract e keyword

2) Composto un dataset di 60000 articoli da Microsoft Academic Search

3) Definita una baseline per le prestazioni

Sviluppi futuri:

Valutazione delle raccomandazioni su dataset differenti

Web-application

. . .


Grazie per l’attenzione


Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici

Education

Transcript of Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici