Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici

27
Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici Corso di Laurea Magistrale in Ingegneria Informatica Laureando Giulio Piccinin Relatore Correlatori prof. Alberto Bartoli prof. Eric Medvet dott. Andrea De Lorenzo Universit` a degli Studi di Trieste Dipartimento di Ingegneria e Architettura Anno Accademico 2012/2013

description

Presentazione di Prelaurea. ITA: Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici ENG: Automatic recommendation techniques for submission of scientific papers

Transcript of Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici

Page 1: Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici

Tecniche di raccomandazione automatica per lasottomissione di articoli scientificiCorso di Laurea Magistrale in Ingegneria Informatica

Laureando

Giulio Piccinin

Relatore Correlatori

prof. Alberto Bartoli prof. Eric Medvet

dott. Andrea De Lorenzo

Universita degli Studi di TriesteDipartimento di Ingegneria e Architettura

Anno Accademico 2012/2013

Page 2: Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici

Raccomandazione di conferenze

Indice

1 Raccomandazione di conferenze

2 Tecniche di raccomandazioneVariante Cavnar-TrenkleVariante Two-steps-LDAVariante LDA+clustering

3 Valutazione sperimentale

4 Conclusioni

Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 2 / 25

Page 3: Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici

Raccomandazione di conferenze

Problema

Aspetto primario della ricerca scientifica: pubblicazione di articoli

Scelta della sede di pubblicazione

reputazione

settore d’interesse

conferenza/rivista/. . .

luogo e data

Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 3 / 25

Page 4: Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici

Raccomandazione di conferenze

Problema affrontato

Scelta delle conferenze che trattano argomenti corrispondenti a quellidell’articolo

ricevere review di qualita

far conoscere e apprezzare il lavoro

ottenere citazioni

Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 4 / 25

Page 5: Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici

Raccomandazione di conferenze

Motivazioni

La scelta delle conferenze puo essere molto difficile

1) Conferenze scientifiche estremamente numerose

es.: piu di 2000 conferenze solo di Computer Scienceda molto specifiche a generalistiche

2) Virtualmente impossibile per il ricercatore conoscerle tutte

da molto specifiche a generalistichees.: quando ricercatore esplora un nuovo settore

Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 5 / 25

Page 6: Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici

Raccomandazione di conferenze

Soluzione

Sistema di raccomandazione di conferenze ad articoli scientifici

corrispondenza tra argomenti

solo titolo, abstract e keyword

utilizzo nelle prime fasi di sviluppo dell’articolo

Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 6 / 25

Page 7: Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici

Raccomandazione di conferenze

Stato dell’arte (1)

Raccomandazione -definizione generale-

Selezione di N item d’interesse per un particolare utente

suggerimento di video simili su YouTube

inserimento di link sponsorizzati su Google, Bing, ecc. . .

. . .

Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 7 / 25

Page 8: Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici

Raccomandazione di conferenze

Stato dell’arte (2)

La raccomandazione di conferenze ha pochi rappresentanti in letteratura,tutti recenti (2012)

Distingue:

a) input: informazioni piu dettagliate (full text, autori, ecc. . . )

b) strumento applicabile avanti nello sviluppo dell’articolo

c) dataset

Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 8 / 25

Page 9: Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici

Raccomandazione di conferenze

Risultati

1) 3 varianti di raccomandazione automatica di conferenze

input: titolo, abstract e keyword dell’articoloelaborazione: strumenti matematici e statistici della linguisticacomputazionaleoutput: N raccomandazioni

2) Definizione delle baseline per le prestazioni

3) Valutazione delle prestazioni su dataset

Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 9 / 25

Page 10: Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici

Tecniche di raccomandazione

Indice

1 Raccomandazione di conferenze

2 Tecniche di raccomandazioneVariante Cavnar-TrenkleVariante Two-steps-LDAVariante LDA+clustering

3 Valutazione sperimentale

4 Conclusioni

Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 10 / 25

Page 11: Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici

Tecniche di raccomandazione

Machine Learning

3 varianti della raccomandazione

1. Cavnar-Trenkle2. Two-steps-LDA3. LDA+clustering

definite e sperimentate personalmente

ognuna in 2 fasi

learning, chiamata learning phasetesting, chiamata recommending phase

pre-processing sul dataset

Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 11 / 25

Page 12: Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici

Tecniche di raccomandazione

Il dataset

1) Pre-processing sul dataset

concatenazione di titolo, abstract e keywordaltre operazioni (stemming, rimozione stopword, ecc. . . )

2) Il risultato e un dataset di articoli

Articolo Conferenzaflow model joint action recognit ident mainten propos

framework perform action recognit ident mainten

multipl target simultan instead establish track use

appear model perform action [. . . ]

CVPR

stochast model load balanc schedul cloud comput

cluster cloud comput servic becom ubiquit start serv

primari sourc comput power enterpris person comput

applic consid stochast model cloud [. . . ]

INFOCOM

. . . . . .

Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 12 / 25

Page 13: Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici

Tecniche di raccomandazione

Il dataset

1) Pre-processing sul dataset

concatenazione di titolo, abstract e keywordaltre operazioni (stemming, rimozione stopword, ecc. . . )

2) Il risultato e un dataset di articoli

Articolo Conferenzaflow model joint action recognit ident mainten propos

framework perform action recognit ident mainten

multipl target simultan instead establish track use

appear model perform action [. . . ]

CVPR

stochast model load balanc schedul cloud comput

cluster cloud comput servic becom ubiquit start serv

primari sourc comput power enterpris person comput

applic consid stochast model cloud [. . . ]

INFOCOM

. . . . . .

Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 12 / 25

Page 14: Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici

Tecniche di raccomandazione Variante Cavnar-Trenkle

Cavnar-Trenkle

Learning phaseSi genera il profilo degli n-grammi per ogni conferenza:

profilo = lista ordinata dei 300 n-grammi piu frequentisulla base dei profili dei suoi articoli

Recommending phaseSi raccomandano N conferenze al nuovo articolo a:

i) calcolo del profilo di aii) selezione delle N conferenze alla minor distanza

Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 13 / 25

Page 15: Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici

Tecniche di raccomandazione Variante Two-steps-LDA

Two-steps-LDA - base matematica

Modello dei topic Latent Dirichlet Allocation (LDA)

Topic

Argomento o tema trattato in un testo, discorso, conversazione

LDA associa ad ogni articolo un vettore

rappresenta le proporzioni dei k topic nell’articolo

corrisponde ad un punto in uno spazio k-dimensionale

topic ≡ dimensione

Motivazione

Classificare articoli in base a dimensione principale (main topic e subtopic)

Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 14 / 25

Page 16: Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici

Tecniche di raccomandazione Variante Two-steps-LDA

Two-steps-LDA - implementazione

Learning phaseSi caratterizza ogni conferenza con un main topic e unsubtopic:

i) LDA sul dataset → main topicii) LDA sugli articoli con stesso main topic → subtopic

Recommending phaseSi raccomandano N conferenze al nuovo articolo a:

i) calcolo di main topic e subtopic di aii) sottoinsieme delle conferenze con stessi main topic e

subtopiciii) selezione delle N conferenze piu vicine

Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 15 / 25

Page 17: Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici

Tecniche di raccomandazione Variante LDA+clustering

LDA+clustering - base matematica

Clustering k-means

partiziona punti in kc

cluster

ogni punto e un articoloin coordinate LDA

0 0.2

0.2

0.4

0.4

0.6

0.6

0.8

0.8

1

1

Topic 1

Topic 2

Cluster 1

Cluster 2

Conferenza A

Conferenza B

Conferenza C

Motivazione

Conferenze rappresentate in piu cluster

Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 16 / 25

Page 18: Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici

Tecniche di raccomandazione Variante LDA+clustering

LDA+clustering - implementazione

Learning phaseSi caratterizza ogni conferenza con un punto “medio”:

i) LDA sul datasetii) si partizionano i punti in kc clusteriii) LDA in ogni cluster

Recommending phaseSi raccomandano N conferenze al nuovo articolo a:

i) LDA + clustering + LDAii) selezione delle N conferenze piu vicine

Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 17 / 25

Page 19: Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici

Valutazione sperimentale

Indice

1 Raccomandazione di conferenze

2 Tecniche di raccomandazioneVariante Cavnar-TrenkleVariante Two-steps-LDAVariante LDA+clustering

3 Valutazione sperimentale

4 Conclusioni

Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 18 / 25

Page 20: Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici

Valutazione sperimentale

Il dataset

Dataset prelevato da MicrosoftAcademic Search

solo domain ComputerScience

prelevate 60000pubblicazioni di 300conferenze

Ogni conferenza e associata amax 3 subdomain su 24

Subdomain1 Algorithms & Theory2 Security & Privacy3 Hardware & Architecture4 Software Engineering5 Artificial Intelligence6 Machine Learning & Pattern Recognition7 Data Mining8 Information Retrieval9 Natural Language & Speech

10 Graphics11 Computer Vision12 Human-Computer Interaction13 Multimedia14 Networks & Communications15 World Wide Web16 Distributed & Parallel Computing17 Operating Systems18 Databases19 Real-Time & Embedded Systems20 Simulation21 Bioinformatics & Computational Biology22 Scientific Computing23 Computer Education24 Programming Languages

Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 19 / 25

Page 21: Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici

Valutazione sperimentale

Il dataset

Dataset prelevato da MicrosoftAcademic Search

solo domain ComputerScience

prelevate 60000pubblicazioni di 300conferenze

Ogni conferenza e associata amax 3 subdomain su 24

Subdomain1 Algorithms & Theory2 Security & Privacy3 Hardware & Architecture4 Software Engineering5 Artificial Intelligence6 Machine Learning & Pattern Recognition7 Data Mining8 Information Retrieval9 Natural Language & Speech

10 Graphics11 Computer Vision12 Human-Computer Interaction13 Multimedia14 Networks & Communications15 World Wide Web16 Distributed & Parallel Computing17 Operating Systems18 Databases19 Real-Time & Embedded Systems20 Simulation21 Bioinformatics & Computational Biology22 Scientific Computing23 Computer Education24 Programming Languages

Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 19 / 25

Page 22: Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici

Valutazione sperimentale

Indice di prestazioni

Indice di prestazioni standard dei sistemi di raccomandazione:

accuracy@N =# raccomandazioni corrette

# raccomandazioni· 100%

2 varianti:

venue-accuracy@Nalmeno una delle N raccomandazioni corrisponde allaconferenza dell’articolo

subdomain-accuracy@Nalmeno una delle N raccomandazioni appartiene ad almenoun subdomain che coincide con un subdomain dellaconferenza dell’articolo

Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 20 / 25

Page 23: Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici

Valutazione sperimentale

Baseline

Stato dell’arte → baseline non confrontabili

Accuracy nel caso di raccomandazione casuale (N = 3):

a) venue-accuracy@N = 1%

b) subdomain-accuracy@N = 14.3%

Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 21 / 25

Page 24: Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici

Valutazione sperimentale

Valutazione e prestazioni delle tecniche

Metodologia di valutazione: 2-fold cross-validation.

Prestazioni (N = 3, 5, 10):

venue-acc.@N (%) subdomain-acc.@N (%)Metodo N =3 N =5 N =10 N =3 N =5 N =10

Cavnar-Trenkle 26.8 34.0 45.6 54.1 61.1 70.9Two-step-LDA 3.4 3.8 4.0 9.9 10.1 10.2LDA+clustering 16.1 21.7 33.2 47.3 56.5 68.9

Baseline 1.0 1.7 3.3 14.3 22.6 40.1

Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 22 / 25

Page 25: Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici

Conclusioni

Indice

1 Raccomandazione di conferenze

2 Tecniche di raccomandazioneVariante Cavnar-TrenkleVariante Two-steps-LDAVariante LDA+clustering

3 Valutazione sperimentale

4 Conclusioni

Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 23 / 25

Page 26: Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici

Conclusioni

Conclusioni

1) Sviluppate e valutate tre varianti di raccomandazione di conferenze adarticoli, partendo da titolo, asbstract e keyword

2) Composto un dataset di 60000 articoli da Microsoft Academic Search

3) Definita una baseline per le prestazioni

Sviluppi futuri:

Valutazione delle raccomandazioni su dataset differenti

Web-application

. . .

Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 24 / 25

Page 27: Tecniche di raccomandazione automatica per la sottomissione di articoli scientifici

Grazie per l’attenzione

Giulio Piccinin (DIA - UniTs) Presentazione di Prelaurea 15 ottobre 2013 25 / 25