Presentazione ufficiale splittata

Post on 11-Apr-2017

175 views 2 download

Transcript of Presentazione ufficiale splittata

&

Sviluppo sistema iTag

1

Studio del sistema

Implementazione similarità

Valutazione qualità

Per cominciare:

Cos’è un tag?

Cosa si intende per similarità?

Perchè la pulizia dei dati?

Presentazione del sistema iTag

Ricerca effettuata

Breve descrizione del dataset

Implementazione dell’algoritmo di qualità

Pulizia del dataset

Calcolo delle frequenze e del punto di stabilità

Implementazione della strategia ottima

Risultati sperimentali

Conclusioni

Sviluppi futuri

Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi:

2

Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi:

IMMAGINI

2

Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi:

IMMAGINI

VIDEO

2

Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi:

IMMAGINI

VIDEO

SITI WEB

2

Per cominciare:

Cos’è un tag?

Cosa si intende per similarità?

Perchè la pulizia dei dati?

Presentazione del sistema iTag

Ricerca effettuata

Breve descrizione del dataset

Implementazione dell’algoritmo di qualità

Pulizia del dataset

Calcolo delle frequenze e del punto di stabilità

Implementazione della strategia ottima

Risultati sperimentali

Conclusioni

Sviluppi futuri

“Affinità di natura, struttura o composizione.” (De Mauro “Il dizionario della lingua italiana”)

3

“Affinità di natura, struttura o composizione.” (De Mauro “Il dizionario della lingua italiana”)

In informatica, la similarità viene implementata

attraverso il concetto matematico di DISTANZA

3

“Affinità di natura, struttura o composizione.” (De Mauro “Il dizionario della lingua italiana”)

In informatica, la similarità viene implementata

attraverso il concetto matematico di DISTANZA

3

Per cominciare:

Cos’è un tag?

Cosa si intende per similarità?

Perchè la pulizia dei dati?

Presentazione del sistema iTag

Ricerca effettuata

Breve descrizione del dataset

Implementazione dell’algoritmo di qualità

Pulizia del dataset

Calcolo delle frequenze e del punto di stabilità

Implementazione della strategia ottima

Risultati sperimentali

Conclusioni

Sviluppi futuri

FONTI ETEROGENEE

4

FONTI ETEROGENEE

4

PERCHÈ si effettua la pulizia? Molto spesso i dati sono

4

PERCHÈ si effettua la pulizia? Molto spesso i dati sono

INCOMPLETI

4

PERCHÈ si effettua la pulizia? Molto spesso i dati sono

INCOMPLETI

RUMOROSI

4

PERCHÈ si effettua la pulizia? Molto spesso i dati sono

INCOMPLETI

INCONSISTENTI

RUMOROSI

4

PERCHÈ si effettua la pulizia? Molto spesso i dati sono

INCOMPLETI

INCONSISTENTI

RUMOROSI

Passi principali:

• Pulizia: levigare il rumore nei dati, risolvere le inconsistenze

• Integrazione: più fonti eterogenee vengono unite

• Riduzione: diminuire il volume del dataset

4

Per cominciare:

Cos’è un tag?

Cosa si intende per similarità?

Perchè la pulizia dei dati?

Presentazione del sistema iTag

Ricerca effettuata

Breve descrizione del dataset

Implementazione dell’algoritmo di qualità

Pulizia del dataset

Calcolo delle frequenze e del punto di stabilità

Implementazione della strategia ottima

Risultati sperimentali

Conclusioni

Sviluppi futuri

5

elemento taggato (foto, video, sito web)

piattaforma online che favorisce il contributo

degli utenti dietro incentivo economico

sistema di social bookmarking

RISORSA

DATASET

POST

DELICIOUS

CROWDSOURCING

insieme di tag dati di una risorsa

insieme di risorse, ognuna con i suoi post

5

Ogni risorsa alla quale è possibile applicare tag può risultare:

• Sovrataggata (per le più popolari)

• Sottotaggata

6

In questo modo quando un

utente effettua una ricerca

Non tutte le risorse vengono

mostrate ricerca inefficiente

6

• Sottotaggata

6

Aumentare la QUALITA’ del dataset

DATASET

CROWDSOURCING

i-Tag

MOTORE DI INCENTIVI7

DATASET

CROWDSOURCING

i-Tag

MOTORE DI INCENTIVI7

DATASET

iTAG CREA I LAVORI

CROWDSOURCING

i-Tag

MOTORE DI INCENTIVI7

DATASET

iTAG CREA I LAVORI

CROWDSOURCING

i-Tag

MOTORE DI INCENTIVI7

DATASET

iTAG CREA I LAVORI

CROWDSOURCING

i-Tag

MOTORE DI INCENTIVI7

DATASET

iTAG CREA I LAVORI

LAVORO COMPLETATO

CROWDSOURCING

i-Tag

MOTORE DI INCENTIVI7

DATASET

iTAG CREA I LAVORI

LAVORO COMPLETATO

CROWDSOURCING

i-Tag

MOTORE DI INCENTIVI7

DATASET

iTAG CREA I LAVORI

VIENE CONSEGNATO L’INCENTIVO

LAVORO COMPLETATO

CROWDSOURCING

i-Tag

MOTORE DI INCENTIVI7

DATASET

iTAG CREA I LAVORI

VIENE CONSEGNATO L’INCENTIVO

LAVORO COMPLETATO

CROWDSOURCING

i-Tag

MOTORE DI INCENTIVI7

Per cominciare:

Cos’è un tag?

Cosa si intende per similarità?

Perchè la pulizia dei dati?

Presentazione del sistema iTag

Ricerca effettuata

Breve descrizione del dataset

Implementazione dell’algoritmo di qualità

Pulizia del dataset

Calcolo delle frequenze e del punto di stabilità

Implementazione della strategia ottima

Risultati sperimentali

Conclusioni

Sviluppi futuri

I passi sono stati:

• Analizzare iTag

• Cercare aspetti da migliorare

• Ho fatto alcune proposte:

8

I passi sono stati:

• Analizzare iTag

• Cercare aspetti da migliorare

• Ho fatto alcune proposte:

Feedback

8

I passi sono stati:

• Analizzare iTag

• Cercare aspetti da migliorare

• Ho fatto alcune proposte:

Similarità

Feedback

8

I passi sono stati:

• Analizzare iTag

• Cercare aspetti da migliorare

• Ho fatto alcune proposte:

Similarità

Feedback

Differenziazione incentivi

8

Similarità

8

Argomento approvato:

Le tre misure di similarità che ho scelto sono state:

9

Le tre misure di similarità che ho scelto sono state:

Similarità del Coseno

9

Le tre misure di similarità che ho scelto sono state:

Similarità del Coseno

Coefficiente di Dice

9

Le tre misure di similarità che ho scelto sono state:

Similarità del Coseno

Coefficiente di Dice

Similarità di Jacquard

9

Per cominciare:

Cos’è un tag?

Cosa si intende per similarità?

Perchè la pulizia dei dati?

Presentazione del sistema iTag

Ricerca effettuata

Breve descrizione del dataset

Implementazione dell’algoritmo di qualità

Pulizia del dataset

Calcolo delle frequenze e del punto di stabilità

Implementazione della strategia ottima

Risultati sperimentali

Conclusioni

Sviluppi futuri

10

Fonte: Delicious

10

Fonte: Delicious

Inizialmente i files, relativi ad 1 mese di utilizzo,

erano 4 da circa 10 GB ciascuno (40GB totali)

10

Fonte: Delicious

Inizialmente i files, relativi ad 1 mese di utilizzo,

erano 4 da circa 10 GB ciascuno (40GB totali)

Dopo le operazioni di pulizia e filtraggio del dataset,

le dimensioni si sono ridotte a 100MB

10

11

Ogni linea è una risorsa

11

Per ogni risorsa, la prima cifra

rappresenta il numero di post Ogni linea è una risorsa

11

Per ogni risorsa, la prima cifra

rappresenta il numero di post Ogni linea è una risorsa

11

Per ogni risorsa, la prima cifra

rappresenta il numero di post Ogni linea è una risorsa

11

Per ogni risorsa, la prima cifra

rappresenta il numero di post

Per ogni post, la prima cifra rappresenta il

numero di tag dentro al post

Ogni linea è una risorsa

11

Per ogni risorsa, la prima cifra

rappresenta il numero di post

Per ogni post, la prima cifra rappresenta il

numero di tag dentro al post

Ogni linea è una risorsa

11

Per ogni risorsa, la prima cifra

rappresenta il numero di post

Per ogni post, la prima cifra rappresenta il

numero di tag dentro al post

Ogni linea è una risorsa

129

8

7

65

4

3

11

Per ogni risorsa, la prima cifra

rappresenta il numero di post

Le cifre dentro al post

rappresentano l’ID del tag

Per ogni post, la prima cifra rappresenta il

numero di tag dentro al post

Ogni linea è una risorsa

129

8

7

65

4

3

11

Per ogni risorsa, la prima cifra

rappresenta il numero di post

Le cifre dentro al post

rappresentano l’ID del tag

Per ogni post, la prima cifra rappresenta il

numero di tag dentro al post

Ogni linea è una risorsa

129

8

7

65

4

3

“viaggi”11

Per cominciare:

Cos’è un tag?

Cosa si intende per similarità?

Perchè la pulizia dei dati?

Presentazione del sistema iTag

Ricerca effettuata

Breve descrizione del dataset

Implementazione dell’algoritmo di qualità

Pulizia del dataset

Calcolo delle frequenze e del punto di stabilità

Implementazione della strategia ottima

Risultati sperimentali

Conclusioni

Sviluppi futuri

12

finestra (quantità di post) utilizzata per valutare la stabilità

vettore di frequenze relative di ogni tag

STABILITÀ

w

QUALITÀ

RFD

DP

B

si ha quando il livello di informazioni per la risorsa è sufficiente

si ha quando le informazioni della risorsa superano la soglia di stabilità

algoritmo ottimo per generare gli assegnamenti delle risorse

Budget stanziato dal provider per l’incremento della qualità

12

4 X 10GB

DATASET ORIGINALE

13

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

13

CARATTERISTICHE:

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

RUMORE: DATI SPORCHI

13

CARATTERISTICHE:

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

RUMORE: DATI SPORCHI

Guardiamo i seguenti tag:

13

CARATTERISTICHE:

spaghetti

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

RUMORE: DATI SPORCHI

Guardiamo i seguenti tag:

r4sa334

sidofhbdjnopf

3dfasgg5

pasta

cucina

ricetta

13

CARATTERISTICHE:

spaghetti

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

RUMORE: DATI SPORCHI

Guardiamo i seguenti tag:

QUESTO E’ IL RUMORE

r4sa334

sidofhbdjnopf

3dfasgg5

pasta

cucina

ricetta

13

CARATTERISTICHE:

spaghetti

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

RUMORE: DATI SPORCHI

Guardiamo i seguenti tag:

QUESTO E’ IL RUMORE

r4sa334

sidofhbdjnopf

3dfasgg5

pasta

cucina

ricettaRIDUZIONE RUMORE

13

CARATTERISTICHE:

spaghetti

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

RUMORE: DATI SPORCHI

Guardiamo i seguenti tag:

pasta

cucina

ricetta

13

CARATTERISTICHE:

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

13

CARATTERISTICHE:

Guardiamo i seguenti tag:

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

RIDONDANZA: DATI RIPETUTI

13

CARATTERISTICHE:

spaghetti

Guardiamo i seguenti tag:

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

RIDONDANZA: DATI RIPETUTI

cucina

cucina

pasta

pasta

spaghetti

13

CARATTERISTICHE:

spaghetti

Guardiamo i seguenti tag:

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

RIDONDANZA: DATI RIPETUTI

cucina

cucina

pasta

pasta

spaghetti

QUESTA E’ LA RIDONDANZA13

CARATTERISTICHE:

spaghetti

Guardiamo i seguenti tag:

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

RIDONDANZA: DATI RIPETUTI

cucina

cucina

pasta

pasta

spaghetti

QUESTA E’ LA RIDONDANZA

RIDUZIONE RIDONDANZA

13

CARATTERISTICHE:

spaghetti

Guardiamo i seguenti tag:

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

RIDONDANZA: DATI RIPETUTI

cucina

pasta

13

CARATTERISTICHE:

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

13

CARATTERISTICHE:

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

Circa 40GB 1 mese

13

CARATTERISTICHE:

Circa 1TB

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

Circa 40GB 1 mese

2 anni

13

CARATTERISTICHE:

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

13

CARATTERISTICHE:

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

13

CARATTERISTICHE:

4 X 10GB100 MB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

13

CARATTERISTICHE:

4 X 10GB100 MB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

PULITO

FORMATTATO

RIDOTTO

DATASET ORIGINALE

13

CARATTERISTICHE:

Per cominciare:

Cos’è un tag?

Cosa si intende per similarità?

Perchè la pulizia dei dati?

Presentazione del sistema iTag

Ricerca effettuata

Breve descrizione del dataset

Implementazione dell’algoritmo di qualità

Pulizia del dataset

Calcolo delle frequenze e del punto di stabilità

Implementazione della strategia ottima

Risultati sperimentali

Conclusioni

Sviluppi futuri

APPLICAZIONE

FORMULE

STATISTICHE

14

APPLICAZIONE

FORMULE

STATISTICHE

DATASET PULITO

INPUT

14

APPLICAZIONE

FORMULE

STATISTICHE

DATASET PULITO

INPUT

OUTPUT

14

APPLICAZIONE

FORMULE

STATISTICHE

DATASET PULITO

RFD

INPUT

OUTPUT

Punto di

stabilità

14

Per cominciare:

Cos’è un tag?

Cosa si intende per similarità?

Perchè la pulizia dei dati?

Presentazione del sistema iTag

Ricerca effettuata

Breve descrizione del dataset

Implementazione dell’algoritmo di qualità

Pulizia del dataset

Calcolo delle frequenze e del punto di stabilità

Implementazione della strategia ottima

Risultati sperimentali

Conclusioni

Sviluppi futuri

DP

15

DP

RFD

Punto di

stabilità

INPUT

BUDGET

15

DP

RFD

Punto di

stabilità

INPUT OUTPUT

BUDGET

15

DP

RFD

Punto di

stabilità

INPUT OUTPUT

Qualità del

dataset

ASSIGNMENTASSIGNMENT

ASSEGNAMENTO OTTIMO

BUDGET

15

DP ASSEGNAMENTO OTTIMO

STATO INIZIALE (RANDOM)

15

Per cominciare:

Cos’è un tag?

Cosa si intende per similarità?

Perchè la pulizia dei dati?

Presentazione del sistema iTag

Ricerca effettuata

Breve descrizione del dataset

Implementazione dell’algoritmo di qualità

Pulizia del dataset

Calcolo delle frequenze e del punto di stabilità

Implementazione della strategia ottima

Risultati sperimentali

Conclusioni

Sviluppi futuri

COSINE DICE JACQUARD

16

COSINE DICE JACQUARD

16

COSINE DICE JACQUARD

COME POSSIAMO VEDERE, GLI ASSEGNAMENTI SONO DIVERSI...

16

COSINE DICE JACQUARD

COME POSSIAMO VEDERE, GLI ASSEGNAMENTI SONO DIVERSI...

... COME VARIA QUINDI IL COMPORTAMENTO DEI GRAFICI?

16

17

18

19

20

21

22

23

24

Per cominciare:

Cos’è un tag?

Cosa si intende per similarità?

Perchè la pulizia dei dati?

Presentazione del sistema iTag

Ricerca effettuata

Breve descrizione del dataset

Implementazione dell’algoritmo di qualità

Pulizia del dataset

Calcolo delle frequenze e del punto di stabilità

Implementazione della strategia ottima

Risultati sperimentali

Conclusioni

Sviluppi futuri

Osservando i risultati sperimentali è possibile vedere come i risultati in valore

assoluto siano simili per quanto riguarda Coseno e Dice, mentre siano diversi

per la Jacquard.

Dopo aver analizzato i risultati sperimentali, è possibile affermare che per il

sistema analizzato non è presente una misura di similarità migliore delle

altre, ma sono tutte e tre equivalenti.

Infatti è interessante notare come, nonostante gli assegnamenti varino da misura a

misura, le curve abbiano esattamente lo stesso comportamento, ottenendo

alla fine gli stessi valori di qualità.

Il mio contributo è stato apprezzato, verrà introdotto in un’estensione del paper “On

incentive-based tagging” (ICDE 2013).

25

Per cominciare:

Cos’è un tag?

Cosa si intende per similarità?

Perchè la pulizia dei dati?

Presentazione del sistema iTag

Ricerca effettuata

Breve descrizione del dataset

Implementazione dell’algoritmo di qualità

Pulizia del dataset

Calcolo delle frequenze e del punto di stabilità

Implementazione della strategia ottima

Risultati sperimentali

Conclusioni

Sviluppi futuri

26

Effettuare i test anche con le altre strategie di assegnamentoScelta libera

Round Robin

Less Posts first

Most Unstable first

Ibrida

26

Effettuare i test anche con le altre strategie di assegnamentoScelta libera

Round Robin

Less Posts first

Most Unstable first

Ibrida

Indirizzare l’utente verso le risorse che più si addicono al suo profilo

26

Effettuare i test anche con le altre strategie di assegnamentoScelta libera

Round Robin

Less Posts first

Most Unstable first

Ibrida

Indirizzare l’utente verso le risorse che più si addicono al suo profilo

Implementare un sistema di feedback

26

Effettuare i test anche con le altre strategie di assegnamentoScelta libera

Round Robin

Less Posts first

Most Unstable first

Ibrida

Indirizzare l’utente verso le risorse che più si addicono al suo profilo

Implementare un sistema di feedback

Generare un sistema di riconoscimento semantico dei tag

26