Presentazione ufficiale splittata

Sviluppo sistema iTag

Studio del sistema

Implementazione similarità

Valutazione qualità

Per cominciare:

Cos’è un tag?

Cosa si intende per similarità?

Perchè la pulizia dei dati?

Presentazione del sistema iTag

Ricerca effettuata

Breve descrizione del dataset

Implementazione dell’algoritmo di qualità

Pulizia del dataset

Calcolo delle frequenze e del punto di stabilità

Implementazione della strategia ottima

Risultati sperimentali

Conclusioni

Sviluppi futuri

Un tag è un’etichetta. Può essere assegnata a una risorsa qualsiasi:

IMMAGINI

SITI WEB

Per cominciare:

Cos’è un tag?

Ricerca effettuata

Pulizia del dataset

Conclusioni

Sviluppi futuri

“Affinità di natura, struttura o composizione.” (De Mauro “Il dizionario della lingua italiana”)

In informatica, la similarità viene implementata

attraverso il concetto matematico di DISTANZA

“Affinità di natura, struttura o composizione.” (De Mauro “Il dizionario della lingua italiana”)

In informatica, la similarità viene implementata

attraverso il concetto matematico di DISTANZA

Per cominciare:

Cos’è un tag?

Ricerca effettuata

Pulizia del dataset

Conclusioni

Sviluppi futuri

FONTI ETEROGENEE

PERCHÈ si effettua la pulizia? Molto spesso i dati sono

INCOMPLETI

RUMOROSI

INCOMPLETI

INCONSISTENTI

RUMOROSI

INCOMPLETI

INCONSISTENTI

RUMOROSI

Passi principali:

• Pulizia: levigare il rumore nei dati, risolvere le inconsistenze

• Integrazione: più fonti eterogenee vengono unite

• Riduzione: diminuire il volume del dataset

Per cominciare:

Cos’è un tag?

Ricerca effettuata

Pulizia del dataset

Conclusioni

Sviluppi futuri

elemento taggato (foto, video, sito web)

piattaforma online che favorisce il contributo

degli utenti dietro incentivo economico

sistema di social bookmarking

RISORSA

DATASET

DELICIOUS

CROWDSOURCING

insieme di tag dati di una risorsa

insieme di risorse, ognuna con i suoi post

Ogni risorsa alla quale è possibile applicare tag può risultare:

• Sovrataggata (per le più popolari)

• Sottotaggata

In questo modo quando un

utente effettua una ricerca

Non tutte le risorse vengono

mostrate ricerca inefficiente

• Sottotaggata

Aumentare la QUALITA’ del dataset

DATASET

CROWDSOURCING

MOTORE DI INCENTIVI7

DATASET

CROWDSOURCING

DATASET

iTAG CREA I LAVORI

CROWDSOURCING

DATASET

iTAG CREA I LAVORI

CROWDSOURCING

DATASET

iTAG CREA I LAVORI

CROWDSOURCING

DATASET

iTAG CREA I LAVORI

LAVORO COMPLETATO

CROWDSOURCING

DATASET

iTAG CREA I LAVORI

LAVORO COMPLETATO

CROWDSOURCING

DATASET

iTAG CREA I LAVORI

VIENE CONSEGNATO L’INCENTIVO

LAVORO COMPLETATO

CROWDSOURCING

DATASET

iTAG CREA I LAVORI

VIENE CONSEGNATO L’INCENTIVO

LAVORO COMPLETATO

CROWDSOURCING

Per cominciare:

Cos’è un tag?

Ricerca effettuata

Pulizia del dataset

Conclusioni

Sviluppi futuri

I passi sono stati:

• Analizzare iTag

• Cercare aspetti da migliorare

• Ho fatto alcune proposte:

I passi sono stati:

• Analizzare iTag

Feedback

I passi sono stati:

• Analizzare iTag

Similarità

Feedback

I passi sono stati:

• Analizzare iTag

Similarità

Feedback

Differenziazione incentivi

Similarità

Argomento approvato:

Le tre misure di similarità che ho scelto sono state:

Similarità del Coseno

Coefficiente di Dice

Similarità di Jacquard

Per cominciare:

Cos’è un tag?

Ricerca effettuata

Pulizia del dataset

Conclusioni

Sviluppi futuri

Fonte: Delicious

Inizialmente i files, relativi ad 1 mese di utilizzo,

erano 4 da circa 10 GB ciascuno (40GB totali)

Fonte: Delicious

Inizialmente i files, relativi ad 1 mese di utilizzo,

erano 4 da circa 10 GB ciascuno (40GB totali)

Dopo le operazioni di pulizia e filtraggio del dataset,

le dimensioni si sono ridotte a 100MB

Ogni linea è una risorsa

Per ogni risorsa, la prima cifra

rappresenta il numero di post Ogni linea è una risorsa

rappresenta il numero di post

Per ogni post, la prima cifra rappresenta il

numero di tag dentro al post

Le cifre dentro al post

rappresentano l’ID del tag

Le cifre dentro al post

rappresentano l’ID del tag

“viaggi”11

Per cominciare:

Cos’è un tag?

Ricerca effettuata

Pulizia del dataset

Conclusioni

Sviluppi futuri

finestra (quantità di post) utilizzata per valutare la stabilità

vettore di frequenze relative di ogni tag

STABILITÀ

QUALITÀ

si ha quando il livello di informazioni per la risorsa è sufficiente

si ha quando le informazioni della risorsa superano la soglia di stabilità

algoritmo ottimo per generare gli assegnamenti delle risorse

Budget stanziato dal provider per l’incremento della qualità

4 X 10GB

DATASET ORIGINALE

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

CARATTERISTICHE:

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

RUMORE: DATI SPORCHI

CARATTERISTICHE:

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

Guardiamo i seguenti tag:

CARATTERISTICHE:

spaghetti

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

r4sa334

sidofhbdjnopf

3dfasgg5

cucina

ricetta

CARATTERISTICHE:

spaghetti

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

QUESTO E’ IL RUMORE

r4sa334

sidofhbdjnopf

3dfasgg5

cucina

ricetta

CARATTERISTICHE:

spaghetti

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

QUESTO E’ IL RUMORE

r4sa334

sidofhbdjnopf

3dfasgg5

cucina

ricettaRIDUZIONE RUMORE

CARATTERISTICHE:

spaghetti

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

cucina

ricetta

CARATTERISTICHE:

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

CARATTERISTICHE:

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

RIDONDANZA: DATI RIPETUTI

CARATTERISTICHE:

spaghetti

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

cucina

spaghetti

CARATTERISTICHE:

spaghetti

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

cucina

spaghetti

QUESTA E’ LA RIDONDANZA13

CARATTERISTICHE:

spaghetti

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

cucina

spaghetti

QUESTA E’ LA RIDONDANZA

RIDUZIONE RIDONDANZA

CARATTERISTICHE:

spaghetti

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

cucina

CARATTERISTICHE:

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

CARATTERISTICHE:

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

Circa 40GB 1 mese

CARATTERISTICHE:

Circa 1TB

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

Circa 40GB 1 mese

2 anni

CARATTERISTICHE:

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

CARATTERISTICHE:

4 X 10GB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

CARATTERISTICHE:

4 X 10GB100 MB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

DATASET ORIGINALE

CARATTERISTICHE:

4 X 10GB100 MB

RUMOROSO

RIDONDANTE

TROPPO GRANDE

PULITO

FORMATTATO

RIDOTTO

DATASET ORIGINALE

CARATTERISTICHE:

Per cominciare:

Cos’è un tag?

Ricerca effettuata

Pulizia del dataset

Conclusioni

Sviluppi futuri

APPLICAZIONE

FORMULE

STATISTICHE

APPLICAZIONE

FORMULE

STATISTICHE

DATASET PULITO

APPLICAZIONE

FORMULE

STATISTICHE

DATASET PULITO

OUTPUT

APPLICAZIONE

FORMULE

STATISTICHE

DATASET PULITO

OUTPUT

Punto di

stabilità

Per cominciare:

Cos’è un tag?

Ricerca effettuata

Pulizia del dataset

Conclusioni

Sviluppi futuri

Punto di

stabilità

BUDGET

Punto di

stabilità

INPUT OUTPUT

BUDGET

Punto di

stabilità

INPUT OUTPUT

Qualità del

dataset

ASSIGNMENTASSIGNMENT

ASSEGNAMENTO OTTIMO

BUDGET

DP ASSEGNAMENTO OTTIMO

STATO INIZIALE (RANDOM)

Per cominciare:

Cos’è un tag?

Ricerca effettuata

Pulizia del dataset

Conclusioni

Sviluppi futuri

COSINE DICE JACQUARD

COME POSSIAMO VEDERE, GLI ASSEGNAMENTI SONO DIVERSI...

COSINE DICE JACQUARD

COME POSSIAMO VEDERE, GLI ASSEGNAMENTI SONO DIVERSI...

... COME VARIA QUINDI IL COMPORTAMENTO DEI GRAFICI?

Per cominciare:

Cos’è un tag?

Ricerca effettuata

Pulizia del dataset

Conclusioni

Sviluppi futuri

Osservando i risultati sperimentali è possibile vedere come i risultati in valore

assoluto siano simili per quanto riguarda Coseno e Dice, mentre siano diversi

per la Jacquard.

Dopo aver analizzato i risultati sperimentali, è possibile affermare che per il

sistema analizzato non è presente una misura di similarità migliore delle

altre, ma sono tutte e tre equivalenti.

Infatti è interessante notare come, nonostante gli assegnamenti varino da misura a

misura, le curve abbiano esattamente lo stesso comportamento, ottenendo

alla fine gli stessi valori di qualità.

Il mio contributo è stato apprezzato, verrà introdotto in un’estensione del paper “On

incentive-based tagging” (ICDE 2013).

Per cominciare:

Cos’è un tag?

Ricerca effettuata

Pulizia del dataset

Conclusioni

Sviluppi futuri

Effettuare i test anche con le altre strategie di assegnamentoScelta libera

Round Robin

Less Posts first

Most Unstable first

Ibrida

Round Robin

Less Posts first

Most Unstable first

Ibrida

Indirizzare l’utente verso le risorse che più si addicono al suo profilo

Round Robin

Less Posts first

Most Unstable first

Ibrida

Implementare un sistema di feedback

Round Robin

Less Posts first

Most Unstable first

Ibrida

Implementare un sistema di feedback

Generare un sistema di riconoscimento semantico dei tag

Presentazione ufficiale splittata

Documents

Transcript of Presentazione ufficiale splittata

Unità Splittata US R4 WALL NS / WALL - rdz.it · Il manuale delle unità US R4, raccoglie tutte le indicazioni relative all’utilizzo ottimale della macchina in condizioni di salvaguardia

Swissgolden Presentazione Ufficiale Team Italia - Il piu' grande Business sull'Oro!

Bollettino Ufficiale Regione Abruzzobura.regione.abruzzo.it/2015/Allegati/Ord_24_doc2_2.pdf · La presentazione delle istanze deve avvenire, secondo le seguenti modalità a) attraverso

NEW ECONOMY ITALIA - PRESENTAZIONE UFFICIALE

Corso di formazionesiba.unipv.it/Progetti/SCNV-2009/Corso_OPAC_2009.pdf · presentazione ufficiale. ... Collegio Nuovo ... Il catalogo OPAC raccoglie i dati bibliografici posseduti

Presentazione ufficiale

Servizio Gps - Presentazione ufficiale

pompe di calore aria-acqua per installazione splittata con ... · costante evoluzione delle tecnologie applicate a tutti i componenti ... quantità di energia termica completamente

pompe di calore aria-acqua per installazione splittata con ......Potenza assorbita kW 2,04 2,46 2,88 3,46 3,98 EER - COP - 4,18 4,07 4,20 4,10 3,94 Portata acqua lato utilizzatore

GAZZETTA UFFICIALE · Title: GAZZETTA UFFICIALE Subject: GAZZETTA UFFICIALE Keywords

Presentazione Ufficiale del Negozio Online di Oro Global InterGold

PRESENTAZIONE UFFICIALE stagione 2018/19sanbernardo.it/wp-content/uploads/2018/09/Cuneo_Granda...PRESENTAZIONE UFFICIALE stagione 2018/19 serie A1 ci siamo! PALLAVOLO IN ROSA, ORGOGLIO

Fireflies Italia, European Travel Network - Presentazione Ufficiale Team Professione Network

ristorazione mercato turismo dialogo territorio musica ... · 19.15 Presentazione ufficiale Squadra Volley CALZATURE • BORSE • CINTURE • PORTAFOGLI SABBIONETA (MN) - Via Europa,

5492 Presentazione Ppt Ufficiale

Ginestra fabbrica della conoscenza – presentazione ufficiale

Beata Primavera - Brochure ufficiale di presentazione

Reddito di Base Incondizionato - Presentazione Ufficiale

Goldbex Presentazione Ufficiale - Novità maggio 2016

Tintori Presentazione Ufficiale