DaCENA

23
Università degli studi di Milano-Bicocca Corso di Laurea in Teoria e Tecnologia della Comunicazione Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA Relatore Dott. Palmonari Correlatore Dott. Cremaschi Tesi di Valeria Gennari Matricola 758677 AA 2012/2013

description

Tesi di Laurea Magistrale in Teoria e Tecnologia della comunicazione, Unimib - Valeria Gennari. Presentazione progetto. DaCENA (Data Context Extraction for New Articles), strumento che fornisce agli utenti approfondimenti contestuali alle notizie giornalistiche, è un progetto che si situa nell'ambito del Data-driven journalism. DaCENA estrae da articoli giornalistici di testate online collegamenti semantici relativi al testo, tali percorsi estratti costituiscono un approfondimento contestuale di articoli giornalistici, sulla base dei dati della LOD cloud, ovvero l’insieme dei dataset pubblicati in formato Linked.

Transcript of DaCENA

Page 1: DaCENA

Università degli studi di Milano-Bicocca Corso di Laurea in Teoria e Tecnologia della Comunicazione

Approfondimento contestuale nel Data-Driven Journalism

e nel progetto DaCENA

Relatore Dott. Palmonari Correlatore Dott. Cremaschi

Tesi di Valeria Gennari Matricola 758677 AA 2012/2013

Page 2: DaCENA

TEMATICHE TRATTATE

Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 2

IL DATA-DRIVEN JOURNALISM IL PROGETTO DACENA L’APPROFONDIMENTO NEL DATA-DRIVEN JOURNALISM L’APPROFONDIMENTO CONTESTUALE DI DACENA 2.0 DACENA 2.0 CONCLUSIONI E SVILUPPI FUTURI

1

2

3

4

5

Page 3: DaCENA

IL DATA-DRIVEN JOURNALISM

Le caratteristiche proprie del Web 2.0 applicate alle nuove frontiere dell’informazione digitale veicolano una quantità di dati impressionante. Saperli trattare, comprendere, elaborare e comunicare sta diventando sempre più importante.

Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 3

Il Data-Driven Journalism •  Disciplina a cavallo tra ricerca e inchiesta

•  Utilizzo di fonti aperte e disponibili nel web

•  Uso intensivo di tecnologie a supporto dell’analisi/manipolazione/visualizzazione dati

•  Approccio collaborativo, processo trasparente,

fonti sono più autorevoli

Page 4: DaCENA

IL DATA-DRIVEN JOURNALISM

Le caratteristiche proprie del Web 2.0 applicate alle nuove frontiere dell’informazione digitale veicolano una quantità di dati impressionante. Saperli trattare, comprendere, elaborare e comunicare sta diventando sempre più importante.

Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 3

Impiego di tecnologie che sfruttano il modello reticolare di Internet User generated content Trionfo della dimensione social dei contenuti

Il Data-Driven Journalism •  Disciplina a cavallo tra ricerca e inchiesta

•  Utilizzo di fonti aperte e disponibili nel web

•  Uso intensivo di tecnologie a supporto dell’analisi/manipolazione/visualizzazione dati

•  Approccio collaborativo, processo trasparente,

fonti sono più autorevoli

Page 5: DaCENA

IL DATA-DRIVEN JOURNALISM

Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 4

DATI

FILTRAGGIO

PRESENTAZIONE

PUBBLICAZIONE

Page 6: DaCENA

IL DATA-DRIVEN JOURNALISM

Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 4

DATI

FILTRAGGIO

PRESENTAZIONE

PUBBLICAZIONE

La prima fase è quella della ricerca: reperimento dei dati e loro trasposizione in formati coerenti con i formati di utilizzo definiti

Page 7: DaCENA

IL DATA-DRIVEN JOURNALISM

Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 4

DATI

FILTRAGGIO

PRESENTAZIONE

PUBBLICAZIONE

La prima fase è quella della ricerca: reperimento dei dati e loro trasposizione in formati coerenti con i formati di utilizzo definiti

La seconda fase è quella del filtraggio: l’elaborazione dei dati raccolti, resi processabili attraverso diverse sottofasi di raffinamento, analisi e elaborazione

Page 8: DaCENA

IL DATA-DRIVEN JOURNALISM

Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 4

DATI

FILTRAGGIO

PRESENTAZIONE

PUBBLICAZIONE

La prima fase è quella della ricerca: reperimento dei dati e loro trasposizione in formati coerenti con i formati di utilizzo definiti

La seconda fase è quella del filtraggio: l’elaborazione dei dati raccolti, resi processabili attraverso diverse sottofasi di raffinamento, analisi e elaborazione

La terza fase è quella della presentazione: vengono rese visivamente le informazioni processate. L’output sono i dati analizzati, ripuliti, organizzati e manipolati

Page 9: DaCENA

IL DATA-DRIVEN JOURNALISM

Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 4

DATI

FILTRAGGIO

PRESENTAZIONE

PUBBLICAZIONE

La prima fase è quella della ricerca: reperimento dei dati e loro trasposizione in formati coerenti con i formati di utilizzo definiti

La seconda fase è quella del filtraggio: l’elaborazione dei dati raccolti, resi processabili attraverso diverse sottofasi di raffinamento, analisi e elaborazione

La terza fase è quella della presentazione: vengono rese visivamente le informazioni processate. L’output sono i dati analizzati, ripuliti, organizzati e manipolati

L’ultima fase consiste nella pubblicazione: la costruzione di una narrazione basata sui dati ricavati h a c o m e o b i e t t i vo i l r a g g i u n g i m e n t o d i un’informazione approfondita

Page 10: DaCENA

IL PROGETTO DACENA

Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 5

DaCENA - Data Context Extraction for News Articles è un software che associa a un articolo giornalistico il contesto fattuale estratto da sorgenti di conoscenza aperta disponibili nel web (Linked Open Data cloud). Le informazioni sul contesto sono dati strutturati che costituiscono fatti d’interesse riguardanti entità rilevanti nell'articolo. Questi fatti rappresentano relazioni tra le entità in oggetto dalla semantica ben definita. L’approccio* si basa su un processo caratterizzato da 3 passaggi:

Scraping e annotazione semantica della base documentale INPUT: testo dell’articolo OUTPUT: entità rilevanti estratte dall’articolo e identificate con URI

http://dbpedia.org/resource/Barack_Obama http://dbpedia.org/resource/Election

http://dbpedia.org/resource/John_Boehner

L’annotazione è realizzata con il sistema di Data Linking Dbpedia Spotlight, che annota le menzioni di entità di Dbpedia all’interno di testi, collegando dati non strutturati ai repository di Dbpedia.

Realizzato in Tecniche di annotazione di news mediante dati fattuali estratti dall’Open Data Cloud (A.Polidoro) Gli esempi utilizzati nella sperimentazione del software DaCENA sono tratti dal NYTimes, utilizzato come sorgente di riferimento. La sorgente Linked Open Data è invece Dbpedia (en).

1

*

Page 11: DaCENA

IL PROGETTO DACENA

Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 6

Estrazione del grafo RDF, che rappresenta l’insieme di tutte le associazioni semantiche relative all’articolo INPUT: URI delle entità estratte OUTPUT: percorsi tra entità estratte da Dbpedia

2

3 Valutazione dei percorsi estratti e selezione delle associazioni rilevanti tramite lo sviluppo di un ranking dei percorsi.

INPUT: totalità dei percorsi OUTPUT: percorsi semantici ridotti

 

ENTITÀ ESTRATTE

Page 12: DaCENA

IL PROGETTO DACENA

Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 6

Estrazione del grafo RDF, che rappresenta l’insieme di tutte le associazioni semantiche relative all’articolo INPUT: URI delle entità estratte OUTPUT: percorsi tra entità estratte da Dbpedia

2

3 Valutazione dei percorsi estratti e selezione delle associazioni rilevanti tramite lo sviluppo di un ranking dei percorsi.

INPUT: totalità dei percorsi OUTPUT: percorsi semantici ridotti

 

PERCORSI SEMANTICI

Page 13: DaCENA

IL PROGETTO DACENA

Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 6

Estrazione del grafo RDF, che rappresenta l’insieme di tutte le associazioni semantiche relative all’articolo INPUT: URI delle entità estratte OUTPUT: percorsi tra entità estratte da Dbpedia

2

3 Valutazione dei percorsi estratti e selezione delle associazioni rilevanti tramite lo sviluppo di un ranking dei percorsi.

INPUT: totalità dei percorsi OUTPUT: percorsi semantici ridotti

 

PERCORSI SEMANTICI RILEVANTI

Page 14: DaCENA

DACENA DACENA 2.0

Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 7

Valutazione dell’approccio sulla qualità dei percorsi semantici estratti (5 articoli del NYTimes) Non è stato considerato un modulo preposto alla visualizzazione dei percorsi semantici

DACENA 2.0

1

2

Nella prima fase sperimentale di DaCENA

La seconda fase nasce per approfondire il contesto dello strumento e le basi teoriche a cui fa riferimento: •  Consolidamento obiettivi •  Comparazione con lavori analoghi •  Definizione del target •  Interfaccia per rendere l’applicazione fruibile agli utenti finali •  Valutazione dell’efficacia del progetto nella sua totalità

Page 15: DaCENA

DACENA DACENA 2.0

Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 7

Valutazione dell’approccio sulla qualità dei percorsi semantici estratti (5 articoli del NYTimes) Non è stato considerato un modulo preposto alla visualizzazione dei percorsi semantici

DACENA 2.0

1

2

Nella prima fase sperimentale di DaCENA

La seconda fase nasce per approfondire il contesto dello strumento e le basi teoriche a cui fa riferimento: •  Consolidamento obiettivi •  Comparazione con lavori analoghi •  Definizione del target •  Interfaccia per rendere l’applicazione fruibile agli utenti finali •  Valutazione dell’efficacia del progetto nella sua totalità

Page 16: DaCENA

ANALISI COMPARATIVA – LAVORI DI DATA DRIVEN JOURNALISM

Il framework di analisi/comparazione di lavori di DDJ ha portato alla luce un quadro significativo di obiettivi, funzionalità, metodi e tecniche da cui è emerso che: •  I lavori in ambito DDJ si dividono

in inchieste giornalistiche, applicazioni web-based e data tool

•  I team sono variegati e composti

da giornalisti, esperti di dati e fonti, sviluppatori, grafici. La collaborazione tra diverse discipline è un tratto comune e fondamentale

Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 8

1 - Progetto 2 - Overview 7 - N. Fonti

The Pulse of Oakland

Progetto di Brittany Lynn Shell, Berekley Graduate School of Journalism - 2013. Sei storie, mappe

interattive, foto e un breve video per analizzare la correlazione tra disuguaglianze, reddito e salute in

Oakland.

2

10 Years of Murders and Shootings

Progetto di Casey Thomas e Daniel Denvir, AXIS PHILLY - 2013. Una mappa interattiva per esplorare dieci anni di omicidi a Philadelphia, tra le città più violente al mondo.

1

The Guardian interactive map

showing Gay right

Progetto del The Guardian US interactive team - 2012. Un’analisi radiale stato per stato della situazione attuale

dei diritti concessi agli omosessuali negli Stati Uniti. 3

I 20 anni dell'era

Berlusconi

Inchiesta di R. Mastrolonardo e G. Romeo, Data Wired - 2013. Sullo stampo del Datablog del Guardian, Wired racconta attraverso 15 grafici il ventennio italiano che

passerà alla storia come l'età berlusconiana. 5

La mappa degli obiettori di

coscienza in Italia

Inchiesta di J. Ottaviani, lfattoquotidiano.it - 2012. Grafici e mappe per valutare la situazione delle regioni

italiane in materia di interruzione volontaria di gravidanza.

1

Message Machine

Progetto di ProPublica – 2012 che raccoglie, analizza e mostra un’ampia raccolta di mail inviate a scopo

propagandistico durante la campagna elettorale delle ultime elezioni americane. Gli utenti hanno partecipato attivamente alla creazione dell'infografica inviando le

………………………………….

1

CONFERENZE/AWARDS/PAPER INTERNAZIONALI E ITALIANI

20 PROGETTI SELEZIONATI PER L’ANALISI COMPARATIVA

14 PARAMETRI DI CLASSIFICAZIONE

Page 17: DaCENA

L’APPROFONDIMENTO NEL DATA JOURNALISM E IN DACENA 2.0

Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 9

L’approfondimento è alla base di qualsiasi lavoro di DDJ e si declina in: •  Approfondimento quantitativo - dati

aggregati al fine di indagare in maniera analitica un fenomeno

•  Approfondimento relazionale – dati volti ad approfondire contestualmente i fenomeni

Nei lavori che abbracciano il principio dell’approfondimento contestuale i dati utilizzati ed elaborati permettono di accedere al contesto del fenomeno esaminato. DaCENA 2.0 appartiene alla classe di progetti che forniscono approfondimenti contestuali sulla base dell’analisi relazionale.

1 - Progetto 5 - Principio 6 - Tecniche

The Pulse of Oakland Analisi quantitativa

Integrazione di dati quantitativi, su base (unità di aggregazione principale del/i

fenomeno/i) spaziale

10 Years of Murders and Shootings

Analisi quantitativa Integrazione di dati

quantitativi, su base spaziale e temporale

The Guardian interactive map

showing Gay right

Analisi quantitativa Integrazione di dati quantitativi, su base spaziale

Argentina’s Senate Expenses,

2004-2013 Analisi quantitativa Presentazione tramite grafici e

testo

Connected China Analisi quantitativa e relazionale

Integrazione di dati quantitativi su base temporale e di entità

altre + network analysis

Le Pariteur Analisi quantitativa e relazionale

Integrazione quantitativa su base di entità altre +

esplorazione relazione del fenomeno

Muckety

………………..

Analisi relazionale

………………………..

Network analysis

…………………………………………

Page 18: DaCENA

L’APPROFONDIMENTO CONTESTUALE IN DACENA 2.0

Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 10

Problematiche

GIORNALISMO DIGITALE

Questioni sollevate dalle tecnologie emergenti in relazione all’informazione: qualità, attendibilità e accuratezza dell’informazione

•  Notizie fruite sempre più tramite i social network* •  Rapidità, casualità e scarsa attenzione nell’acquisizione delle informazioni* •  Infobesità*

•  Notizie parziali, decontestualizzate e non verificate

•  Quando al lettore mancano elementi per valutare l’origine e l’ampiezza di un fatto, il fatto viene elaborato in maniera più superficiale e quindi parziale*

Pew Research Center’s Journalism Project: The role of news on Facebook, common yet incidential Massachusetts Inst. of Technology: Infobesity: Exploring the cognitive and physical impacts of information Overconsumption

Watts, Shankaranarayanan, Even: Data quality assessment in context: A cognitive perspective *

Obiettivi

•  Presentare in modo efficace il contesto dell’articolo

•  Gli approfondimenti incrementano l’accuratezza della notizia, arricchiscono l’informazione, permettono di elaborare il contenuto della notizia in modo più dettagliato e approfondito.

Page 19: DaCENA

DACENA 2.0

Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 11

La creazione del prototipo DaCENA 2.0* (in via di sviluppo) è volta a fornire allo strumento un’interfaccia che •  Realizzi gli obiettivi analizzati e definiti nella loro totalità •  Renda evidenti e fruibili le potenzialità delle informazioni fornite dall’applicazione

*In collaborazione con Density Design – Dipartimento di Design, Politecnico di Milano

L’interfaccia prevede due modalità di visualizzazione, a partire dalla homepage:

 

Page 20: DaCENA

DACENA 2.0

Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 12

A GRAFO

 

1

Entità principale estratta Selezione da parte dell’utente dell’entità target e personalizzazione Percorsi semantici nel grafo: Entity name Link Type Giallo entità nell’articolo Grigio entità esterne

Page 21: DaCENA

DACENA 2.0

Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 13

 

 

VISUALIZZAZIONE GLOBALE 2

Esplorazione di tutta la rete dei percorsi disponibili Funzionalità come nella prima tipologia Zoom e interazione diretta

Page 22: DaCENA

CONCLUSIONI E SVILUPPI FUTURI

Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 14

•  DaCENA Da proof of concept con funzionalità di base, a prototipo (in sviluppo) •  La valutazione dei percorsi estratti: i miglioramenti dovranno riguardare le tecniche di

individuazione di percorsi semantici più rilevanti •  Lo studio della letteratura e la realizzazione del framework di analisi ha permesso la

riqualificazione dell’applicazione: l’inserimento nello scenario del Data Driven Journalism, lo sviluppo del quadro di riferimento, la valutazione dei competitors, la definizione di obiettivi e target.

•  Il prototipo non è concluso: non fruibile su un numero di articoli minimo per garantire

un’interazione completa

Conclusioni

Sviluppi Futuri •  Realizzare una fase di test con utenti allo scopo di valutare meglio il grado di efficacia (aspetti

cognitivi e di usabilità) dell’applicazione •  Dbpedia (en) Dbpedia (it) •  Applicazione a domini diversi dal giornalismo

Page 23: DaCENA

Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 15

GRAZIE