Tecnologie semantiche per il giornalismo @ SISSA

77
Tecnologie semantiche per il giornalismo W eb semantico e complessità della conoscenza Matteo Brunati SpazioDati | @dagoneye Alessio Cimarelli dataninja.it | @jenkin27

Transcript of Tecnologie semantiche per il giornalismo @ SISSA

Tecnologie semanticheper il giornalismo

Web semantico e complessità della conoscenza

Matteo Brunati SpazioDati | @dagoneye

Alessio Cimarellidataninja.it | @jenkin27

Come affrontiamo il discorso

Contesto tra Contesto tra Web of Data e Web of Data e

Web as ContentWeb as Content

Strumenti per Strumenti per giocare con giocare con entrambientrambi

obiettivo: quale?

consapevolezza

scenari e il mondo del possibile

collegamenti tra mondi diversi

...uno spunto per partire...

WHAT and WHYWHAT and WHY

“la fonte, il dato” devono tornare ad

essere un tema centrale

#fact-checking

http://datadrivenjournalism.net/news_and_analysis/How_to_become_a_data_journalist_Day_3

http://www.corriere.it/economia/12_maggio_05/controriforma-statali-bagnoli_d251d310-9674-11e1-a8a2-11f8cf758d5e.shtmlhttp://www.corriere.it/economia/12_maggio_05/controriforma-statali-bagnoli_d251d310-9674-11e1-a8a2-11f8cf758d5e.shtml

http://www.corriere.it/economia/12_maggio_05/controriforma-statali-bagnoli_d251d310-9674-11e1-a8a2-11f8cf758d5e.shtmlhttp://www.corriere.it/economia/12_maggio_05/controriforma-statali-bagnoli_d251d310-9674-11e1-a8a2-11f8cf758d5e.shtml

quindi sembra facile oggi...

Ed invece no: siamo tutti nella stessa barca.Il Web crea innovazione distruttiva in tutti gli ambiti,e serve una nuova disciplina per capirne le dinamiche

Web ScienceWeb Science

http://en.wikipedia.org/wiki/Web_Science_Trust

modellimodellidi businessdi business

intermediazioneintermediazione

competenzecompetenze catena del catena del valore valore

anche il giornalismo è in costante cambiamento

ma qualche percorso esiste, e si staconsolidando...

:) no, ok, scherzavo...

http://datajournalismhandbook.org/1.0/en/

ecco il tema ecco il tema dei DATIdei DATI

approfondiamoquesti dati allora...

http://onlinejournalismblog.com/2011/07/07/the-inverted-pyramid-of-data-journalism/

fonti fonti “sporche”“sporche”

fonti fonti strutturatestrutturate

Web Web di documentidi documenti

Web Web di datidi dati

diamo uno sguardo a questi dati strutturati...

fonti fonti strutturatestrutturate

Web Web di datidi dati

Per capire il WEB dei dati, serve fare un ripassosu cosa sia il WEB

sappiamo cos’è il WEB ed abbiamocapito perchè è nato?

Il Web in un paper nel 1989, ed Il Web in un paper nel 1989, ed aveva già molto oltre semplici link aveva già molto oltre semplici link

ai documentiai documenti

Il web come spazio di Il web come spazio di condivisione delle condivisione delle

informazioni, che PERMANE, e informazioni, che PERMANE, e decentralizzato decentralizzato

a chi devo chiedere di a chi devo chiedere di inserire un link?inserire un link?

avevo l’email e gli avevo l’email e gli allegati: cosa mi offre in allegati: cosa mi offre in

più?più?

http://www.garrygolden.net/2010/01/30/davos-2010-ideas-lab-talks-from-mit-group-on-nature-of-social-and-connected-intelligence-5-videos/

principio del Least Power,principio del Least Power,ovvero umiltà del designovvero umiltà del design

con il riuso che è insito nella con il riuso che è insito nella trasparenza della struttura del Web...trasparenza della struttura del Web...

http://www.shirky.com/writings/view_source.html

risorserisorse

rappresentazionirappresentazioni

azioniazioni

URI +HTTP ACTIONS

1. GET2. POST3. PUT4. DELETE

URI = nomiHTTP ACTIONS = azioni

cos’è un cos’è un testo?testo?

contenutocontenuto

contenitorecontenitoreparagraf

titolipiè di pagina

immagini

[paragrafo] Paperino è a casa a Milano. [fne paragrafo]

questo testo è all’interno di un documento,nel mio disco fsso.

se lo pubblico online, avrà una formaed un indirizzo per essere trovato

URIURI

HTMLHTML

http://www.slideshare.net/busaco/semantic-web-in-the-browser-from-a-blind-web-to

Il problema è che la “macchina” capisce che ad un certo Il problema è che la “macchina” capisce che ad un certo indirizzo c'è un contenuto in HTML, ma non indirizzo c'è un contenuto in HTML, ma non

comprende di cosa parla quel contenuto, comprende di cosa parla quel contenuto, è cieca è cieca

Ed ecco perché si va verso il mondodei Linked Data

Linked Data è pubblicare i dati online,ma non solo sul Web,

ma anche NEL Web

legami tra dati e contesti che devono emergerelegami tra dati e contesti che devono emergere

LINKED OPEN DATA CLOUDhttp://www.linkeddata.org

Diversi livelli di Diversi livelli di avvicinamento in avvicinamento in questo percorsoquesto percorso

I dati Linked sono fatti I dati Linked sono fatti per essere letti dai per essere letti dai

programmiprogrammi

Linked Data è una delle sintesi migliori del Linked Data è una delle sintesi migliori del vecchio nome “Semantic Web”vecchio nome “Semantic Web”

Linked Data è già OGGI una delle fonti,ed è quella più complessa, perché

pensata per le macchine

http://www.guardian.co.uk/help/insideguardian/2010/jan/25/news-linked-data-summit

Ce ne sono molte ormaiin giro... e dovete sapere che ce ne saranno sempre di più...

http://data.nytimes.com/

http://dati.camera.it

http://it.dbpedia.org/

Così un po' abbiamo digeritol'idea del Semantic Web: rendere

la macchina capace di tracciare LINK

e RELAZIONI con il contenuto,andando oltre alla pagina come

elemento atomico del contenuto...

“A thing is defned by its relationships”

http://www.teodorapetkova.com/poiesis-of-relationships/semantic-web-relationships-and-a-piece-of-conceptual-art/

Queste relazioni non sono un fne,ma sono un percorso...

http://www.teodorapetkova.com/poiesis-of-relationships/semantic-web-relationships-and-a-piece-of-conceptual-art/

...percorsi che sono pensati per le macchine:ovviamente come non pensare

alla SEO? :)

SEO = Search Engine Optimization,

ovvero come farsi trovare dai motori di ricerca:

che sono di nuovo “macchine”:)

e questo Web di Dati oggi è già dentrole pagine tradizionali, in forme ibride...per farti trovare quel contenuto che...

Facebook Facebook OpenGraphOpenGraph

Google Rich Snippets Google Rich Snippets via Google Knowledge via Google Knowledge

GraphGraph

Open DataOpen Data( Community e ( Community e

gov )gov )

Google Cards Google Cards sulle SERPsulle SERP

Ci sono alcuni determinati formati nelle pagine,tutti col nome “dati strutturati”

http://webdatacommons.org/structureddata/index.html#results-2013-1

http://www.stateofdigital.com/semantic-web-business-models-marketing-perspective/

BestBuy con i dati strutturati nella pagina

è un tema molto è un tema molto attuale, quindi merita attuale, quindi merita

attenzioneattenzione

e non è più solo accademia, da tempo:

è Mercato. Anche con il supporto di progetti europei che stimolano la diffusione e la

commercializzazione dei frutti della ricerca...

http://www.stom-project.eu/

questa natura a livelli di questa natura a livelli di struttura del documento struttura del documento si può si può

vedere su sindice.comvedere su sindice.com

per provare a vedere per provare a vedere questi strati di questi strati di

informazione strutturatainformazione strutturata

inspector.sindice.cominspector.sindice.com

ma io “giornalista”, con questi Linked Data,perchè devo averci a che fare?

stimolare i programmatori stimolare i programmatori ed i tecnici a darmi una ed i tecnici a darmi una mano, consapevole che mano, consapevole che esistono quei dati e esistono quei dati e

quelle fontiquelle fonti

chiedere lumi a chi li ha chiedere lumi a chi li ha pubblicati, come con quelli pubblicati, come con quelli

Open DataOpen Data + semplici: stimolare + semplici: stimolare

feedback e miglioramento feedback e miglioramento continuocontinuo

http://onlinejournalismblog.com/2011/07/07/the-inverted-pyramid-of-data-journalism/

fonti fonti “sporche”“sporche”

fonti fonti strutturatestrutturate

Web Web di documentidi documenti

Web Web di datidi dati

fonti fonti “sporche”“sporche”

Web Web di documentidi documenti

contenuto non contenuto non strutturato come i testistrutturato come i testi

““messy” data,messy” data,ovvero semi-strutturatoovvero semi-strutturato

Big ContentBig ContentOpen Data, Open Data, ed annessied annessi

ne avremo sempre più di ne avremo sempre più di quello non strutturato, quello non strutturato, perché siamo PIGRI :)perché siamo PIGRI :)

e di più...e di più...

ed ancora, e ed ancora, e sono tanti a sono tanti a

dirlo...dirlo...

Anche se chi li Anche se chi li pubblica, sarà sempre pubblica, sarà sempre

più attentopiù attento

http://seoblog.giorgiotave.it/seo-semantica-18/5065

Contenuto non Contenuto non strutturatostrutturato

Text mining / data miningText mining / data mining+

=report ed oggettiche diano un senso econ cui “giocare”

“What I do is text analysis, which covers the aggregation of texts, machine learning, natural language processing, applied to text fles to understand the context. There is a specifc set of skills for data journalists to learn, as it is more and more becoming common place to fnd information in text fles, ranging from material published by governments to corporations. And if you can learn those skills you can start to

fnd meaningful patterns in these documents.”

http://blogs.dw.de/innovation/data-science-the-software-that-is-out-there-is-getting-easier-to-use/

ed ora proviamo a capire come funzionail text mining con uno strumento che ci dirà “qualcosa” su un testo...

https://dandelion.eu/products/datatxt/ API, ovvero oggetti API, ovvero oggetti

manipolabili dai manipolabili dai programmatori / macchineprogrammatori / macchine

Named entity extractionNamed entity extraction

Text similarityText similarity

https://dandelion.eu/products/datatxt/

Classifcation on custom Classifcation on custom categoriescategories

API, ovvero oggetti API, ovvero oggetti manipolabili dai manipolabili dai

programmatori / macchineprogrammatori / macchine

Messy data, dati Messy data, dati semi-strutturatisemi-strutturati

E che ci faccio?

Messy data, dati Messy data, dati semi-strutturatisemi-strutturati

CONTENT ENRICHMENTCONTENT ENRICHMENTscoprire informazioni scoprire informazioni

collegate in maniera veloce collegate in maniera veloce attorno ad un temaattorno ad un tema

DATA CLEANINGDATA CLEANINGpulire i dati con Open pulire i dati con Open

Refne, confrontandoli con Refne, confrontandoli con fonti pulite e condivisefonti pulite e condivise

DATA WORKFLOWDATA WORKFLOWpubblicare i dati puliti e pubblicare i dati puliti e

trattati nella propria trattati nella propria storia come Linked Datastoria come Linked Data

http://lod2.eu/BlogPost/1146-from-messy-data-to-linked-data-lod-enabled-google-refine.html

come migliorare una fonte semi-strutturata

http://lab.linkeddata.deri.ie/2010/grefine-rdf-extension/sparqlRecon

http://towcenter.org/wp-content/uploads/2014/05/Tow-Center-Data-Driven-Journalism.pdf

spunto per spunto per pensarepensare

Ed ora, mettiamo le mani in pasta...

Text analytics su GDrive usando le dandelion API Demo RASFF - http://bit.ly/RASFF_data

Web Web di datidi dati

ContenutoContenutonon strutturatonon strutturato

https://dandelion.eu/products/datatxt/nex/demo/

http://www.google.com/webmasters/tools/richsnippets

https://developers.facebook.com/tools/debug/og/object/

Ovvero confrontare le testate dei giornali nel modo in cui Ovvero confrontare le testate dei giornali nel modo in cui fanno parte del Web dei dati / non strutturatofanno parte del Web dei dati / non strutturato