Tecnologie semanticheper il giornalismo
Web semantico e complessità della conoscenza
Matteo Brunati SpazioDati | @dagoneye
Alessio Cimarellidataninja.it | @jenkin27
Come affrontiamo il discorso
Contesto tra Contesto tra Web of Data e Web of Data e
Web as ContentWeb as Content
Strumenti per Strumenti per giocare con giocare con entrambientrambi
WHAT and WHYWHAT and WHY
“la fonte, il dato” devono tornare ad
essere un tema centrale
#fact-checking
http://datadrivenjournalism.net/news_and_analysis/How_to_become_a_data_journalist_Day_3
http://www.corriere.it/economia/12_maggio_05/controriforma-statali-bagnoli_d251d310-9674-11e1-a8a2-11f8cf758d5e.shtmlhttp://www.corriere.it/economia/12_maggio_05/controriforma-statali-bagnoli_d251d310-9674-11e1-a8a2-11f8cf758d5e.shtml
http://www.corriere.it/economia/12_maggio_05/controriforma-statali-bagnoli_d251d310-9674-11e1-a8a2-11f8cf758d5e.shtmlhttp://www.corriere.it/economia/12_maggio_05/controriforma-statali-bagnoli_d251d310-9674-11e1-a8a2-11f8cf758d5e.shtml
Ed invece no: siamo tutti nella stessa barca.Il Web crea innovazione distruttiva in tutti gli ambiti,e serve una nuova disciplina per capirne le dinamiche
Web ScienceWeb Science
http://en.wikipedia.org/wiki/Web_Science_Trust
modellimodellidi businessdi business
intermediazioneintermediazione
competenzecompetenze catena del catena del valore valore
anche il giornalismo è in costante cambiamento
http://datajournalismhandbook.org/1.0/en/
ecco il tema ecco il tema dei DATIdei DATI
http://onlinejournalismblog.com/2011/07/07/the-inverted-pyramid-of-data-journalism/
fonti fonti “sporche”“sporche”
fonti fonti strutturatestrutturate
Web Web di documentidi documenti
Web Web di datidi dati
diamo uno sguardo a questi dati strutturati...
fonti fonti strutturatestrutturate
Web Web di datidi dati
Il Web in un paper nel 1989, ed Il Web in un paper nel 1989, ed aveva già molto oltre semplici link aveva già molto oltre semplici link
ai documentiai documenti
Il web come spazio di Il web come spazio di condivisione delle condivisione delle
informazioni, che PERMANE, e informazioni, che PERMANE, e decentralizzato decentralizzato
a chi devo chiedere di a chi devo chiedere di inserire un link?inserire un link?
avevo l’email e gli avevo l’email e gli allegati: cosa mi offre in allegati: cosa mi offre in
più?più?
http://www.garrygolden.net/2010/01/30/davos-2010-ideas-lab-talks-from-mit-group-on-nature-of-social-and-connected-intelligence-5-videos/
principio del Least Power,principio del Least Power,ovvero umiltà del designovvero umiltà del design
con il riuso che è insito nella con il riuso che è insito nella trasparenza della struttura del Web...trasparenza della struttura del Web...
http://www.shirky.com/writings/view_source.html
cos’è un cos’è un testo?testo?
contenutocontenuto
contenitorecontenitoreparagraf
titolipiè di pagina
immagini
[paragrafo] Paperino è a casa a Milano. [fne paragrafo]
questo testo è all’interno di un documento,nel mio disco fsso.
se lo pubblico online, avrà una formaed un indirizzo per essere trovato
URIURI
HTMLHTML
http://www.slideshare.net/busaco/semantic-web-in-the-browser-from-a-blind-web-to
Il problema è che la “macchina” capisce che ad un certo Il problema è che la “macchina” capisce che ad un certo indirizzo c'è un contenuto in HTML, ma non indirizzo c'è un contenuto in HTML, ma non
comprende di cosa parla quel contenuto, comprende di cosa parla quel contenuto, è cieca è cieca
Diversi livelli di Diversi livelli di avvicinamento in avvicinamento in questo percorsoquesto percorso
I dati Linked sono fatti I dati Linked sono fatti per essere letti dai per essere letti dai
programmiprogrammi
Linked Data è una delle sintesi migliori del Linked Data è una delle sintesi migliori del vecchio nome “Semantic Web”vecchio nome “Semantic Web”
Linked Data è già OGGI una delle fonti,ed è quella più complessa, perché
pensata per le macchine
http://www.guardian.co.uk/help/insideguardian/2010/jan/25/news-linked-data-summit
Così un po' abbiamo digeritol'idea del Semantic Web: rendere
la macchina capace di tracciare LINK
e RELAZIONI con il contenuto,andando oltre alla pagina come
elemento atomico del contenuto...
“A thing is defned by its relationships”
http://www.teodorapetkova.com/poiesis-of-relationships/semantic-web-relationships-and-a-piece-of-conceptual-art/
Queste relazioni non sono un fne,ma sono un percorso...
http://www.teodorapetkova.com/poiesis-of-relationships/semantic-web-relationships-and-a-piece-of-conceptual-art/
SEO = Search Engine Optimization,
ovvero come farsi trovare dai motori di ricerca:
che sono di nuovo “macchine”:)
e questo Web di Dati oggi è già dentrole pagine tradizionali, in forme ibride...per farti trovare quel contenuto che...
Facebook Facebook OpenGraphOpenGraph
Google Rich Snippets Google Rich Snippets via Google Knowledge via Google Knowledge
GraphGraph
Open DataOpen Data( Community e ( Community e
gov )gov )
Google Cards Google Cards sulle SERPsulle SERP
Ci sono alcuni determinati formati nelle pagine,tutti col nome “dati strutturati”
http://webdatacommons.org/structureddata/index.html#results-2013-1
http://www.stateofdigital.com/semantic-web-business-models-marketing-perspective/
BestBuy con i dati strutturati nella pagina
e non è più solo accademia, da tempo:
è Mercato. Anche con il supporto di progetti europei che stimolano la diffusione e la
commercializzazione dei frutti della ricerca...
http://www.stom-project.eu/
questa natura a livelli di questa natura a livelli di struttura del documento struttura del documento si può si può
vedere su sindice.comvedere su sindice.com
per provare a vedere per provare a vedere questi strati di questi strati di
informazione strutturatainformazione strutturata
inspector.sindice.cominspector.sindice.com
ma io “giornalista”, con questi Linked Data,perchè devo averci a che fare?
stimolare i programmatori stimolare i programmatori ed i tecnici a darmi una ed i tecnici a darmi una mano, consapevole che mano, consapevole che esistono quei dati e esistono quei dati e
quelle fontiquelle fonti
chiedere lumi a chi li ha chiedere lumi a chi li ha pubblicati, come con quelli pubblicati, come con quelli
Open DataOpen Data + semplici: stimolare + semplici: stimolare
feedback e miglioramento feedback e miglioramento continuocontinuo
http://onlinejournalismblog.com/2011/07/07/the-inverted-pyramid-of-data-journalism/
fonti fonti “sporche”“sporche”
fonti fonti strutturatestrutturate
Web Web di documentidi documenti
Web Web di datidi dati
fonti fonti “sporche”“sporche”
Web Web di documentidi documenti
contenuto non contenuto non strutturato come i testistrutturato come i testi
““messy” data,messy” data,ovvero semi-strutturatoovvero semi-strutturato
Big ContentBig ContentOpen Data, Open Data, ed annessied annessi
ne avremo sempre più di ne avremo sempre più di quello non strutturato, quello non strutturato, perché siamo PIGRI :)perché siamo PIGRI :)
Anche se chi li Anche se chi li pubblica, sarà sempre pubblica, sarà sempre
più attentopiù attento
http://seoblog.giorgiotave.it/seo-semantica-18/5065
Contenuto non Contenuto non strutturatostrutturato
Text mining / data miningText mining / data mining+
=report ed oggettiche diano un senso econ cui “giocare”
“What I do is text analysis, which covers the aggregation of texts, machine learning, natural language processing, applied to text fles to understand the context. There is a specifc set of skills for data journalists to learn, as it is more and more becoming common place to fnd information in text fles, ranging from material published by governments to corporations. And if you can learn those skills you can start to
fnd meaningful patterns in these documents.”
http://blogs.dw.de/innovation/data-science-the-software-that-is-out-there-is-getting-easier-to-use/
ed ora proviamo a capire come funzionail text mining con uno strumento che ci dirà “qualcosa” su un testo...
https://dandelion.eu/products/datatxt/ API, ovvero oggetti API, ovvero oggetti
manipolabili dai manipolabili dai programmatori / macchineprogrammatori / macchine
Named entity extractionNamed entity extraction
Text similarityText similarity
https://dandelion.eu/products/datatxt/
Classifcation on custom Classifcation on custom categoriescategories
API, ovvero oggetti API, ovvero oggetti manipolabili dai manipolabili dai
programmatori / macchineprogrammatori / macchine
Messy data, dati Messy data, dati semi-strutturatisemi-strutturati
CONTENT ENRICHMENTCONTENT ENRICHMENTscoprire informazioni scoprire informazioni
collegate in maniera veloce collegate in maniera veloce attorno ad un temaattorno ad un tema
DATA CLEANINGDATA CLEANINGpulire i dati con Open pulire i dati con Open
Refne, confrontandoli con Refne, confrontandoli con fonti pulite e condivisefonti pulite e condivise
DATA WORKFLOWDATA WORKFLOWpubblicare i dati puliti e pubblicare i dati puliti e
trattati nella propria trattati nella propria storia come Linked Datastoria come Linked Data
http://lod2.eu/BlogPost/1146-from-messy-data-to-linked-data-lod-enabled-google-refine.html
come migliorare una fonte semi-strutturata
http://lab.linkeddata.deri.ie/2010/grefine-rdf-extension/sparqlRecon
http://towcenter.org/wp-content/uploads/2014/05/Tow-Center-Data-Driven-Journalism.pdf
spunto per spunto per pensarepensare
Text analytics su GDrive usando le dandelion API Demo RASFF - http://bit.ly/RASFF_data
Web Web di datidi dati
ContenutoContenutonon strutturatonon strutturato
https://dandelion.eu/products/datatxt/nex/demo/
http://www.google.com/webmasters/tools/richsnippets
https://developers.facebook.com/tools/debug/og/object/
Ovvero confrontare le testate dei giornali nel modo in cui Ovvero confrontare le testate dei giornali nel modo in cui fanno parte del Web dei dati / non strutturatofanno parte del Web dei dati / non strutturato
Top Related