Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 ·...

38
Sinergie t t l i t i hii tra tecnologia, storia e archivi: l'esperienza del progetto PRiSMHA i tt prima puntata A G Anna Goy (Dipartimento di Informatica, Università di Torino) aprile 2019 Anna Goy 1

Transcript of Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 ·...

Page 1: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

Sinergie t t l i t i hi i tra tecnologia, storia e archivi:

l'esperienza del progetto p p gPRiSMHA i t t prima puntata

A GAnna Goy(Dipartimento di Informatica, Università di Torino)

aprile 2019Anna Goy 1

Page 2: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

La ricerca scientificaQuando si fa ricerca scientifica (applicata) in informatica) il contributo scientifico si caratterizza per tre dimensioni principali:

Licence: CC0

• l'approccio (le tecniche, le tecnologie, le metodologie,...)il d i i i i i li t• il dominio in cui viene applicato

• l'obiettivo, il fine che si vuole raggiungereEs. InfoVis applicata a dati biomedici per evidenziare correlazioni interessanti, Machine Learning applicata a dati per il marketing per Learning applicata a dati per il marketing per aumentarne l'efficacia, ecc.

aprile 2019 2Anna Goy

Page 3: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

Il Cultural Heritage - I proviamo a focalizzarci su un dominio: il

Cultural Heritage e a immaginare quali Licence: CC0

tecniche, tecnologie, metodologie informatiche possono essere

tili a q ali scopiutili a quali scopi...Dice Wikipedia: Il patrimonio culturale [Cultural Heritage] è l'insieme di beni, che per particolare rilievo storico culturale ed estetico sono di interesse storico culturale ed estetico sono di interesse pubblico e costituiscono la ricchezza di un luogo e della relativa popolazioneluogo e della relativa popolazioneFanno parte del Patrimonio Culturale beni di natura molto eterogeneanatura molto eterogenea...

aprile 2019 3Anna Goy

Page 4: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

Il Cultural Heritage - IISempre Wikipedia diche che, secondo la legge Bottai (l.1089/1939), sono beni culturali: • monumenti (mobili e immobili) che hanno un

riconosciuto pregio artistico o rilevanza storicadifi i di i i t l ti ti t i• edifici di riconosciuto valore artistico o storico

• beni archeologicicentri storici (insiemi urbanistico ed edilizi che • centri storici (insiemi urbanistico ed edilizi che hanno conservato le proprie caratteristiche nel tempo)p )

• beni librari e biblioteche• beni archivistici (i documenti, ma anche le

istruzioni pubbliche destinate alla loro conservazione )musei e beni mobili in essi custoditi• musei e beni mobili in essi custoditi

aprile 2019 4Anna Goy

Page 5: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

Archivi Storici - IFocalizziamo l'attenzione sugli archivi storici...Dice sempre Wikipedia:

Un archivio diventa storico dopo

© FONDAZIONE ISTITUTO PIEMONTESE ANTONIO GRAMSCI ONLUS

pquarant'anni di deposito di documenti, durante i quali vanno gradualmente ad

ffi i i fi é i i iaffievolirsi fino a pressoché estinguersi gli interessi di natura pratica, contabile, amministrativa e giuridica degli atti in esso amministrativa e giuridica degli atti in esso contenuti; d'altro canto dopo trent'anni si considera ormai maturato un interesse di tipo pculturale e storico, per questo l'archivio viene messo a disposizione di terze persone mosse d fi i di t di da fini di studio.

aprile 2019 5Anna Goy

Page 6: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

Archivi Storici - IIGli archivi storici sono una miniera di informazioni, storie, personaggi, racconti di eventi, ... ma spesso sono quasi inaccessibili

aprile 2019 6Anna Goy

Page 7: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

Archivi Storici - IIIQuanti di voi hanno mai visitato un archivio storico??Sarebbe bello che gli archivi storici diventassero una storici diventassero una fonte accessibile, fruibilee utile:• accessibile non solo agli studiosi, ma al

pubblico• fruibile e comunicabile• viva e attrattiva (per es. per il turismo)• coinvolgente per le nuove generazioni

Per questo occorrePer questo occorre...

aprile 2019 7Anna Goy

Page 8: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

Archivi Storici e ICT - I

disponibilità di risorse digitalizzate disponibilità di metadati ricchi di informazioni disponibilità di metadati ricchi di informazioni integrazione tra metadati usati in diversi archivi integrazione con altre risorse (es. Linked Open

Data DBpedia, WikiData, ecc.) strumenti di accesso (interfacce utente)

efficaci e usabili (strumenti online, app mobile, I t t f Thi )Internet of Things, ecc.)

Quali tecnologie?Quali tecnologie?

aprile 2019 8Anna Goy

Page 9: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

Archivi Storici e ICT - II1. Open API e Web Services (es. REST)

integrazione di archivi eterogenei costruzione di strumenti di accesso costruzione di strumenti di accesso

2. Tecnologie semantiche (Semantic Web/AI) integrazione di archivi eterogeneig g arricchimento dei metadati integrazione con Linked Open Data

3 T l i di NLP/AI ( I f ti E t ti ) 3. Tecnologie di NLP/AI (es. Information Extraction) arricchimento dei metadati

4 Machine Learning/AI (es Image Recognition) 4. Machine Learning/AI (es. Image Recognition) arricchimento dei metadati

5 Crowdsourcing (user-generated content)5. Crowdsourcing (user-generated content) arricchimento dei metadati

6. Information Visualization e HCI6. Information Visualization e HCI costruzione di strumenti di accesso

aprile 2019 9Anna Goy

Page 10: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

La collaborazione Unito e Ist. Gramsci Progetto Harlock'900 (2016-2019)

Dip. di Informatica (Unito) + Ist. A. Gramsci (To)

obiettivo = testare l'uso di tecnologie ti h di HCI i l semantiche e di HCI su un piccolo

insieme di risorse© Toei Animation

Matsumoto, Takeshi, Yoichi, Yoshiaki

Progetto PRiSMHA (2017-2020)Dip. di Informatica e Dip. di Studi Storici (Unito)

+ Ist A Gramsci/Polo del '900 (To)+ Ist. A. Gramsci/Polo del '900 (To)

bi tti t t l' di d ll obiettivo = testare l'uso di un modello di crowdsourcing, di tecnologie semantiche e di HCI su un nuovo insieme di risorsedi HCI su un nuovo insieme di risorse

aprile 2019 10Anna Goy

Page 11: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

Il Polo del '900What: Cultural CenterWhere: 8.000 mq c/o Quartieri Militari

© Polo del '900

juvarriani in TorinoWho: 19 cultural institutions (members)R i Pi t C di T i C i di Regione Piemonte, Comune di Torino, Compagnia di S. Paolo (founders)Online: www polodel900 itOnline: www.polodel900.itLibrary: 300.000 volumesArchives: 900 archival fonds, 130.000 pictures, 21.000 pposters, 53.000 AV, ...Archives online (9centRo platform):

l d l900 it/9 twww.polodel900.it/9centro

Eventi, concorsi, mostre, ...

aprile 2019 11Anna Goy © Polo del '900

Page 12: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

L'Istituto piemontese A G iA. GramsciWhere: at Polo del '900Online: www.gramscitorino.itLibrary: 60.000 volumes

h t f j l d + a huge amount of journals and newspapersArchives: 220 fonds, 33.000 pictures, 4.000 posters, 1 000 AV flags banners e objects1.000 AV, flags, banners e objects(= 25% of the total of Polo del '900 archives)Pictures Archive online: www.gramscitorino.it/archiviofotografico.html

aprile 2019 12Anna Goy

© Polo del '900

Page 13: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

Harlock'900 - IStrumenti di accesso

offrire agli utenti la possibilità di i i d i d li navigare tra i documenti degli

archivi storici in modo + efficace rispetto ai classici cataloghirispetto ai classici cataloghi

possibilità di scoprire ed esplorare p p pconnessioni tra luoghi, eventi, persone, organizzazioni e le risorse che li " t "

© FONDAZIONE ISTITUTO PIEMONTESE ANTONIO GRAMSCI ONLUS

"raccontano"

applicazione web che permette di esplorare storie personali e fatti storici avvenuti in Piemonte tra il 1943 e il 1945 e di scoprire le risorse 1943 e il 1945 e di scoprire le risorse d'archivio che ne parlano

aprile 2019 13Anna Goy© FONDAZIONE ISTITUTO PIEMONTESE ANTONIO GRAMSCI ONLUS

Page 14: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

Harlock'900 - II

aprile 2019 14Anna Goy

Page 15: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

PRiSMHA - IPRiSMHA = Providing Rich Semantic Metadata for

Historical Archivesl i i hTecnologie semantiche

Semantic layer = metadati semantici che d i il t t d ll idescrivono il contenuto delle risorse

Strumenti:O t l i t i li

OWL◦ Ontologie computazionali:

conoscenza di dominio del sistema ◦ RDF triplestore: Abcdef

RDF

◦ RDF triplestore: base di conoscenza di (meta)dati che descrivono il contenuto delle risorse descrivono il contenuto delle risorse d'archivio nei termini definiti dall'ontologia

Vi ricordate il talk di Diego Magro g g(Gufi, scintille ed altre cose strane...)?

aprile 2019 15Anna Goy

Page 16: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

Gufi, scintille ed altre cose strane... - I

aprile 2019 16Anna Goy

Page 17: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

Gufi, scintille ed altre cose strane... - II

aprile 2019 17Anna Goy

Page 18: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

Gufi, scintille ed altre cose strane... – III

aprile 2019 18Anna Goy

Page 19: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

Gufi, scintille ed altre cose strane... - IV

aprile 2019 19Anna Goy

Page 20: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

Gufi, scintille ed altre cose strane... - V

aprile 2019 20Anna Goy

Page 21: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

PRiSMHA - IIL'ontologia: HERO (Historical Event Representation Ontology)rappresenta la conoscenza del sistema il rappresenta la conoscenza del sistema, il vocabolario concettuale per descrivere il contenuto dei descrivere il contenuto dei documenti d'archivio

aprile 2019 21Anna Goy

Page 22: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

PRiSMHA - IIIIl triplestore (RDF):

<https://w3id.org/prismha/resource/event/15,http://www w3 org/1999/02/22 rdf syntax ns#typehttp://www.w3.org/1999/02/22-rdf-syntax-ns#type, https://w3id.org/hero/HERO-EVENT#PoliceCharge><https://w3id.org/prismha/resource/event/15, http://www.w3.org/2000/01/rdf-schema#label, 'studenti aggrediti dai carabinieri'><https://w3id.org/prismha/resource/event/15, https://w3id.org/hero/HERO-EVENT#hasAgent, https://w3id.org/prismha/resource/object/24>p // g/p / / j /<https://w3id.org/prismha/resource/object/24, http://www.w3.org/1999/02/22-rdf-syntax-ns#type, https://w3id.org/hero/HERO-ROCS#Organization><https://w3id org/prismha/resource/event/15<https://w3id.org/prismha/resource/event/15, https://w3id.org/hero/HERO-EVENT#hasPatient, https://w3id.org/prismha/resource/object/07><https://w3id.org/prismha/resource/object/07,

// / / /http://www.w3.org/1999/02/22-rdf-syntax-ns#type, https://w3id.org/hero/HERO-ROCS#Set><https://w3id.org/prismha/resource/object/07, https://w3id.org/hero/HERO-ROCS#hasDescribingConcept,p // g/ / g p ,https://w3id.org/hero/HERO-ROLE-INDIVIDUALS-900#student>...

aprile 2019 22Anna Goy

Page 23: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

PRiSMHA - IIIIl 20 Novembre, ... gli studenti ... sono stati aggrediti dai carabinieri armati di catene

152301_18.9_Bonet.pdf

isAbout

ConfrontationalAction Organization

isAbout IsAIsA

Day PoliceCharge LawEnforce-mentAgency

studentih Ti h A t

instance-ofinstance-of

mentAgency

studenti aggrediti dai carabinieri

Carabinieri20.11.68hasTime hasAgent

PhysicalObjecthasPatient

instance-ofinstance-of

Set RolePhysicalObject

aprile 2019 23Anna Goy

hasDescribingConcept

studenti studentecatene

Page 24: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

PRiSMHA - IVCome si fa a costruire metadati semantici (rappresentazione RDF d l t t d ll i )? del contenuto delle risorse)? Chi "spiega" al sistema di cosa parlano i documenti?

Licence: CC0

documenti?

1. Information Extraction uso di strumenti di NLP per estrarre automaticamente informazioni dai testi ( quando i testi sono disponibili!)(... quando i testi sono disponibili!)

2. Crowdsourcing (user-generated content)piattaforma web per la costruzione collaborativa dei metadati semantici (risorse digitalizzate!)digitalizzate!)

aprile 2019 24Anna Goy

Page 25: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

PRiSMHA - VSinergia tra Information Extraction e Crowdsourcing

estraz. autom.

metadati che descrivonoil contenuto delle risorsed'archivio (RDF triplestore)

© FONDAZIONE ISTITUTO PIEMONTESE ANTONIO GRAMSCI ONLUS

Licence: CC0 ( p )Licence: CC0

ricercatoristudenti

appassionati

Licence: CC0

appassionati

piattaformacollaborativa

aprile 2019 25Anna Goy

Page 26: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

PRiSMHA: Information Extraction Named Entity Recognition: riconoscimento auto-

matico di rif. a persone, organizzazioni, luoghi, datel i i d ll'8 tt b '43 iIl pomeriggio dell'8 settembre '43 ero in tram,

diretta a San Mauro, dove c'erano Renata e altri amici. A un certo punto, in corso Casale, si vide

b t i b d i lt iun assembramento verso i bar da cui alta risuonava una voce dalla radio. Scesi e udii il proclama del maresciallo Badoglio che annunciava l'armistizio.

Event mining: riconoscimento automatico di espressioni che denotano eventi (e partecipanti)p ( p p )Gli effettivi del generale Schlemmer [...] Durante il cammino effettuano le ultime stragi: a Grugliasco massacrano 66 persone garibaldini eGrugliasco massacrano 66 persone, garibaldini e civili; a Nichelino uccidono 13 garibaldini della Brigata Pisacane. Tenteranno di proseguire verso il Vercellese; bloccati però anche lì dai partigiani,

aprile 2019 26Anna Goy

Vercellese; bloccati però anche lì dai partigiani, finiranno per arrendersi il 3 maggio nelle mani degli Alleati.

Page 27: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

PRiSMHA: Crowdsourcing - ISarra S. La nuova frontiera per la condivisione della conoscenza: uno studio sui sistemi di crowdsourcing per le risorse culturali. Tesi di laurea Magistrale, Università di Torino, aa 2016/2017

Modello di crowdsourcing in settori culturali: diverso da quello usato in settori commerciali1. com: benefici economici vs cult:

partecipazione volontaria 2 f ll i di ti t lt ità iù 2. com: folla indistinta vs cult: comunità più

ristretta, ("appassionati")Cl ifi d i d lli di d i Classificaz. dei modelli di crowdsourcing Dunn S. & Hedges M. Crowd-sourcing Scoping Study(crowds.cerch.kcl.ac.uk/wp-content/uploads/2012/12/Crowdsourcing-

t d iti df)connected-communities.pdf)Dunn S. & Hedges M. Commencted Communities(www.ahrc.ac.uk/documents/project-reports-and-reviews/connected-communities/crowd-sourcing-in-the-humanities/)/ g /)in base a diversi aspetti:

aprile 2019 27Anna Goy

Page 28: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

PRiSMHA: Crowdsourcing - II Asset type: tipo di risorsa/oggetto/dato Process type: tipo di processo (dipende – anche –Process type: tipo di processo (dipende anche

dal tipo di risorsa) [*] Task type: tipo di attività svolta dal partecipante Task type: tipo di attività svolta dal partecipante

sulle risorse (dipende – anche – dal tipo di risorsa)

Output type: tipo di risultato prodotto (può Output type: tipo di risultato prodotto (può essere tangibile o immateriale – es. consapevolezza e conoscenza)

[*] Tipi di processi (Dunn & Hedges): Tagging collaborativo (gereralm. testo libero) Tagging collaborativo (gereralm. testo libero)

corpus di risorse ricercabili attraverso parole chiave Trascrizione Correzione o modifica di un contenuto (es. OCR)

aprile 2019 28Anna Goy

Page 29: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

PRiSMHA: Crowdsourcing - III Collegamento (connessione tra risorse) Registrazione (patrimonio culturale immateriale

conservaz in forma tangibile; es raccolta dei ricordi conservaz. in forma tangibile; es. raccolta dei ricordi di una comunità, x es. parole in disuso)

Commento, critica e raccolta di preferenze Commento, critica e raccolta di preferenze Categorizzazione (classificazione = assegnazione di

risorse a categorie predefinite) Catalogazione (creazione di metadati strutturati e

descrittivi, secondo determinati standard) Contestualizzazione (arricchimento di una risorsa

associandole altri contenuti attinenti)Georeferenziazione (ubicazione di info geografiche) Georeferenziazione (ubicazione di info geografiche)

Mappatura (creazione di una rappresentazione spaziale, geografica o concettuale/mentale)spa a e, geog a ca o co ce ua e/ e a e)

Traduzione aprile 2019 29Anna Goy

Page 30: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

PRiSMHA: Crowdsourcing - IVZ iZooniverse (www.zooniverse.org) 1,6 milioni di iscritti e 72 progetti attivi

progetti di ogni tipo soprattutto scientifici ( progetti di ogni tipo, soprattutto scientifici (es. classificaz. documenti storici, immagini di galassie, animali)

per partecipare non è necessaria alcuna per partecipare non è necessaria alcuna specializzazione o competenza specifica conoscenza "popolare"

aprile 2019 30Anna Goy

Page 31: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

PRiSMHA: Crowdsourcing - VPyBossa (pybossa.com) framework per il crowdsourcing, basato sul

C d fti ( d f i )server Crowdcrafting (crowdcrafting.org) usato in più di duemila progetti, ha raccolto più

di due milioni di contributi (es: trascrizione di di due milioni di contributi (es: trascrizione di documenti scritti a mano; trascrizione di video e audio; analisi di immagini, video e suoni; geo-tagging; identificaz. di tti f i di oggetti, facce, suoni; arricchimento di dati)

il team di sviluppo sta il team di sviluppo sta testando l’integraz. di strumenti di AI per supportare il lavoro (es. identificaz. di immagini, riconoscim. immagini, riconoscim. facciale, traduzione)

aprile 2019 31Anna Goy

Page 32: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

PRiSMHA: Crowdsourcing - VIP ditPundit (thepund.it) applicazione web (Pundit Annotator client) +

Pundit Server) per l'annotazione di pagine html Pundit Server) per l annotazione di pagine html (gestita dall'azienda Net7)

permette di creare annotazioni "semantiche" p(triple RDF) relazioni tra elementi della risorsa (pagina html) e Linked Open Data

usa lo standard Web Annotation del W3C

aprile 2019 32Anna Goy

Page 33: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

PRiSMHA: Crowdsourcing - VIII PRiSMHA bbi tt t i l t t In PRiSMHA abbiamo progettato e implementato un prototipo (v1) di piattaforma di crowdsourcing:

la UI consente agli utenti di "annotare" documenti ◦ la UI consente agli utenti di annotare documenti d'archivio con rappresentazioni semantiche del loro contenuto

◦ il processo è "guidato" dall'ontologia HERO, che fornisce il vocabolario concettuale

Tecnologie:Spring, MySQL, Jackson Libraries Jackson Libraries, OWL Api, Konclude, Apache JENA, Log4J, Gradle, Bootstrap, JQuery, p, Q y,D3, PDFObject

aprile 2019 33Anna Goy

Page 34: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

PRiSMHA - VIA cosa serve tutto questo?!?

Supponiamo di dovrer fare una ricerca sul '68 e di d ti i i li h li di ti i cercare documenti originali che parlino di eventi in

cui polizia, carabinieri, ... hanno usato la violenza contro degli studentigCosa cerchereste con un motore di ricerca?

il motore troverebbe i ... il motore troverebbe i documenti che contengonoquelle parole chiaveq p

Molti documenti non verrebbero trovati!Per es. dove si parla di poliziotti e carabinieri che hanno p poccupato l'università con i carri armati, di un "nostro compagno" morto; di carabinieri che, armati di catene, hanno aggredito degli studenti; di "mantenimento dell'ordine hanno aggredito degli studenti; di mantenimento dell ordine pubblico a colpi ci catenelle" contro degli studenti, ...

aprile 2019 34Anna Goy

Page 35: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

PRiSMHA - VIIassociata ad ogni documento PRiSMHA ha una PRiSMHA ha una rappresentazione semantica dei semantica dei contenuti fatta in termini concettuali

© FONDAZIONE ISTITUTO PIEMONTESE ANTONIO GRAMSCI ONLUS

© FONDAZIONE ISTITUTO PIEMONTESE ANTONIO GRAMSCI ONLUS

se la ricerca vieneespressa in termini di

© FONDAZIONE ISTITUTO PIEMONTESE ANTONIO GRAMSCI ONLUS

espressa in termini di concetti (e non di keyword) questi y ) qdocumenti verranno trovati !!

aprile 2019 35Anna Goy UI by Linda Carretta

Page 36: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

PRiSMHA - VIIISupponiamo ora di essere un progettista/ programmatore e di voler realizzare un'app che proponga itinerari basati ai racconti contenuti proponga itinerari basati ai racconti contenuti nei documenti d'archivioDove potreste trovare i dati?ple rappresentazioni semantiche associate ai documenti sono basate sugli standard del Semantic Web (RDF, Linked Data) potete collegare la vostra app al triplestore RDF (attraverso uno SPARQL endpoint) e utilizzare direttamente quei dati!

Licence: CC0

aprile 2019 36Anna Goy

Page 37: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

Venerdì...

venerdì 12 aprile 201915:00-17:305 00 7 30Polo del '900via del Carmine 14, Torino

Sinergie tra tecnologia, storia e archivi: l'esperienza del progetto PRiSMHA seconda puntatain collaborazione con Fondaz. Ist. piemontese A. Gramsci/Polo del '900nell'ambito del festival Archivissimawww.archivissima.itLe fonti d'archivio come strumenti per la didatticawww archivissima it/dettaglio programma/1152www.archivissima.it/dettaglio-programma/1152

aprile 2019 37Anna Goy

Page 38: Sinergie l'espppgerienza del progetto PRiSMHAgoy/materiale/1819/Goy1819.pdf · 2019-04-09 · Sinergie t t l i t i ii htra tecnologia, storia e archivi: l'espppgerienza del progetto

The end (o no?)La strada è ancora lunga, ci sono un sacco di cose d fda fare... Stiamo preparando un test su alcuni aspetti

della UI "concettuale" (guidata dall'ontologia), che si svolgeranno probabilmente a maggio eprobabilmente a maggio ecerchiamo volontari!!

Su molti aspetti si possono costruire delle tesi interessanti...

Se siete interessati, contattatemi!!([email protected])

Rif. progetto PRiSMHA: di.unito.it/prismhaaprile 2019 38Anna Goy