A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2C | Prof. Fabio Vitali ...

24
Il Mulino A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2C IA Summit - Dall’ascolto alla progettazione - 24 ottobre 2015

Transcript of A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2C | Prof. Fabio Vitali ...

Page 1: A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2C | Prof. Fabio Vitali  #IIAS15

Il MulinoA ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2C

IA Summit - Dall’ascolto alla progettazione - 24 ottobre 2015

Page 2: A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2C | Prof. Fabio Vitali  #IIAS15

Trattare i testi: strutture, dati, metadati

Fabio VitaliUniversità di Bologna

Page 3: A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2C | Prof. Fabio Vitali  #IIAS15

• Dati– Una quantificazione dell'informazione perchè

possa essere manipolata dai computer• Strutture dati

– L'organizzazione del dato in modo da rendere il dato comprensibile e manipolabile

• Collezioni di dati– Grandi quantità di dati connessi e più o meno

omogenei, la cui manipolazione rappresenta in realtà l'obiettivo reale delle applicazioni

Page 4: A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2C | Prof. Fabio Vitali  #IIAS15

Dati

• Record– Strutture che descrivono entità elencandone le

proprietà• Tabelle

– Collezioni di dati descritte come elenchi di record omogenei tra loro

• Alberi– Gerarchie di dati o di collezioni

• Grafi– Reti di strutture informative più o meno

strettamente interconnesse

Page 5: A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2C | Prof. Fabio Vitali  #IIAS15

E i testi?

• I testi sono difficili.

• I testi preesistono ai dati che contengono, ma contengono dati potenzialmente interessanti.

• Non sono dati strutturati. Non sono collezioni.

• Non sono neanche organizzati in record, tabelle, alberi, grafi.

Page 6: A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2C | Prof. Fabio Vitali  #IIAS15

I testi

• I testi hanno ordine– Ne "Nel mezzo del cammin di nostra vita", è

importante che "Nel" venga prima di "mezzo"• I testi hanno struttura

– Cantiche, canti, terzine, versi– Scene e transizioni– Periodi, proposizioni, soggetti, predicati, complementi

• I testi hanno parti di rilevanza diversa– A seconda dell'uso che se ne vuole fare e

dell'applicazione che li prende in considerazione

Page 7: A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2C | Prof. Fabio Vitali  #IIAS15

I testi

• Per la teoria del markup i testi sono alberi ordinati ed etichettati. – Una cosa molto più complessa da gestire di un

albero. Ad esempio JSON non ce la fa. • Una cosa tipica e peculiare dei testi è la

coesistenza di strutture che contengono sia frammenti di testo sia altre sottostrutture. – Questo viene chiamato Contenuto Misto, ed è

difficile da gestire con strutture dati semplici.

Page 8: A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2C | Prof. Fabio Vitali  #IIAS15

Tecnologie per le strutture dati

• Tabelle relazionali• JSON• XML• HTML5• RDF

Page 9: A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2C | Prof. Fabio Vitali  #IIAS15

La co

nver

sione

è d

ifficil

e

La conversione è molto facile

Energia / Informazione

Perchè è interessante XML?

Page 10: A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2C | Prof. Fabio Vitali  #IIAS15

RDF per i testi

• In principio si può esprimere qualunque cosa con RDF, incluso i testi e le relazioni tra frammenti di un testo.

• Ma RDF richiede che uno esprima tutte le relazioni esistenti tra testi in maniera esplicita: – Le sequenze di caratteri– Il meccanismo di contenimento– L'identificazione di caratterizzazioni semantiche particolari.

• Esistono ontologie per esprimere queste relazioni. Ad esempio Earmark (2008).

• Sono complete e funzionano benissimo. Ma belle non sono. http://www.essepuntato.it/2008/12/earmark

Page 11: A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2C | Prof. Fabio Vitali  #IIAS15

Va bene XML, ma quale?

La situazione nel 2006 è complessa:• XHTML per il web• DocBook per l'editoria• Text Encoding Initiative per i testi letterari• I formati interni di OpenOffice e MS WordServono tutti, e sono tutti diversi. Eppure i testi sono gli stessi. E' possibile identificare delle regolarità sfruttabili?

Page 12: A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2C | Prof. Fabio Vitali  #IIAS15

I design pattern

• Una delle più importanti innovazioni multi-culturali degli ultimi vent'anni.

• Scoperti (inventati?) da un architetto, Cristopher Alexander, alla fine degli anni 70, ed utilizzati in architettura, urbanistica e informatica.

• "Forme riutilizzabili di soluzioni a problemi di design"– Modelli di soluzione applicabili a problemi

apparentemente diversissimi ma sotto-sotto simili

Page 13: A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2C | Prof. Fabio Vitali  #IIAS15

Regolaritànel design dei documenti

• Esistono delle regolarità in come sono stati progettati questi modelli di documenti?

• E' possibile ricondurre tutte queste diversità in un modello comune e comprensibile che faciliti la conversione e la riespressione di documenti da un formato all'altro?

• Esistono dei pattern strutturali condivisi da tutti questi formati che noi possiamo scovare e istituzionalizzare in un linguaggio comune?

Page 14: A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2C | Prof. Fabio Vitali  #IIAS15

Verso una teoria dei pattern

Ci sono due fenomeni da valutare:– Cosa può contenere un elemento (il content model)– Dove può essere posto un elemento (il context)

Il content model determina– Se un elemento può contenere testo o no– Se un elemento può contenere altri elementi o no

Page 15: A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2C | Prof. Fabio Vitali  #IIAS15

Pattern di content model

Non può contenere testo

Può contenere testo

Non può contenere elementi

Elemento vuotoMarker

Contiene solo testoFlat

Può contenere elementi

Contiene solo elementiBucket

Contiene sia elementi sia testo

Mixed

Page 16: A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2C | Prof. Fabio Vitali  #IIAS15

Pattern di contesto

Marker Flat Bucket Mixed

Marker - - - -

Flat - - - -

Bucket Meta Field Container Block

Mixed Milestone Atom Popup Inline

Page 17: A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2C | Prof. Fabio Vitali  #IIAS15

Verso una teoria dei pattern

• Con un semplice calcolo combinatorio, abbiamo scoperto che "servono" solo otto tipi di elementi, e che con questi otto riusciamo a gestire tutte le situazioni che si presentano nella progettazione dei documenti.

• Ma quante grammatiche XML sono compatibili con la teoria dei pattern?

Zero

Page 18: A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2C | Prof. Fabio Vitali  #IIAS15

Una scoperta interessante

• Le grammatiche dei linguaggi sono molto più aperte e flessibili dei documenti che vi si basano concretamente.

• Le regolarità, se esistono, esistono nei documenti, e non nelle loro grammatiche

• I pattern non esistono a livello di grammatica (di DTD, o di XML Schema, o di Relax NG), ma a livello di istanza (i documenti XML veri e propri).

• Più del 90% per cento dei documenti che abbiamo considerato era concretamente aderente ai pattern, anche se la grammatica non lo è.

Page 19: A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2C | Prof. Fabio Vitali  #IIAS15

Ad esempio

Questi sono frammenti HTML corretti secondo la grammatica del linguaggio:

<body> Un po' di testo. <p>Un paragrafo</p></body>

oppure:<p>testo e a seguire <table> <tr> <td>una tabella</td> </tr> </table> </p>

Ma in realtà sono rarissimi nei documenti veri. Gli autori si accorgono dell'incongruenza e li evitano (per lo più).

Page 20: A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2C | Prof. Fabio Vitali  #IIAS15

Intermediate Markup Language

• Un primo esperimento di linguaggi basati su pattern (2006)

• Una semplificazione radicale di HTML• Creiamo una sottogrammatica di HTML

compatibile coi pattern• Ogni documento IML è un documento HTML, ma

molto ma molto più regolare. – Nessuna eccezione– Nessun caso strano– Pienamente espressivo

Page 21: A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2C | Prof. Fabio Vitali  #IIAS15

Intermediate Markup Language

• La creazione di un formato basato su pattern ci ha permesso di creare strumenti di conversione automatica da e per formati più noti– Da MS Word a IML– Da IML a DocBook– Da IML a HTML– Da IML a PDF

Page 22: A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2C | Prof. Fabio Vitali  #IIAS15

E ora RASH

• Da allora abbiamo imparato molte cose, e alcune si sono semplificate. – Abbiamo imparato dell'importanza dei metadati– Abbiamo imparato dell'importanza dell'embedding di

statement semantici all'interno dei documenti– OOXML è molto più controllato e semplice del primo

XML di MS Word– XHTML è diventato HTML5, per certi versi più

semplice.

http://cs.unibo.it/save-sd/rash

Page 23: A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2C | Prof. Fabio Vitali  #IIAS15

Research Articles in Simplified HTMLhttp://cs.unibo.it/save-sd/rash

• Proposto nel 2014 alla comunità del Semantic Publishing. • Pensato prevalentemente per l'editoria scientifica e

accademica• Un formato HTML5 molto semplificato (25 elementi) • Contiene la possibilità di aggiungere annotazioni RDF in

RDFa oppure Turtle oppure JSON-LD– Totalmente compatibile con gli standard LOD– Facilmente visualizzabile su qualunque browser– Facilmente convertibile in qualunque formato editoriale– Numerose conferenze scientifiche ammettono sottomissioni di

paper in RASH

Page 24: A ciascuno il suo: archi, frecce e interfacce per servizi editoriali B2B e B2C | Prof. Fabio Vitali  #IIAS15

SPAR Ontologieshttp://www.sparontologies.net/

• Un modello di descrizione del processo editoriale (soprattutto di quello accademico) molto apprezzato nell'editoria scientifica

• Otto ontologie per descrivere dalla natura alla struttura dei documenti allo step del processo editoriale in cui esistono, ecc.

• Grande attenzione al modello citazionale sottostante, criterio fondamentale per la valutazione della qualità della ricerca