Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di...

33
Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 <http://www.tei-c.org/release/doc/tei-p5- doc/en/html> TEI Consortium, eds. Guidelines for Electronic Text Encoding and Interchange . <http://www.tei-c.org/P5/> Linee guida per la codifica e l'interscambio del testo elettronico

Transcript of Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di...

Page 1: Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 TEI Consortium, eds. Guidelines.

Il ruolo del modello nella rappresentazione del testo

umanisticoIl markup XML/TEI

Alcuni casi di studioDTD/Schema TEI P5

<http://www.tei-c.org/release/doc/tei-p5-doc/en/html>

TEI Consortium, eds. Guidelines for Electronic Text Encoding and Interchange.

<http://www.tei-c.org/P5/>Linee guida per la codifica e l'interscambio

del testo elettronico

Page 2: Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 TEI Consortium, eds. Guidelines.

Informatica e discipline umanistiche Scienze della rappresentazione e dell’elaborazione

dell’informazione: discipline che si occupano dei processi e dei sistemi di reperimento, conservazione, trasformazione e trasmissione dei dati informativi.

Ruolo della computer science: trasformare i dati umanistici, che identificano tutti gli oggetti portatori di informazione, in sistemi formali, cioè costruiti in base a precisi schemi e secondo specifiche regole.

Quello che è formalizzato diventa computabile, quindi risolvibile sulla base di processi automatici.

Ambiguità e indeterminatezza devono essere sostituiti da schemi e regole, strutture e modelli.

IU: analisi dei sistemi di progettazione e creazione di oggetti computabili.

Adeguata modellizzazione dei dati sulla base di strutture dati e loro rappresentazione formale.

Page 3: Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 TEI Consortium, eds. Guidelines.

Humanities Computer Science

Ogni disciplina di area umanistica ha sviluppato differenti strategie computazionali, a seconda delle esigenze del settore di competenza (la linguistica, la storia, la biblioteconomia, la letteratura, la paleografia, la codicologia, etc.), ma quasi tutte le discipline condividono

metodologie formali nella gestione automatica dei dati e concordano su di un uso non esclusivamente tecnico dello

strumento informatico. Una serie di comuni metodologie informatiche percorre cioè

trasversalmente le discipline umanistiche tradizionali e costituisce una base condivisa per le operazioni legate:

alla rappresentazione e alla conservazione delle fonti, alle modalità della sua manipolazione, ai criteri del trattamento e alle forme della sua disseminazione e distribuzione.

Page 4: Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 TEI Consortium, eds. Guidelines.

Alle origini: la linguistica computazionale

Prime sperimentazioni disciplinari: tentativo di automatizzare procedimenti manuali di estrazione di parole da corpora di dati.

Siamo nel 1949 e Padre Roberto Busa inizia a produrre l’index verborum (o meglio le concordanze) degli opera omnia di Tommaso d’Aquino.

http://www.corpusthomisticum.org

Page 5: Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 TEI Consortium, eds. Guidelines.

Alle origini: riviste e associazioni Rivista Computer and the Humanities (1966). Associazioni:

ALLC (Association for Literary and Linguistic Computing <http://www.allc.org/>) fondata nel 1973

ACH (Association for Computer in the Humanities <http://www.ach.org/>) fondata nel 1978.

I membri di ACH e ALLC sono editor anche di: Literary and Linguistic Computing <http://llc.oxfordjournals.org> (1986).

ACH gestisce poi la lista di discussione Humanist, “an international electronic seminar on humanities computing and the digital humanities” <http://www.princeton.edu/~mccarty/humanist/> (il primo volume è del 1987-88).

ACH e ALLC si sono ad oggi federate nella “Alliance of Digital Humanities Organizations” (ADHO) <http://www.digitalhumanities.org/>.

Fra le varie attività del Commitee si registra la nascita, nel 2007, della rivista elettronica “Digital Humanities Quarterly” (DHG).

Page 6: Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 TEI Consortium, eds. Guidelines.

Alle origini: il markup SGML Fine degli anni ottanta: problematiche connesse con

la rappresentazione digitale del testo tramite linguaggi specifici di codifica.

Nel 1986 SGML (Standard Generalized Markup Language) diviene standard ISO.

Nel 1987 si inizia a parlare della TEI (Text Encoding Initiative) come del vocabolario condiviso della comunità di studiosi che intendono realizzare testi elettronici di ambito umanistico.

Fioriscono anche le prime edizioni elettroniche a cui si affiancano le prime raccolte di testi elettronici, i primi corpora testuali che rappresentano il fondamento per la nascita delle biblioteche digitali.

Page 7: Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 TEI Consortium, eds. Guidelines.

Alle origini: il Web e i linguaggi La discussione che ne segue non è solo di natura

tecnica, ma investe i fondamenti teorici della rappresentazione digitale.

Gli anni novanta del novecento sono segnati dall’avvento del Word Wide Web che consente la pubblicazione distribuita di materiali in formato digitale e porta ad un progressivo ampliamento dell’orizzonte di scambio nella comunità dell’IU.

Oggi: XML (Extensible Markup Language) e TEI, nuove frontiere della multimedialità, i linguaggi controllati e biblioteche digitali.

Page 8: Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 TEI Consortium, eds. Guidelines.

Il ruolo dell’XML Metalinguaggio – norme SINTATTICHE (livello

trasporto dati) e cioè

Assenza di un vocabolario di elementi Concetto di Tipo di Documento (la classe =

condivisione di proprietà). Non solo concetto tecnico: la DTD (livello vocabolario di rappresentazione) ma ora

Gli Schemi. Esigenza di espressività Il concetto di testo: la struttura gerarchica ad

albero Importanza del MODELLO: non solo lo schema

Page 9: Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 TEI Consortium, eds. Guidelines.

L’importanza del modello per i testi umanistici

La definizione del modello deriva da due precise circostanze:

specificità della risorsa, nei termini di tipologia documentaria,

caratteristiche dell’analisi e del successivo trattamento automatico del testo o del corpus.

Ogni modello del testo è dunque il risultato del punto di vista assunto sulla fonte.

Page 10: Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 TEI Consortium, eds. Guidelines.

I macrolivelli interpretativiPotremmo ipotizzare tre livelli, che corrispondono a tre

macro aree di analisi e quindi a tre modelli o a tre punti di vista:

STRUTTURA RAPPRESENTAZIONE/FORMATO FENOMENI INTERLINEARI/CONTENUTO

Non è obbligatorio scegliere uno dei tre modelli; tutti e tre possono essere rappresentati in fase di markup o meglio il modello elaborato può contemplare elementi che provengono dai tre diversi livelli della modellizzazione.

Page 11: Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 TEI Consortium, eds. Guidelines.

Struttura

Per codifica della struttura si intende l’individuazione delle partizioni principali e secondarie del testo.

Ci si riferisce, ad esempio, alle suddivisioni formali in capitoli, sezioni, paragrafi per un testo in prosa; canti, stanze, versi per un componimento poetico; atti e scene per un testo teatrale, ecc.

Page 12: Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 TEI Consortium, eds. Guidelines.

Rappresentazione/formato Si intende l’aspetto fisico del documento, quindi la

riproduzione in formato digitale delle caratteristiche della versione cartacea. grassetti, corsivi e sottolineati, caratteri speciali che richiedono una particolare resa per essere

rappresentati (tutto ciò che esula quindi dal set ASCII base o dall’Unicode UTF 8),

posizionamento di note e annotazioni, organizzazione di eventuali glosse marginali,

indentazioni, a capo, caratteristiche materiali (come aggiunte e cancellazioni), alternanza maiuscole/minuscole, interpunzione.

Gli aspetto di formato, in particolare, sono caratteristiche che possono avere un ruolo importante nell’interpretazione del significato del testo: un corsivo può qualificare una parola in lingua straniera, un titolo, un enfasi nel contenuto e non essere un mero accorgimento tipografico.

Page 13: Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 TEI Consortium, eds. Guidelines.

Fenomeni interlineari/Contenuto In questa fase il markup richiederà una scelta

specifica dei fenomeni in relazione alle esigenze analitiche del lavoro di resa elettronica.

Qualche esempio: nomi di persona e riferimenti di luogo, numeri e date, citazioni, figure retoriche, lessico tecnico/specifico, parole in lingua straniera, analisi stilistica, codifica delle varianti all’interno di una tradizione testuale, annotazioni morfo-sintattiche e semantiche di corpora.

Page 14: Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 TEI Consortium, eds. Guidelines.

Il ruolo della TEI

Per agevolare la portabilità dei prodotti digitali e per consentire dunque la condivisione dei formati di scambio è stato realizzato un progetto denominato TEI (Text Encoding Initiative).

La TEI è un modello di codifica che vuole contemplare tutta la serie dei fenomeni di interesse ‘umanistico’ e trovare, per ciascuno di essi, un vocabolario unico al fine di arrivare ad una formalizzazione utile a normalizzare i criteri, le modalità e il lessico del markup, di fronte alla polisemia del linguaggio naturale.

La TEI è quindi una grammatica avente il compito di assegnare un vocabolario controllato all’XML.

Termini e relazioni di dipendenza gerarchica.

Page 15: Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 TEI Consortium, eds. Guidelines.

Origini della TEI

A partire dal 1987 le tre maggiori associazioni mondiali di studiosi di scienze umane attraverso metodologie informatiche, la Association for Computers and the Humanities (ACH) la Association for Computational Linguistics (ACL) e la Association for Literary and Linguistic Computing (ALLC) hanno avviato un progetto internazionale per sviluppare un modello di codifica normalizzato.

Questo progetto è stato denominato Text Encoding Initiative (TEI), sito ufficiale http://www.tei-c.org/.

Ad esso hanno attivamente collaborato un gruppo di studiosi provenienti da differenti paesi

Page 16: Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 TEI Consortium, eds. Guidelines.

Guidelines TEI

Il lavoro delle commissioni, iniziato nel 1989, ha condotto alla realizzazione di una vasta e complessa DTD (Document Type Definition), le cui caratteristiche sono state per la prima volta presentate nella pubblicazione, uscita nel 1994, col titolo Guidelines for Electronic Text Encoding and Interchange (TEI P3).

Nel 2002 è stata rilasciata la TEI P4, per venire incontro all’esigenza di prevedere, anche nelle Guidelines, l’adeguamento della rinnovata DTD alla sintassi XML.

È in fase di distribuzione la TEI P5, che ha comportato una sostanziale revisione delle TEI Guidelines (compresa la realizzazione di una versione della TEI basata su XML Schema che si affianca alla DTD).

Cfr. http://www.tei-c.org/Guidelines

Page 17: Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 TEI Consortium, eds. Guidelines.

La funzione delle Guidelines

Sono indirizzate a tutti coloro che intendono scambiare informazioni archiviate in formato elettronico.

Sottolineano l'importanza dello scambio di informazioni testuali, ma trattano anche di altre forme di informazioni (quali immagini e suoni).

Sono applicabili indifferentemente sia per la creazione di nuove risorse che per lo scambio di quelle già esistenti.

Forniscono un mezzo per rendere esplicite certe caratteristiche di un testo in modo tale da facilitarne il trattamento mediante programmi basati su diverse piattaforme.

Qualsiasi rappresentazione di un testo su un computer usa una qualche forma di codifica; la TEI è stata creata sia per ovviare alla eccessiva varietà di schemi di codifica tra loro incompatibili (interscambio), sia per il crescente numero di applicazioni utilizzate per i testi in formato elettronico.

Page 18: Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 TEI Consortium, eds. Guidelines.

Principi generali

Le Guidelines dovrebbero: essere in grado di rappresentare le caratteristiche

testuali necessarie per la ricerca; essere semplici, chiare e concrete; essere di semplice utilizzazione per i ricercatori

senza il ricorso a software specializzati; permettere una definizione rigorosa e un'efficiente

elaborazione dei testi; consentire estensioni definite dall'utente; essere conformi agli standard esistenti o in procinto

di essere adottati.

Page 19: Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 TEI Consortium, eds. Guidelines.

Tre blocchi dello schema TEI

Per agevolare l’apprendimento e l’impiego dello schema i progettisti della TEI hanno previsto una divisione dello schema di codifica in tre grandi blocchi, ognuno strutturato in frammenti:

core tag set cioè gli elementi presenti in tutti i documenti TEI, compresi i metadati;

base tag set, suddiviso in prosa, versi, testo drammatico, testi parlati, dizionari, ecc.;

additional tag set in cui sono compresi vari frammenti: link, analisi stilistica, gestione di corpora linguistici, trascrizione di fonti primarie, codifica dell’apparato critico, nomi e date, immagini, grafici, diagrammi, alberi, ecc.

Page 20: Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 TEI Consortium, eds. Guidelines.

TEI Lite

È stato elaborato anche un sottoinsieme della TEI, denominato TEI Lite, che dovrebbe consentire la diffusione del progetto di codifica, senza impegnare l’utenza ad apprendere lo schema nella sua interezza.

Si tratta di una versione semplificata dell’intero schema di codifica che permette di facilitare la realizzazione di testi in formato elettronico tei-compliant.

Elenco dei marcatori e degli attributi TEI-Lite (140 circa)

Page 21: Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 TEI Consortium, eds. Guidelines.

Struttura TEI: testo e metadati

Ogni testo codificato conformemente alle specifiche della TEI è costituito da due parti:

un TEI header (“testata”), contenente le informazioni editoriali concernenti, a diverso livello, il documento elettronico;

un TEI text contenente la trascrizione codificata del testo in versione integrale.

Template TEI

Page 22: Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 TEI Consortium, eds. Guidelines.

TEI header

Diremo che nella “testata” della TEI sono raccolte tutte le informazioni utili per:

descrizione bibliografica del testo elettronico e del suo esemplare originale di riferimento,

modalità e caratteristiche della codifica, note non bibliografiche e revisioni. Queste notizie possono definirsi come i metadati della

risorsa, cioè le meta-informazioni utili a descrivere il testo elettronico prodotto e il documento materiale utilizzato come esemplare per la trascrizione digitale.

Page 23: Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 TEI Consortium, eds. Guidelines.

Il Frontespizio elettronicoOgni testo TEI ha una testata che offre informazioni analoghe a quelle

fornite dal frontespizio di un testo a stampa. La testata è introdotta dall'elemento <teiHeader> ed è composta da quattro parti principali:

1. <fileDesc> contiene una descrizione bibliografica completa di un file digitale.

2. <encodingDesc> documenta le relazioni tra un testo elettronico e la fonte, o le fonti, da cui è stato tratto.

3. <profileDesc> contiene una descrizione dettagliata degli aspetti non bibliografici di un testo, specificamente le lingue e i dialetti usati, le circostanze in cui è stato prodotto, i partecipanti e il loro ambiente.

4. <revisionDesc> riassume la storia delle revisioni di un documento elettronico.

Un esempio da Biblioteca Italiana

Es. offline: Dante, De vulgari eloquentia

Page 24: Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 TEI Consortium, eds. Guidelines.

TEI markup

Take care of: Use of referential canonical edition: text + paratextual

elements Metadata: description of the digital text (<TeiHeader> -

MAG/DC); description of data source (<SorceDesc> and especially <MsDesc>)

Some cases of study: Transcription of primary sources Markup of critical apparatus Semantic annotations

Page 25: Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 TEI Consortium, eds. Guidelines.

Work in progress Diplomatic transcription (text and images):

Quaderno di appunti di Paolo Bufalini Semantic Annotation: Sabadino degli Arienti,

Novelle Porrettane Material phenomena and letters structure:

Vespasiano da Bisticci, Lettere Association of diplomatic, interpretative and

critical edition: Leonardo Bruni, Manoscritto de La prima guerra punica

Critical apparatus: Erasmo, Carmina

Each editor one level of annotation

Page 26: Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 TEI Consortium, eds. Guidelines.

Transcription of primary sourcesLevels (different @resp): - Gliphs identification (entity references)- Sic/corr- Orig/reg- Abbr/expan- Del- Add

Edition:- Diplomatic (conservative). It documents all the material

aspects of the source.- Interpretative (first level of normalizazion)- Critical (editorial intervention)

The best markup is one that provides most materials to any kind of editions

1 XML/TEI file ; 3 XSLT files1 XML/TEI file ; 3 XSLT files

Page 27: Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 TEI Consortium, eds. Guidelines.

Transcription of primary sources

to et<reg type="SC"> </reg> <choice>

<orig>&dTonda;</orig><reg type="SG">d</reg>

</choice>ifficult<choice>

<orig>a</orig><reg type="modernizzazione">à</reg>

</choice> <choice>

<abbr type="contraction">&iSegnoSopra;</abbr><expan>in</expan>

</choice>

Page 28: Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 TEI Consortium, eds. Guidelines.

Critical apparatus markup

2 levels:- Digital form of an existent edition

- How to show relation between established text and witness

- Creation of a new scholarly digital edition starting from witness

- Define the best-text- All the witnesses at the same level

Page 29: Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 TEI Consortium, eds. Guidelines.

Apparatus markup: between layout conventions and different scholarly editing approaches (1)

Parallel versions (i.e. for genetic edition). Same stemmatic authority of the witnesses. Possibility:

Reconstruct the full-text of each witness of the textual tradition (i.e. click on the sigla). Parallel segmentation method Double-end-point-attached method = @xml:id

(milestones = no overlapping)

Page 30: Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 TEI Consortium, eds. Guidelines.

Apparatus markup: between layout conventions and different scholarly editing approaches (2)

Traditional: established text in the body (the lemma), variant readings in apparatus (link in-text). the location-referenced method = via

canonical reference scheme

Page 31: Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 TEI Consortium, eds. Guidelines.

Critical apparatus markupOpera omnia Desiderii Erasmi Roterodami recognita et adnotatione critica instructa notisque illustrata. Ordinis primi tomus septimus (I/7). Carmina, ed. H. Vredeveld, Amsterdam-London-New York-Tokyo 1995, c. 2, vv. 10-14).[...]<l n="10">Effoeta anus facit patrem.</l><l n="11">Est virgo foeta filia,</l><l n="12">Nepos dei verbum ac <app> <lemm resp=”#EOO”>deus</lemm> <rdg wit=”#K #L”>deus</rdg> <rdg wit=”#Eg”>decus</rdg> </app></l><l n="13">Gener pudicus se negat</l>[...]

Page 32: Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 TEI Consortium, eds. Guidelines.

Critical apparatus markup

<xsl:template match="//app" mode="testo"><xsl:variable name=“lezione">

<xsl:value-of select="lem/@resp"/><xsl:text>(</xsl:text>

<xsl:value-of select="rdg"/> <xsl:text>:</xsl:text>

<xsl:value-of select="rdg/@wit"/> <xsl:text>) </xsl:text>

</xsl:variable><span title="{$lezione}" style="border-bottom: 1px dotted">

<xsl:value-of select="lem"/></span>

</xsl:template>

Page 33: Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 TEI Consortium, eds. Guidelines.

Semantic annotations

Narratological analysis

The role of semantic resources – thesauri, controlled vocabulary, authority files for:

Normalization of variant forms regarding the same object Terms definitions

Associate instances to classes (hyponim, hyperonim)

Associate people (named in different ways but brought back to PT via unique key) to event, role, action, quality.