Informatica Umanistica

Post on 06-Jan-2016

41 views 0 download

description

Informatica Umanistica. LM - Scienze del Testo Docente Alessia Scacchi. Analisi automatica di un testo. Metodi e strumenti. Lezione 6. XML. È un sottoinsieme di SGML - PowerPoint PPT Presentation

Transcript of Informatica Umanistica

Informatica Umanistica

LM - Scienze del Testo

Docente Alessia Scacchi

Analisi automatica di un testo. Metodi e strumenti

Lezione 6

XML

• È un sottoinsieme di SGML

• Obiettivo: consentire a un documento SGML generico di essere servito, ricevuto ed elaborato sul Web nel modo in cui ora è possibile con HTML.

• È stato progettato per facilità di implementazione e per l'interoperabilità sia con SGML e HTML

XML

• I documenti XML sono costituiti da:

– unità di memoria chiamate entità, che contengono dati analizzati o non analizzati.

– i dati analizzati sono costituiti da caratteri• alcuni sotto forma di dati carattere• alcuni sotto forma di markup

Markup XML

• Markup è la codifica che consente una descrizione di:– il layout del documento – lo storage – la struttura logica

• XML fornisce un meccanismo per imporre dei vincoli sul tracciato di stoccaggio e sulla struttura logica del documento

Obiettivi XML_1• deve essere direttamente utilizzabile su

Internet.• deve supportare una vasta gamma di

applicazioni.• deve essere compatibile con SGML.• deve essere facile da scrivere, i programmi

che elaborano documenti XML devono essere di semplice lettura/scrittura.

• Il numero di caratteristiche opzionali in XML deve essere mantenuto al minimo assoluto, idealmente a zero.

Obiettivi XML_2

• I documenti XML dovrebbero essere leggibili da ogni essere umano e ragionevolmente chiari.

• La progettazione di un documento XML dovrebbe essere preparata in fretta.

• La progettazione di XML deve essere formale e concisa.

• La concisione del markup XML è di minima importanza.

Documento XML

• Un oggetto testo è un documento XML – se è ben formato – è valido se soddisfa taluni ulteriori vincoli

• Ogni documento XML ha: 1. una logica

2. una struttura fisica.

Entità_1

• 1. Struttura logica: il documento è composto di – dichiarazioni – elementi– commenti– riferimenti a caratteri– istruzioni di elaborazione

• Tutti gli elementi sono indicati nel documento con un markup esplicito.

Entità_2

2. Struttura fisica: il documento è composto da unità chiamate entità

• L'entità può riferirsi ad altre entità

• L’entità può determinare la loro inclusione nel documento

• Un documento inizia da una entità detta "radice" o entità documento.

Documento ben formato

Un oggetto testuale è un documento XML ben formato se:

• Nel suo insieme, esso corrisponde alla produzione marcata del documento

• Se riunisce tutti i vincoli di buona-formazione proposti dall’XML.

• Ciascuno dei soggetti analizzati, che fa riferimento direttamente o indirettamente all'interno del documento, è ben formato

TEI - Text Encoding Initiative

• Una organizzazione no-profit composta da:– Istituzioni accademiche– Centri di ricerca– Studenti di tutto il mondo

• http://www.tei-c.org/index.xml

TEI-Lite• Nome che hanno scelto gli editori TEI per uno

schema che soddisfacesse il 90% delle esigenze di codifica del 90% degli utenti

– Es: Oxford Text Archive http://ota.ahds.ac.uk/catalogue/index-id.html

“develops, collects, catalogues and preserves electronic literary and linguistic resources for use in Higher Education, in research”

Guidelines_1

• Essere semplici e chiare• Di semplice utilizzo per i ricercatori senza

software specializzati• Definizioni rigorose ed efficiente elaborazione

testi• Consentire estensioni definite dall’utente• Conformi a standard esistenti o in procinto di

essere adottati

Guidelines_2

• Nucleo comune delle caratteristiche testuali facilmente condiviso

• Caratteristiche supplementari facili da emendare

• Molteplici codifiche parallele della stessa caratteristica

• Livello di profondità della codifica definito dall’utente

• Adeguata documentazione del testo e sua codifica

Guidelines_3

• Obiettivi:1. Includere la maggior parte dell’insieme

fondamentale dei marcatori TEI

2. In grado di trattare molte tipologie testuali

3. Utile per l’elaborazione di nuovi testi come di già esistenti

4. Utilizzabile con un ampio spettro di software XML già esistenti

5. Derivabile dalla DTD TEI completa

6. Essere conciso e semplice

Elementi testuali

• Proviamo a lavorare su un testo…

Elementi testuali e dubbi• Numeri di pagina e titoli correnti sono

inframmezzati al testo– Difficile riconoscimento per un programma

• Nessuna distinzione tra segni di sillabazione e segni che introducono il discorso diretto– difficile distinguere il discorso diretto

• Lettere accentate non seguono uno standard• Le divisioni di paragrafo sono segnalate

dall’utilizzo di uno spazio bianco– Se dovesse cambiare la dimensione del foglio o il

supporto di visualizzazione ci sarebbero problemi

DocumentoTEIcodificato

Codifica del testo

Elementi fondamentali

Elementi_base

<TEI.2> Il testo codificato secondo lo standard TEI

<teiHeader>…</teiHeader> Intestazione del testo TEI

<text> Il testo che s’intende trasmettere

<front>…</front> Materiali del peritesto iniziale

<body>…</body> Il testo unitario

<back>…</back> Materiali del peritesto finale

</text>

</TEI.2>

Struttura di un testo

TEI

Elementi per le partizioni testuali

• Il corpo di un testo in prosa può essere costituito solamente da 1. una serie di paragrafi 2. oppure tali paragrafi possono

essere raggruppati insieme in • capitoli, • sezioni, • sottosezioni, • etc.

• <p>Codifica i paragrafi in prosa.• <div>Contiene una sezione del peritesto o del corpo di un testo.– <div1>Contiene una sezione di primo livello del peritesto o del corpo di un testo (la più ampia, se <div0> non è usato, altrimenti la seconda in ordine gerarchico).

– Qualora siano necessarie partizioni strutturali inferiori a una <div1> , quest'ultima può essere divisa in elementi<div2> , una <div2> in elementi inferiori <div3> , etc., fino al livello <div7>.

– Se sono presenti più di sette livelli nella divisione strutturale, è necessario o modificare la DTD TEI

Intertitoli e chiusure

• Ogni elemento <div> , <div1> , <div2> , etc., può avere un titolo o un'intestazione al suo inizio, e (meno comunemente) una formula di chiusura quale "Fine del capitolo 1".

• I seguenti elementi possono essere usati per trascriverli:

• <head>contiene ogni tipo di titolazione, per esempio, il titolo di una sezione, oppure l'intestazione di una lista o di un glossario.

• <trailer>contiene una formula di chiusura o un elemento a pié di pagina che compare alla fine di una sezione di testo.

Numeri di pagina e di riga

• Le interruzioni di pagina e di linea possono essere marcate con elementi vuoti– Ovvero elementi che non hanno apertura e chiusura, non contengono nulla, informano su un determinato fenomeno testuale

• <pb>segnala i confini tra una pagina di un testo e la successiva in un sistema di riferimento standard.

• <lb>segnala l'inizio di una nuova riga (tipografica) in una certa edizione o versione di un testo.

• Questi elementi marcano un punto singolo nel testo, non una sua porzione.

Esempio_1

<body>...<p>A seguitare, non ci saremmo mai intesi; perché se a me

stava a cuore la tigre, a lei il cacciatore. </p><p>Difatti il cacciatore designato a ucciderla è Carlo Ferro. La

Nestoroff ne dev'essere molto costernata; e forse non viene qua, come vogliono i maligni, per studiare la sua parte, ma per misurare il pericolo che il suo amante affronterà.</p>

...</body>(Il brano è tratto da Quaderni di Serafino Gubbio operatore di Luigi

Pirandello)

http://www.archive.org/details/texts

Esempio_2

<lg><l>S'i' fosse foco, ardere' il mondo;</l><l>s'i' fosse vento, lo tempestarei;</l><l>s'i' fosse acqua, i' l'annegherei;</l><l>s'i' fosse Dio, mandereil en profondo;</l><lg><l>s'i' fosse papa, serei allor giocondo,</l><l>ché tutti ' cristiani embrigarei;</l><l>s'i' fosse 'mperator, sa' che farei?</l><l>a tutti mozzarei lo capo a tondo.</l>(Il brano è tratto dal sonetto LXXXII delle Rime di Cecco Angiolieri)