La rappresentazione dell’informazione testuale e i linguaggi di codifica
description
Transcript of La rappresentazione dell’informazione testuale e i linguaggi di codifica
1 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
La rappresentazione dell’informazione testuale
e i linguaggi di codifica
Capitolo V.
2 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
Le forme della rappresentazione digitale
• La rappresentazione livello zero: codifica ASCII – stringhe di caratteri non interpretate
• L’aggiunta di informazioni sul testo e sul documento: i linguaggi di codifica – dati informazionali sulle istanze di contenuto tradite dalle fonti testuali
3 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
Testo e documento
• Il documento come rappresentazione MATERICA e MATERIALE della fonte• Il testo come fonte di contenuto, trasmissione di DATI INFORMAZIONALI
Es. Rappresentazione logica del contenuto veicolato da una fonte testuale, il contenuto dell’opera, che è il testo VS una specifica rappresentazione fisica, cioè una particolare edizione del testo, che è il documento, vale a dire l’attestazione fisica del testo, lo specifico esemplare.
4 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
I linguaggi dichiarativi e procedurali
• Sistemi di tipo WYSIWYG (What You See Is What You Get) – a interfaccia grafica• Sistemi basati sui markup language:
1. PROCEDURALI (specific markup), che istruiscono il device di output sull’aspetto del documento; 2. DICHIARATIVI (generic markup) che consentono di aggiungere informazioni sul testo
5 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
SGML Standard Generalized Markup Language
• Linguaggio di markup dichiarativo per la codifica della struttura logica delle fonti testuali.
• Metalinguaggio che consente l’elaborazione di linguaggi di codifica fornendo principi sintattici.
• Markup: aggiunta di informazioni a ogni partizione logica della fonte tramite tag
• Aspetto tag: delimitatori che contengono l’informazione utile a descrivere la porzione di testo, nella forma: <elemento>
• Concetto di DTD come luogo utile a specificare il valore di ogni elemento che si intende utilizzare in fase di markup
6 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
HTML Hyper Text Markup Language
• DTD SGML: set di marcatori ad hoc per la codifica di costrutti ipertestuali
• Principi sintattici basati su SGML• Struttura del codice:
<ISTRUZIONE ATTRIBUTO=“valore dell’attributo”> testo a cui si riferisce il marcatore </ISTRUZIONE>
• Limiti HTML: linguaggio non modificabile, scarsamente strutturato, predilezione marcatori stilistici
7 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
Un file HTML<HTML> <HEAD> <TITLE>Le Stanze di Poliziano</TITLE> </HEAD> <BODY> <H1><I>Stanze</I></H1> <H2>Angelo Poliziano</H2> <H3>LIBRO PRIMO</H3> <DIV> <H4>1</H4>
<FONT SIZE=+1>Preposizione</FONT><P>Le gloriose pompe e' fieri ludi<BR> della città che 'l freno ..<BR></P>
</DIV> <DIV> <H4>2</H4>
<FONT SIZE=+1>Invocazione ad Amore</FONT>.<P>O bello idio ch'al cor per gli occhi ..<BR> dolce disir d'amaro pensier ..<BR></P>
</DIV> </BODY></HTML>
8 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
XML Extensible Markup Language
• Sottoinsieme SGML (non DTD!) semplificato e ottimizzato specificamente per applicazioni in ambiente Word Wide Web
• Propensione per la descrizione della struttura logica della fonte rispetto alla resa grafica in layout
• Aspetto del documento delegato ad altri linguaggi (come XSL)
• Utilizzo di DTD esistenti o creazione dei marcatori ad hoc per la tipologia documentaria
• Documenti XML validi (che si rifanno a una DTD) e “ben-formati” (well-formed), ossia che si limitano ad aderire alle norme sintattiche XML
9 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
File per lavorare con XML
• Documento XML (file.xml): struttura gerarchica ad albero dei marcatori – concetto di elemento, attributo ed entità
• DTD (file.dtd): specificazione dei nomi degli elementi e delle mutue relazioni gerarchiche, degli attributi e dei riferimenti di entità utilizzati nel documento XML
• Foglio di stile (file.xsl): descrizione del layout, di come appariranno in fase di visualizzazione le porzioni di testo codificate nel file XML
10 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
Un documento XML<?xml version="1.0"?><?xml-stylesheet href="poesie.xsl" type="text/xsl"?><!DOCTYPE Poesie SYSTEM "poesie.dtd">
<POEMA> <TITOLO>Stanze</TITOLO> <AUTORE>Angelo Poiliziano</AUTORE> <CANTO n="1"> <INTESTAZIONE>LIBRO PRIMO</INTESTAZIONE> <OTTAVA n="1"> <TITOLO tipo="numerico">1</TITOLO> <TITOLO tipo="tematico">Preposizione</TITOLO> <VERSO>Le gloriose pompe e' fieri ludi</VERSO> <VERSO>della città che 'l freno ..</VERSO> ... </OTTAVA> <OTTAVA n="2"> <TITOLO tipo="numerico">2</TITOLO> <TITOLO tipo="tematico">Invocazione ad Amore</TITOLO> <VERSO>O bello idio ch'al cor per gli occhi ..</VERSO> <VERSO>dolce disir d'amaro pensier ..</VERSO> ... </CANTO></POEMA>
11 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
Schema ad albero
POEMA
TITOLO AUTORE CANTO CANTO
INTESTAZIONE OTTAVA OTTAVA …
TITOLO VERSO VERSO VERSO …
12 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
Porzione di DTD
<!ELEMENT poema (titolo, autore, canto*)><!ELEMENT titolo (#PCDATA)><!ELEMENT autore (#PCDATA)><!ELEMENT canto (intestazione?, ottava*)><!ATTLIST canto n ID #REQUIRED><!ELEMENT ottava (titolo?,verso*)><!ATTLIST ottava n ID #REQUIRED><!ELEMENT verso (#PCDATA)>
13 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
Porzione di file XSL<xsl:template match="/"> <HTML> <BODY BGCOLOR="#fff000"> <font face="Verdana" size="2"><xsl:apply-templates/></font> </BODY> </HTML> </xsl:template>
<xsl:template match="titolo"><font color="#cccccc"><i><xsl:apply-templates/></i></font></xsl:template>
<xsl:template match="autore"><font size="+1"><b><xsl:apply-templates/></b></font></xsl:template>
14 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
Alcuni standard correlati a XML
• Gestione dei fogli di stile: XSL (Extensible Stylesheet Language)
• Gestione dei link ipertestuali: XML Linking Language (Xlink e Xpointer)
• Gestione dei metadati: RDF (Resource Description Format )
15 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
La DTD per i testi umanistici: Text Encoding Initiative (TEI)
• DTD elaborata per la gestione dei testi letterari• Nasce per SGML e ora è compatibile anche con XML• Prevede la codifica di ogni fenomeno letterario (conta
oltre 400 elementi)• TEILite – versione ridotta dello schema di codifica• Pizza Chef – per la creazione del set di marcatori ad
hoc per la tipologia testuale o gli scopi della ricerca
16 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
Struttura TEI
Divisa in sezioni: • elementi utilizzabili in ogni tipo di testo• elementi specifici per tipologia testuale (testo in prosa,
in versi, testo drammatico, dizionario, trascrizione di registrazioni verbali)
• elementi legati agli obiettivi della resa computazionale (codifica di fonti primarie e predisposizione dell’apparato delle varianti, codifica di strutture morfosintattiche, rappresentazione di strutture interpretative profonde, rappresentazione di costrutti ipertestuali)
17 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003
Schema base della DTD TEI<Tei.2>[start tag della TEI]
<teiHeader> [informazioni relative all’esemplare cartaceo di riferimento e alla versione elettronica - metadati]
</teiHeader>
<text>[start tag del testo] <front>[dati che precedono il corpo del documento]</front> <body> [corpo del testo] </body> <back> [dati che seguono il corpo del documento] </back></text>[end tag del testo]
</Tei.2>[end tag della Tei]