La rappresentazione dell’informazione testuale e i linguaggi di codifica

17
1 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 La rappresentazione dell’informazione testuale e i linguaggi di codifica Capitolo V.

description

La rappresentazione dell’informazione testuale e i linguaggi di codifica. Capitolo V. Le forme della rappresentazione digitale. La rappresentazione livello zero: codifica ASCII – stringhe di caratteri non interpretate - PowerPoint PPT Presentation

Transcript of La rappresentazione dell’informazione testuale e i linguaggi di codifica

Page 1: La rappresentazione dell’informazione testuale e i linguaggi di codifica

1 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

 

La rappresentazione dell’informazione testuale

e i linguaggi di codifica

Capitolo V.

Page 2: La rappresentazione dell’informazione testuale e i linguaggi di codifica

2 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Le forme della rappresentazione digitale

• La rappresentazione livello zero: codifica ASCII – stringhe di caratteri non interpretate

• L’aggiunta di informazioni sul testo e sul documento: i linguaggi di codifica – dati informazionali sulle istanze di contenuto tradite dalle fonti testuali

Page 3: La rappresentazione dell’informazione testuale e i linguaggi di codifica

3 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Testo e documento

• Il documento come rappresentazione MATERICA e MATERIALE della fonte• Il testo come fonte di contenuto, trasmissione di DATI INFORMAZIONALI

Es. Rappresentazione logica del contenuto veicolato da una fonte testuale, il contenuto dell’opera, che è il testo VS una specifica rappresentazione fisica, cioè una particolare edizione del testo, che è il documento, vale a dire l’attestazione fisica del testo, lo specifico esemplare.

Page 4: La rappresentazione dell’informazione testuale e i linguaggi di codifica

4 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

I linguaggi dichiarativi e procedurali

• Sistemi di tipo WYSIWYG (What You See Is What You Get) – a interfaccia grafica• Sistemi basati sui markup language:

1. PROCEDURALI (specific markup), che istruiscono il device di output sull’aspetto del documento; 2. DICHIARATIVI (generic markup) che consentono di aggiungere informazioni sul testo

Page 5: La rappresentazione dell’informazione testuale e i linguaggi di codifica

5 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

SGML      Standard Generalized Markup Language

• Linguaggio di markup dichiarativo per la codifica della struttura logica delle fonti testuali.

• Metalinguaggio che consente l’elaborazione di linguaggi di codifica fornendo principi sintattici.

• Markup: aggiunta di informazioni a ogni partizione logica della fonte tramite tag

• Aspetto tag: delimitatori che contengono l’informazione utile a descrivere la porzione di testo, nella forma: <elemento>

• Concetto di DTD come luogo utile a specificare il valore di ogni elemento che si intende utilizzare in fase di markup

Page 6: La rappresentazione dell’informazione testuale e i linguaggi di codifica

6 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

HTML Hyper Text Markup Language

• DTD SGML: set di marcatori ad hoc per la codifica di costrutti ipertestuali

• Principi sintattici basati su SGML• Struttura del codice:

<ISTRUZIONE ATTRIBUTO=“valore dell’attributo”> testo a cui si riferisce il marcatore </ISTRUZIONE>

• Limiti HTML: linguaggio non modificabile, scarsamente strutturato, predilezione marcatori stilistici

Page 7: La rappresentazione dell’informazione testuale e i linguaggi di codifica

7 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Un file HTML<HTML> <HEAD> <TITLE>Le Stanze di Poliziano</TITLE> </HEAD> <BODY> <H1><I>Stanze</I></H1> <H2>Angelo Poliziano</H2> <H3>LIBRO PRIMO</H3> <DIV> <H4>1</H4>

<FONT SIZE=+1>Preposizione</FONT><P>Le gloriose pompe e' fieri ludi<BR> della città che 'l freno ..<BR></P>

</DIV> <DIV> <H4>2</H4>

<FONT SIZE=+1>Invocazione ad Amore</FONT>.<P>O bello idio ch'al cor per gli occhi ..<BR> dolce disir d'amaro pensier ..<BR></P>

</DIV> </BODY></HTML>

Page 8: La rappresentazione dell’informazione testuale e i linguaggi di codifica

8 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

XML Extensible Markup Language

• Sottoinsieme SGML (non DTD!) semplificato e ottimizzato specificamente per applicazioni in ambiente Word Wide Web

• Propensione per la descrizione della struttura logica della fonte rispetto alla resa grafica in layout

• Aspetto del documento delegato ad altri linguaggi (come XSL)

• Utilizzo di DTD esistenti o creazione dei marcatori ad hoc per la tipologia documentaria

• Documenti XML validi (che si rifanno a una DTD) e “ben-formati” (well-formed), ossia che si limitano ad aderire alle norme sintattiche XML

Page 9: La rappresentazione dell’informazione testuale e i linguaggi di codifica

9 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

File per lavorare con XML

• Documento XML (file.xml): struttura gerarchica ad albero dei marcatori – concetto di elemento, attributo ed entità

• DTD (file.dtd): specificazione dei nomi degli elementi e delle mutue relazioni gerarchiche, degli attributi e dei riferimenti di entità utilizzati nel documento XML

• Foglio di stile (file.xsl): descrizione del layout, di come appariranno in fase di visualizzazione le porzioni di testo codificate nel file XML

Page 10: La rappresentazione dell’informazione testuale e i linguaggi di codifica

10 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Un documento XML<?xml version="1.0"?><?xml-stylesheet href="poesie.xsl" type="text/xsl"?><!DOCTYPE Poesie SYSTEM "poesie.dtd">

<POEMA> <TITOLO>Stanze</TITOLO> <AUTORE>Angelo Poiliziano</AUTORE> <CANTO n="1"> <INTESTAZIONE>LIBRO PRIMO</INTESTAZIONE> <OTTAVA n="1"> <TITOLO tipo="numerico">1</TITOLO> <TITOLO tipo="tematico">Preposizione</TITOLO> <VERSO>Le gloriose pompe e' fieri ludi</VERSO> <VERSO>della città che 'l freno ..</VERSO> ... </OTTAVA> <OTTAVA n="2"> <TITOLO tipo="numerico">2</TITOLO> <TITOLO tipo="tematico">Invocazione ad Amore</TITOLO> <VERSO>O bello idio ch'al cor per gli occhi ..</VERSO> <VERSO>dolce disir d'amaro pensier ..</VERSO> ... </CANTO></POEMA>

Page 11: La rappresentazione dell’informazione testuale e i linguaggi di codifica

11 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Schema ad albero

POEMA

TITOLO AUTORE CANTO CANTO

INTESTAZIONE OTTAVA OTTAVA …

TITOLO VERSO VERSO VERSO …

Page 12: La rappresentazione dell’informazione testuale e i linguaggi di codifica

12 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Porzione di DTD

<!ELEMENT poema (titolo, autore, canto*)><!ELEMENT titolo (#PCDATA)><!ELEMENT autore (#PCDATA)><!ELEMENT canto (intestazione?, ottava*)><!ATTLIST canto n ID #REQUIRED><!ELEMENT ottava (titolo?,verso*)><!ATTLIST ottava n ID #REQUIRED><!ELEMENT verso (#PCDATA)>

Page 13: La rappresentazione dell’informazione testuale e i linguaggi di codifica

13 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Porzione di file XSL<xsl:template match="/"> <HTML> <BODY BGCOLOR="#fff000"> <font face="Verdana" size="2"><xsl:apply-templates/></font> </BODY> </HTML> </xsl:template>

<xsl:template match="titolo"><font color="#cccccc"><i><xsl:apply-templates/></i></font></xsl:template>

<xsl:template match="autore"><font size="+1"><b><xsl:apply-templates/></b></font></xsl:template>

Page 14: La rappresentazione dell’informazione testuale e i linguaggi di codifica

14 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Alcuni standard correlati a XML

• Gestione dei fogli di stile: XSL (Extensible Stylesheet Language)

• Gestione dei link ipertestuali: XML Linking Language (Xlink e Xpointer)

• Gestione dei metadati: RDF (Resource Description Format )

Page 15: La rappresentazione dell’informazione testuale e i linguaggi di codifica

15 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

La DTD per i testi umanistici: Text Encoding Initiative (TEI)

• DTD elaborata per la gestione dei testi letterari• Nasce per SGML e ora è compatibile anche con XML• Prevede la codifica di ogni fenomeno letterario (conta

oltre 400 elementi)• TEILite – versione ridotta dello schema di codifica• Pizza Chef – per la creazione del set di marcatori ad

hoc per la tipologia testuale o gli scopi della ricerca

Page 16: La rappresentazione dell’informazione testuale e i linguaggi di codifica

16 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Struttura TEI

Divisa in sezioni: • elementi utilizzabili in ogni tipo di testo• elementi specifici per tipologia testuale (testo in prosa,

in versi, testo drammatico, dizionario, trascrizione di registrazioni verbali)

• elementi legati agli obiettivi della resa computazionale (codifica di fonti primarie e predisposizione dell’apparato delle varianti, codifica di strutture morfosintattiche, rappresentazione di strutture interpretative profonde, rappresentazione di costrutti ipertestuali)

Page 17: La rappresentazione dell’informazione testuale e i linguaggi di codifica

17 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003

Schema base della DTD TEI<Tei.2>[start tag della TEI]

<teiHeader> [informazioni relative all’esemplare cartaceo di riferimento e alla versione elettronica - metadati]

</teiHeader>

<text>[start tag del testo] <front>[dati che precedono il corpo del documento]</front> <body> [corpo del testo] </body> <back> [dati che seguono il corpo del documento] </back></text>[end tag del testo]

</Tei.2>[end tag della Tei]