Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del...

47
Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo

Transcript of Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del...

Page 1: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, PirrelliTesto e computer – Carocci 2005

Capitolo 2La codifica digitale del testo

Page 2: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

La codifica digitale del testo

I computer memorizzano ed elaborano dati sotto forma di sequenze di due soli simboli 0 e 1 (cifre binarie)

Ogni tipo di informazione deve essere codificata in cifre binarie codificare informazione = associare a ciascuna unità di

informazione un codice (sequenza di cifre binarie) che la identifica in maniera univoca

I testi per essere elaborati o trasmessi da un programma devono avere una rappresentazione (codifica) binaria

Rappresentazione del testo su supporto digitale in un formato “leggibile” da un computer

Machine Readable Form (MRF)

Page 3: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

La codifica digitale del testo

che tipo di rappresentazione digitale del testo?

Page 4: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

La codifica digitale del testoIl testo e la sua organizzazione

titolo

capitolo

testo

intestazione

Page 5: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

La codifica digitale del testoIl testo e la sua struttura linguistica

frase relativa

tutti = soggetto

sintagma nominale

articolo indefinito femminile singolare

stanza come luogo

V andare

pass. rem. 3 sing.

stanze = oggetto di riscaldare

Page 6: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

La codifica digitale del testo

Le avventure di PinocchioCapitolo ICome andò che Maestro Ciliegia, falegname, trovò un pezzo di legno, che piangeva e rideva come un bambino.C'era una volta...- Un re! - diranno subito i miei piccoli lettori.- No, ragazzi, avete sbagliato. C'era una volta un pezzo di legno.Non era un legno di lusso, ma un semplice pezzo da catasta, di quelli che d'inverno si mettono nelle stufe e nei caminetti per accendere il fuoco e per riscaldare le stanze.Non so come andasse, ma il fatto gli è che un bel giorno questo pezzo di legno capitò nella bottega di un vecchio falegname, il quale aveva nome mastr'Antonio, se non che tutti lo chiamavano maestro Ciliegia, per via della punta del suo naso, che era sempre lustra e paonazza, come una ciliegia matura.

Il testo come sequenza di caratteri

Ciascun carattere alfanumerico, di punteggiatura o di controllo che compone il testo deve essere rappresentato nei termini di un codice binario

Page 7: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

La codifica digitale del testoIl testo come sequenza di caratteri “Surrogato” parziale del testo originario

completa equivalenza solo dal punto di vista dei caratteri che lo compongono

perdita di informazione l’informazione implicitamente veicolata dalla formattazione

del testo relativa a: le coordinate meta-testuali

il nome dell’autore, il titolo, ecc. la struttura e organizzazione testuale

la suddivisione logica in sezioni, capitoli, paragrafi, ecc.

nessun guadagno di informazione l’informazione sulla struttura linguistica rimane implicita e

nascosta (come nel testo originale)

Page 8: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

La codifica digitale del testo Due livelli di codifica del testo digitale

codifica di basso livello (codifica di livello 0) riguarda la rappresentazione binaria della

sequenza ordinata dei caratteri codifica di alto livello

arricchisce il testo codificato al livello zero con informazione relativa a dimensioni strutturali organizzazione del testo in strutture macrotestuali articolazione del testo in strutture linguistiche

La codifica di alto livello permette di rendere esplicita qualsiasi interpretazione, anche di tipo linguistico, si

voglia associare al testo

Page 9: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

La codifica di livello 0

Il testo come sequenza di caratteri

dietro le quinte…

Page 10: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

La codifica di livello 0caratteri e numeri

A carattere

65 codice (decimale) del carattere

0 1 0 0 0 0 0 1 codifica binaria del codice del carattere

I computer elaborano internamente solo sequenze di bits (0,1)

MAESTRO CILIEGIA

Page 11: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

Numeri e numeri

Sistema binario vengono usate due cifre (0 e 1) per rappresentare un numero problema: i numeri binari sono estremamente lunghi e difficili da ricordare

Sistema esadecimale ogni numero è rappresentato con 16 cifre (0-9, A-F) i numeri sono più corti di quelli binari estrema facilità di conversione tra binario ed esadecimale

in una sequenza binaria, ogni stringa di 4 bits corrisponde ad una cifra esadecimale 0110 1111 0110 numero binario (6) (15) (6) 6     F     6 numero esadecimale

numero

X

10

A

1010

rappresentazione di un numero

Page 12: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

Come sono rappresentati i caratteri nel computer?

Repertorio di caratteri un insieme di caratteri (es. “A”, “a”, “!”, “à”, “P”, ecc.) i caratteri sono entità astratte, da non confondersi con il modo in cui

sono realizzati graficamente (gliphs) “a”, “a”, “a”, “a” sono tutti lo stesso carattere “a” la stessa realizzazione grafica può corrispondere a caratteri diversi (es.

“A” latino e “A” cirillico e “A” greco)

Set di carattere (codice) una tabella che definisce una corrispondenza biunivoca (1-a-1) tra un

repertorio di caratteri e un insieme di numeri interi non negativi a ogni carattere è assegnato un codice numerico (punto di codice o code

position)

Codifica di carattere algoritmo che determina come i codici dei caratteri sono

rappresentati in sequenze di bits (bytes)

Page 13: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

Il codice ASCII Primo standard per l’assegnazione di codici a caratteri

(dal 1963) set di caratteri riconosciuto da tutti i computer conosciuto come “ASCII Standard” o ISO-646

Codifica 7 bits

ciascun punto di codice è rappresentato con il numero binario corrispondente di 7 bits

in realtà 1 byte = 8 bits di cui un bit non è usato per la codifica (bit di parità)

7 bits = 27 punti di codice = 128 caratteri rappresentati

Sufficiente per rappresentare l’inglese mancano i caratteri accentati, umlauts, ecc. per rappresentare

altri alfabeti occidentali

Page 14: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

ASCII Standarddecimale ed esadecimale

Page 15: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

Il set di caratteri ISO-Latin-1

ASCII Standard

Caratteri di controllo

0-32

128-159

ISO-Latin-1 (ISO-8859-1 o ASCII esteso) unica estensione standard di ASCII 1 byte = 8 bits = 28 punti di codice = 256 caratteri rappresentati sufficiente per lingue europee occidentali (italiano, francese, ecc.)

Page 16: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

La famiglia di caratteri ISO-8859 14 set di caratteri standardizzati da ISO (International

Standard Organization) Codifica

1 byte = 256 caratteri rappresentati da ciascun set Soprainsiemi dei caratteri ASCII Standard

punti di codice 0 - 127 (parte comune) ASCII punti di codice 128 - 159 codici di controllo (non corrispondono

a caratteri grafici) punti di codice 160 - 255 (parte variabile) caratteri aggiuntivi

per greco, cirillico, lingue slave, arabo, ebraico, ecc. I set di ISO-8859 sono tutti reciprocamente incompatibili

Punto di codice 232 ISO-8859-1 (Latin-1) = “è” ISO-8859-6 (Cyrillic) = “ш”

ISO-8859 non copre lingue come giapponese, cinese, ecc.

Page 17: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

La famiglia di caratteri ISO-8859

ISO-Latin-1

Page 18: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

The Universal Character SetUNICODE (ISO-10646) Standard internazionale che permette di rappresentare

qualsiasi tipo di carattere appartenente ai sistemi grafici esistenti lingue europee, asiatiche, arabo, ebraico, cirillico, ugaritico, ecc. basato su principi di composizione dinamica dei caratteri

ç = c + ¸

Assegna un numero di codice univoco ad ogni carattere “è” = 232 “ш” = 1096

Risolve i problemi di incompatibilità dei sistemi ISO-8859 estende l’insieme dei caratteri supportati permette la realizzazione di documenti multilingui

Unicode è un soprainsieme di ASCII http://www.unicode.org

Page 19: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

The Universal Character SetUNICODE (ISO-10646)

Circa 96.000 caratteri grafici rappresentati (Unicode v. 4.0) … ma i punti di codice disponibili sono più di 1 milione !!

Molteplici tipi di codifica: UCS-2, UCS-4, UTF-8, UTF-16, ecc. Codifica comune UTF-8

Page 20: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

The Universal Character SetUNICODE (ISO-10646)

Page 21: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

Caratteri e computer

Ab bkйd و٦من

ds kjdks kdsk

sybco oθδjpjp

Unicode ISO-Latin-1

1010011101

1000100100

1001010010

0110010100

Ab bkƛd ƛƛƛƛ

ds kjdks kdsk

sybco oƛƛjpjp

1010011101

1000100100

1001010010

0110010100

Page 22: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

Caratteri e computerRisoluzione dei problemi

Analisi dei caratteri nel testo individuare il set di caratteri con cui è scritto il documento:

ASCII Standard, Unicode, ISO-8859, ecc. individuare il set di caratteri accettati dal programma con cui si

deve elaborare il testo verificare l’eventuale esistenza di caratteri non-standard

editor esadecimale

Eventuale sostituzione dei caratteri sostituzione dei caratteri non appartenenti al set accettato dal

programma buona parte del sw. accetta solo ASCII attenzione alla perdita di informazione!!

è = e’ š s

Page 23: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

La codifica di alto livello: il punto di partenza

Il testo codificato al livello zero si presentacome un manoscritto in scriptio continua

Page 24: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

Trascrizione di un testo a partire da un manoscritto in scriptio continua

Codifica digitale di alto livello del testo

entrambe rendono esplicito ciò che è congetturale e implicito con lo scopo di guidare il lettore

(umano vs computer) nell’interpretazione del testo

Dietro all’analogia …

Page 25: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

La codifica di alto livello

compito della codifica di alto livello: “dare forma” alla sequenza dei caratteri del testo rendendo

esplicita l’informazione che è veicolata attraverso convenzioni tipografiche, testuali e linguistiche: informazioni sull’organizzazione del testo (parti, titoli,

paragrafi) la conoscenza linguistica necessaria per la comprensione del

testo (per es. la categoria grammaticale di ciascuna parola, o i costituenti sintattici in cui si articolano le frasi del testo)

più in generale ogni interpretazione che si voglia affiancare al dato testuale

tracciare “sentieri” di lettura all’interno del testo rendere machine readable informazioni sul testo e tratti del testo

che altrimenti non sarebbero elaborabili dal computer

Page 26: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

Perché codificare?I motivi della codifica di alto livello

Un testo come flusso di caratteri e parole è una fonte di dati linguistici

Il testo è un’entità altamente strutturata, nella quale i dati linguistici sono correlati secondo piani di organizzazione multipli struttura del testo

l’ articolazione in sezioni, capitoli, titoli, ecc. struttura del contesto

l’autore, la data di produzione, la finalità del testo, ecc. struttura linguistica (implicita nel testo!!)

informazioni morfologiche, sintattiche, semantiche

Page 27: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

Perché codificare dato vs informazione

La codifica di alto livello trasforma il dato testuale grezzo in fonte esplicita di informazione

(definizioni da un vocabolario della lingua italiana)

informazione: notizia, dato o elemento che consente di avere conoscenza più o meno esatta di fatti, situazioni, modi di essere.

dato: ciò che è immediatamente presente alla conoscenza, prima di ogni elaborazione; (in informatica) elementi di informazione costituiti da simboli che debbono essere elaborati

Page 28: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

Un’informazione è un dato strutturato... un esempio:

56100 su un foglio di carta è un dato e non significa molto

ma se il foglio di carta viene fornito in risposta alla domanda “qual è il cap di Pisa?” oppure “qual è il numero del conto bancario del sig. X?”, allora il dato può essere interpretato come fonte di informazione

Page 29: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

Esempio prototipico di dato strutturato

Page 30: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

Perché “dati strutturati“? le informazioni sono più volatili, i dati più stabili

I dati costituiscono una risorsa strategica, perché più stabili nel tempo di altre componenti (processi, tecnologie, ruoli umani):

ad esempio, i dati delle banche o delle anagrafi la storia della scienza è caratterizzata dal continuo

cambiamento di informazioni relative a dati relativamente stabili

la rappresentazione precisa di forme più complesse di informazione (concetti evoluti) non può prescindere dai dati

Page 31: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

Cosa codificare?I contenuti della codifica di alto livello

Individuare il livello di informazione da codificare strutturale, linguistica, ecc. la codifica esplicita di informazione linguistica viene detta annotazione

del testo morfologica, semantica, sintattica, ecc.

Definire il repertorio dei tratti giudicati rilevanti per la codifica un esempio: la codifica morfo-sintattica

oggetto: codificare esplicitamente la categoria grammaticale e le proprietà morfologiche delle parole di un testo

da definire: quali attributi codificare (cat. grammaticale, persona, genere, numero, caso,

ecc.) quali valori possono avere i diversi attributi (numero = SING, PLUR; caso =

NOM, GEN, ecc.)

Page 32: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

Cosa codificare?I contenuti della codifica di alto livello Schema di codifica

un repertorio di categorie per la codifica, corrispondenti alla tipologia dei tratti da rappresentare nel testo

generalmente espresso nella forma di attributi e dei loro possibili valori la definizione delle regole di compatibilità tra categorie

es. l’aggettivo non possiede un attributo di persona, o un nome quello di tempo

la specifica accurata dei criteri di applicazione al testo delle categorie selezionate

Schema di annotazione linguistica schema di codifica di informazione linguistica

Uno schema di codifica (annotazione) definisce il contenuto linguistico dell’annotazione, non il modo in cui la codifica

(annotazione) è proiettata sul testo

Page 33: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

Come codificare?I formati digitali del testo

Formato solo testo (plain text o txt) un file solo testo è costituito da una sequenza di bytes dove

ciascun byte rappresenta un carattere secondo un particolare codice

gli editori di testo sono programmi in grado di creare e leggere files di tipo solo testo

Emacs, Blocco Note, ecc. quando un editore di testo legge un file cerca di associare ogni

sequenza di bits a un carattere secondo un particolare codice Vantaggi

formato “aperto”, indipendente dal sistema operativo e dal programma che lo ha creato

massima portabilità e interscambiabilità dei testi Svantaggi

non può rappresentare aspetti relativi alla codifica di alto livello minima espressività

Page 34: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

Come codificare? I formati digitali del testo

Formati “proprietari” (doc, pdf, ecc.) possono essere creati, letti e interpretati solo da uno specifico

programma (es. Word, Adobe) oltre a sequenze di bits codificano caratteri, il file contiene

sequenze binarie che corrispondono a istruzioni di formattazione, codificate secondo le convenzioni di un certo programma

Vantaggi massima capacità espressiva e fruibilità per l’utente umano

rappresenta aspetti relativi alla codifica di alto livello ma solo per quanto riguarda la struttura testuale!!

Svantaggi formato “chiuso”, con minima portabilità e interscambiabilità codifica non per categorie testuali “astratte”, ma per modalità di

visualizzazione le informazioni linguistiche rimangono comunque implicite nel testo

Page 35: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

Formati dati proprietari Word Processor

MS Word, Word Perfect, Wordstar, XY Write, etc. Tutti differenti, rapida obsolescenza, decente compatibilità verso il passato

Desktop Publishing PageMaker, FrameMaker, Quark XPress, Ventura Publisher, etc. Tutti differenti, tutti estremamente specializzati, rapidissima obsolescenza,

nessuna compatibilità col passato DBMS

Oracle, MS Access, MS SQLserver, IBM DB2, etc. Estremamente orientati all'efficienza, opacissimi, decente obsolescenza, buona

compatibilità col passato Presentazione

Postscript, PDF, ma anche Flash, Shockwave Opachi, specializzati, complessi. Compatibilità col passato?

Page 36: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

Formati binari del testo Un formato binario è la memorizzazione esatta delle strutture in memoria

dell'applicazione, che niente hanno a che vedere con le esigenze di comprensione di esseri umani. Il testo non è visibile o è visibile per caso.

Page 37: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

Formati binari del testo Un formato binario è la memorizzazione esatta delle strutture in memoria

dell'applicazione, che niente hanno a che vedere con le esigenze di comprensione di esseri umani. Il testo non è visibile o è visibile per caso.

Page 38: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

Formati binari del testo Un formato binario è la memorizzazione esatta delle strutture in memoria

dell'applicazione, che niente hanno a che vedere con le esigenze di comprensione di esseri umani. Il testo non è visibile o è visibile per caso.

Page 39: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

Come codificare?Una possibile alternativa: i linguaggi di marcatura

Codifica di alto livello con linguaggi di mark-up (linguaggi di marcatura) dal punto di vista del formato digitale un testo codificato con un

linguaggio di marcatura è in formato solo testo l’informazione strutturale è rappresentata attraverso l’aggiunta al

testo di etichette (o tag) di marcatura sequenze di caratteri visibili secondo una convenzione standard,

intercalati nel testo seguendo precise regole di combinazione “marcano” blocchi di testo a cui viene assegnata una determinata

interpretazione Vantaggi

portabilità e interscambiabilità dei testi codificati massimo grado di espressività

è possibile esprimere tuttti gli aspetti della codifica di alto livello, compresa l’informazione linguistica

Page 40: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

Come codificare? I linguaggi di marcatura

<libro><titolo>Le avventure di Pinocchio<sottotitolo>Storia di un burattino</sottotitolo></titolo><autore>Carlo Collodi</autore><parte p_id=”1”><titolo>Parte prima</titolo><capitolo c_id=”I”><titolo> Come andò che maestro Ciliegia, falegname, trovò un pezzo di legno, che piangeva e rideva come un bambino.</titolo><capoverso num=”p1c1c1”>C'era una volta...</capoverso><capoverso num=”p1c1c2”>- Un re! - diranno subito i miei piccoli lettori.</capoverso><capoverso num=”p1c1c3”>No, ragazzi, avete sbagliato. C'era una volta un pezzo di legno.</capoverso><capoverso num=”p1c1c4”>Non era un legno di lusso, ma un semplice pezzo da catasta, di quelli che d'inverno si mettono nelle stufe e nei caminetti per accendere il fuoco e per riscaldare le stanze.</capoverso> </capitolo></parte></libro>

mark-up per la codifica di informazione strutturale

Page 41: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

Come codificare? I linguaggi di marcatura

<libro>…<parte><capitolo c_id=”I”><titolo>Come <parola cat=“V” tempo=“passRem”>andò</parola> che <parola cat=“N” genere=“m” num=“s”>maestro</parola> Ciliegia, falegname, trovò <sintagma tipo=”nominale”><parola cat=“artInd” genere=m” num=“s”>un</parola> pezzo di legno</sintagma>, che piangeva e rideva come un bambino.</titolo></capitolo></parte></libro>

mark-up per la codifica di informazione strutturale

mark-up per la codifica di informazione linguistica

+

Page 42: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

Tipi di marcatura del testo

marcatura procedurale (detta anche marcatura tipografica) che consiste in una serie di istruzioni operative che forniscono le specifiche di formattazione e impaginazione del testo per la visualizzazione e la stampa (es. RTF, TeX)

marcatura dichiarativa (detta anche marcatura logica o descrittiva) dove i codici di marcatura indicano la funzione assolta dal blocco di testo a cui si riferiscono, ad esempio titolo, paragrafo, nota, citazione ecc. senza fornire indicazione di come tali elementi del testo dovranno apparire fisicamente sulla pagina o sul video (es. SGML, XML)

Page 43: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

Un linguaggio di marcatura procedurale: RTF

Page 44: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

Un linguaggio di marcatura dichiarativa: XML

Page 45: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

Marcatura procedurale basata sull’aspetto

ad ogni elemento del documento viene associata la procedura per visualizzarlo in maniera voluta: font, dimensione, corsivi, grassetti, margini, interlinea, ecc.

dipendente dal sistema ogni sistema di visualizzazione impone le proprie regole e la propria

sintassi associata agli individui

ogni elemento possiede le proprie procedure per la visualizzazione, che possono anche essere tutte diverse anche per elementi dello stesso tipo.

non contestuale le regole di visualizzazione non dipendono dal contesto in cui vengono

fatte, ma ognuna fa specie a sé non è possibile porre vincoli sulla "correttezza" di un documento.

Page 46: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

Marcatura dichiarativa

basata sul ruolo di ogni elemento viene descritto il ruolo all’interno del testo, più che le

regole per la sua visualizzazione indipendente dal sistema

poiché il markup descrittivo assegna ruoli (e non regole di visualizzazione) agli elementi del testo, questi sono intrinseci agli elementi stessi, e non alle funzionalità disponibili nel sistema di visualizzazione

contestuale con il markup descrittivo è possibile definire delle regole che

permettano o impediscano l’assegnazione di un ruolo ad un elemento del testo a seconda del contesto

è possibile specificare regole di correttezza sui documenti, ad esempio che ad un'immagine segua necessariamente una didascalia, ecc.

Page 47: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Lenci, Montemagni, Pirrelli

Testo e computer – Carocci 2005

Marcatura dichiarativa: vantaggi facilità nella creazione: l’autore si concentra sul ruolo

organizzativo delle singole parti di testo, piuttosto che sul loro aspetto stampato

indipendenza dalla formattazione: riformattare un documento secondo nuove regole richiede semplicemente di ricodificare dei parametri esterni, non di modificare in alcuna maniera il testo codificato

flessibilità: riusare un testo codificato in un nuovo contesto è facile, perché non è necessario rimuovere la vecchia informazione per far posto alla nuova

visioni di documenti dinamicamente riconfigurabili: è possibile selezionare viste diverse dello stesso documento