Lindicizzazione semantica Una introduzione di Lucia Sardo Venezia, 24 novembre 2008.

Post on 01-May-2015

215 views 0 download

Transcript of Lindicizzazione semantica Una introduzione di Lucia Sardo Venezia, 24 novembre 2008.

L’indicizzazione semanticaL’indicizzazione semanticaUna introduzioneUna introduzione

di Lucia Sardodi Lucia SardoVenezia, 24 novembre 2008Venezia, 24 novembre 2008

Soggetto

Che cosa è il soggetto?

Indicizzazione

tecnica per costruire accessi attraverso il contenuto semantico di documenti

Comprende:1. Processo di analisi concettuale del

documento (per individuarne il contenuto semantico)

2. Traduzione del contenuto informazionale nel linguaggio di un sistema di

indicizzazione

Sistema di indicizzazione

Insieme delle procedure per l’organizzazionee la rappresentazione del contenuto dei

documenti finalizzata al recupero

ANALISI CONCETTUALE

Funzione di identificare il contenuto informazionale di un documento

3 aspettia. analisi del documento in sé b. analisi in relazione alla collezionec. analisi relativa al piano tecnico (p.e. Scelta tra indicizzazione approfondita o sommarizzazione)

Aboutness: proprietà di un discorso o documento di trattare un tema, di essere about

un certo argomento. Si definisce come rapporto esistente tra il tema

di un documento e un tema teoricamente definito che funzione come riferimento esterno

al documento.Serrai: circalità

Identificazione del contenuto di un documento:

stabilire la relazione esistente tra il discorso del documento intorno a un concetto e il concetto

teoricamente definito come una parte della conoscenza generale.

Literary Warrant (garanzia bibliografica): l’analisi concettuale e l’indicizzazione devono essere basate sul materiale a disposizione piuttosto che su considerazioni astratte

Analisi per faccette - Ranganathan

Propone:1. Procedimento di analisi: scomposizione del soggetto nelle parti che lo compongono2. Procedimento di sintesi: sintesi di queste parti per rappresentare il contenuto del documento

Procedimento di analisi: 5 categorie fondamentali di concetti:•Personalità: faccetta primaria: oggetti, tipi di oggetti, tipi di azioni•Materia•Energia: azione; morfologia, funzione, etc.•Spazio•Tempo

Soggetto: consiste di una classe base e di uno o più aspetti che si possono ricondurre alle cinque categorie fondamentali

Ordine fisso di riorganizzazione degli elementi ottenuti attraverso l’analisi; ordine decrescente di concretezza: PMEST

ISO 5963: Methods for examining documents, determining their subject and selecting indexing terms

Prevede 3 stadi nel processo di indicizzazione:1. Esame del documento e determinazione del suo soggetto2. Identificazione dei concetti principali presenti nel soggetto3. Traduzione dei concetti selezionati nei termini di un linguaggio di indicizzazione

Linguaggi di indicizzazione

Linguaggio di indicizzazione

Insieme di termini ammessi per descrivere il contenuto dei documenti, e insieme di regole che stabiliscono come i termini debbano essere usati, e in che relazione con ogni altro termine.

Linguaggio per la rappresentazione del contenuto semantico dei documenti allo scopo di renderne possibile il recupero

Linguaggi alfabetici che usano i termini della lingua naturale Linguaggi alfabetici controllati (thesauri, soggettari) Schemi di classificazione

In base alle procedure seguite per la determinazione dei descrittori da usare per esprimere il contenuto dei documenti abbiamo linguaggi che usano termini:1. Assegnati2. Derivati

Indicizzazione per termini derivati

Indicizzazione per catchwordKWICKWACKWOK

Citation indexing

Indicizzazione per termini assegnati

Termini del linguaggio naturaleNotazioni numeriche o alfanumeriche di linguaggi artificiali

Linguaggio controllato:insieme prefissato di termini e/o voci di indice che possono essere assegnati ai documenti, isolatamente, in combinazione o attraverso una sintassi.

Può essere:chiusoaperto

Termini accolti: descrittori o termini preferitiTermini non accolti: non descrittori o termini non preferiti

Insieme costituiscono il vocabolario di accesso

In un linguaggio controllato sono generalmente indicate le più importanti relazioni fra un dato termine preferito e altri

Linguaggi:

precoordinati: le voci di indice possono coinvolgere più concetti distinti che nel loro complesso sintetizzano il tema di un documento. Presuppongono una componente sintattica, formalizzata o ricalcata su quella del linguaggio naturale, che regoli la formazione delle voci

postcoordinati: costituito da descrittori di norma semplici, che si riferiscono a singoli concetti e che non vengono legati tra loro.

Linguaggi:

enumerativi: elencano tutti i termini o combinazioni di termini che vanno usati per descrivere il soggetto di un documento e non consentono altre combinazioni se non quelle già previste

sintetici: elencano i termini che vanno usati, fornendo una serie di regole per la loro combinazione

3 qualità caratteristiche dell’indicizzazione assegnata:

predittività

accessibilità

coerenza

Thesauri

Strumenti più sofisticati delle liste di soggetti

Differenze liste di soggetti - thesauri:1. Tipo di termini2. Tipi di relazioni espresse3. Modo in cui vengono espresse le relazioni

ISO 2788: direttiva per la costruzione di thesauri monolingua

Relazioni semantiche

Esercitano il controllo dei sinonimi, dei quasi sinonimi, della forma dei termini e provvedono al raggruppamento gerarchico e al raggruppamento per associazione e affinità dei termini

3 tipi di relazioni:

a - equivalenza o preferenzialib - gerarchichec - associative o di affinità

Ordine di citazione

Problemi dell’ordine di citazione nei sistemi precoordinati:• ordine scelto può non rispondere alle esigenze di tutti i lettori• insiti nel tentativo di rappresentazione lineare di una realtà multidimensionale

ScopiScopi

informa dell’esistenza di opere possedute dalla biblioteca che trattano di un determinato argomento

informa dell’esistenza di opere possedute dalla biblioteca che trattano di argomenti affini al soggetto ricercato

Il catalogo per soggetto persegue due scopi

L’indicizzazione per soggetto raggiunge i suoi fini quando organizza la struttura sindetica, costruisce la rete di collegamenti fra voci di soggetto più generali e più specifiche, e fra voci di soggetto affini.

L’indicizzazione per soggetto si basa su due principi

Principi

principio di struttura

principio di formulazione

Traduzione nel linguaggio documentario del soggetto individuato con l’analisi concettuale

Principio di formulazione

si suddivide in

principio della specificità

principio dell’uso linguistico

Creazione di un’impalcatura razionale, costituita da legami e rinvii reciproci dei descrittori

Principio di struttura

principio della correlazione

si suddivide in

principio dell’unità e dell’uniformità

Principio di formulazione

La voce di soggetto viene formulata in modo specifico e con la terminologia linguistica di uso corrente

Il principio della specificità caratterizza l’indicizzazione semantica da Cutter in poi; esso stabilisce che a ogni soggetto corrisponde esattamente un termine linguistico specifico e univoco. Il descrittore esprime esattamente l’ambito semantico. La voce animali domestici non è coestesa alla voce animali come pure la voce gatto non è coestesa alla voce animali domestici o felini

Quando un documento è politopico la voce copre semanticamente tutti o il maggior numero possibile dei soggetti: un’opera che tratta del gatto, della tigre, del leone, della pantera ha come indice felini, seppure non tratti di tutti i felini, non tanti indici quanti sono i soggetti analizzati

Il principio dell’uso linguistico riguarda l’uso della terminologia corrente nella formulazione della voce di soggetto. Esso prescrive l’aderenza più stretta possibile ai termini in uso nel sistema linguistico del paese in cui l’agenzia catalografica opera. Il descrittore è espresso nei termini del linguaggio naturale

Conseguenze del principio dell’uso linguistico corrente sono:

l’adozione di nuove espressioni dovute al corso della storia e al progresso scientifico, tecnologico, sociale e culturale

la sostituzione di termini e di espressioni desuete nell’uso corrente (p.e., da fanciulli a ragazzi)

l’adozione di termini o di espressioni dirette, termini e espressioni adoperate in passato per indicare un concetto dipendente da un altro e che ora ha acquistato autonomia per l’evolversi e il definirsi della disciplina (p.e., da Relatività-Teoria a Teoria della relatività)

l’adozione di termini e di espressioni in lingue straniere, quando non esista il corrispettivo in italiano e quando esse siano entrate nell’uso corrente (p.e., Robot, Compact disc, Computer)

l’uso della grafia corrente, con l’abbandono di quella arcaica o non più utilizzata comunemente (p.e., da Giuochi a Giochi)

la distinzione fra la terminologia scientifica e la terminologia corrente (p.e., Homo Pechinensis, anziché Uomo per un’opera che tratta del cranio dell’Homo Pechinensis)

Principio di struttura

L’architettura dell’organizzazione catalografica per soggetto si basa sulla struttura sindetica

Il principio dell’unità e dell’uniformità stabilisce di usare la stessa voce per tutti i documenti che trattano del medesimo soggetto (a soggetti uguali corrispondono voci di soggetto uguali)

Possono verificarsi errori di discordanza di due tipi

un comportamento dissimile da parte di catalogatori diversi

un comportamento dissimile da parte dello stesso catalogatore in tempi diversi

La registrazione delle scelte compiute e la ricerca dei precedenti (altre edizioni della stessa opera, opere di argomento simile catalogate in passato) possono contribuire ad assicurare coerenza (ma revisioni e bonifiche periodiche sono sempre necessarie)

Il principio di correlazione prescrive di mettere in relazione ogni voce con altre voci che designano concetti correlati e affini. Ciascuna voce fa parte di una famiglia di voci. Ad esempio Cereali è legata a descrittori di valore affine o più ampio (p.e., Piante alimentari) e più specifico (p.e., Grano, Avena, Orzo)

La correlazione è in senso verticale e orizzontale: dal generale al particolare e viceversa o, con linguaggio cutteriano, in senso discendente e ascendente

L’intestazione per soggetto secondo il Soggettario

1925: la BNCF inizia a corredare con la voce di soggetto le registrazioni del “Bollettino delle pubblicazioni italiane ricevute per diritto di stampa”

Da quella esperienza e dallo studio delle LCSH e di altre liste di voci di soggetto i bibliotecari della BNCF cominciano a elaborare dal 1936 un vocabolario controllato di termini, pubblicato nel 1956

Il termine Soggettario viene appositamente coniato per dare un titolo a questa lista di voci, il cui scopo principale – scrive Anita Mondolfo nella Prefazione – è fornire ai catalogatori “una guida, che [...salvi] dalle molteplici visioni personali”

indica i tipi di voci che si possono usare, non le voci che si debbono usare. È possibile formulare nuove voci nel rispetto della sua filosofia (ma è preferibile che siano agenzie autorevoli a farlo)

Soggettario

lista aperta di termini di riferimento per la costruzione del catalogo per soggetto, non è l’elenco dei soli termini da usare

Il Soggettario contiene circa 23.000 voci, 100.000 rimandi e 10.000 suddivisioni, alle quali vanno aggiunte alcune migliaia di voci e di suddivisioni introdotte con gli aggiornamentiHa tre appendici: Suddivisioni dei soggetti geograficiSuddivisioni dei soggetti biograficiSuddivisioni formali

La BNI, dal 1958 in poi, ha modificato o sostituito termini desueti nel linguaggio comune e ne ha inseriti di nuovi, e ha curato la pubblicazione di quattro Liste di aggiornamenti nel 1977, 1982, 1988, 1997; le prime tre presentano un elenco di termini, senza la struttura sindetica.Voci di soggetto. Aggiornamento 1986-1996 del 1997 introduce un apparato sindetico nuovo (applica parzialmente ISO 2788)

Il Soggettario (con i suoi aggiornamenti) è, quindi, una lunghissima serie esemplificativa di termini a cui occorre attenersi per la scelta delle voci o, meglio, per la scelta della forma delle voci di soggetto, per l’aspetto formale del descrittore.

Morfologia

Il Soggettario si articola in soggetti principalisoggetti secondari (o suddivisioni)rinviirichiamirimandi daI richiami e i rimandi da collocano ciascun termine in un sistema di coordinate

Alcuni descrittori hanno note di orientamento, in corsivo, che precisano il valore del termine

I soggetti principali sono contraddistinti da un corpo in carattere neretto

Le suddivisioni non sono utilizzate da sole, ma sempre unite, da una lineetta, al termine che precede

I rinvii rinviano da una formula possibile di un soggetto, che non è stata impiegata, alla voce standard (p.e., Badie v. Abbazie)

I richiami hanno la funzione di agevolare la scelta della voce; collegano le singole voci con altre ad esse subordinate o accessorie (p.e., Disarmo v.a. Sicurezza internazionale)affini (p.e., Contratti statali v.a. Contratti di diritto pubblico) contrapposte (p.e., Bene v.a. Male)

Vi sono richiami specifici (p.e., Navigazione v.a. Canali maritttimi) e richiami esemplificativi (p.e., Stato ... anche le diverse forme di Stato, es. Comuni; Monarchia; Repubblica), introdotti dalla sigla v.a. (vedi anche) e talvolta preceduti da una nota di orientamento, in corsivo; la correlazione fra i termini è parte essenziale della struttura sindetica

I rimandi da rappresentano l’esatta antitesi dei rinvii e dei richiami

I rinvii da indicano da quali voci è stato fatto rinvio (p.e., Arte *Arti figurative; Belle arti); la voce non preferita è preceduta da un asterisco

I richiami da indicano da quali voci è fatto ad essa richiamo (p.e., Gnoseologia **Conoscenza; Filosofia; Scienze; naturalmente sotto Filosofia e Scienze vi sarà il richiamo da Gnoseologia); la voce correlata è preceduta da due asterischi o da due asterischi e dall’abbreviazione es. che introduce una esemplificazione

Le intestazioni per soggetto sono costituite da

soggetti comunisoggetti formalisoggetti geograficisoggetti biograficisoggetti relativi alle opere anonimesoggetti relativi a entisoggetti relativi a eventi storicisoggetti relativi a malattie

Tipologia delle voci

Le voci formulate al plurale esprimono concetti trattati collettivamente, quali i prodotti delle arti (p.e., Affreschi, Mobili), i nomi di classi di persone, di attività e di mestieri (p.e., Artigiani; Medici) o voci che si riferiscono a forme letterarie e bibliografiche (p.e., Romanzi, Cataloghi) e a nomi di enti e istituti (p.e., Biblioteche, Scuole medie)

Esistono anche termini formulati al singolare e al plurale, ovviamente con significato diverso: Affresco indica la tecnica dell’affresco, Affreschi il soggetto comune; Moneta si riferisce all’uso che se ne fa in economia, Monete al collezionismo di monete come oggetti (numismatica)

Il soggetto comune è costituito da

• un sostantivo, un nome comune (p.e., Cavalli, Musica, Piante, Seta); la voce può essere accompagnata da una specificazione, posta entro parentesi tonde, con la funzione di distinguere due omografi, p.e., Marte (Pianeta) da Marte dio della guerra, oppure la funzione di precisare il significato del termine, p.e., Colomba (Simbolo); la specificazione è attribuita al termine meno comune

• un sostantivo accompagnato da un aggettivo (p.e., Letteratura italiana, Scuole materne) o da un complemento (p.e., Piante da cellulosa, Festa degli alberi) che ne determinano il valore

• una formulazione di uso comune (p.e., Debito estero, Libero arbitrio

• due termini uniti dalla congiunzione “e”; la voce indica un rapporto tra due argomenti analizzati in relazione o in contrapposizione (p.e., Chiesa e Stato, Famiglia e scuola), oppure due concetti che di solito sono analizzati insieme (Domanda e offerta, Usi e costumi); in testa alla stringa è il termine che tradizionalmente è citato per primo; l’espressione inversa rinvia alla forma preferita

Le voci di soggetto formali descrivono la categoria alla quale appartiene il documento, non il suo contenuto, (in questo senso sono voci di soggetto improprie) e sono seguite da una suddivisione (p.e., Periodici-Catalogazione)

I soggetti geografici sono voci costituite da termini che designano unità geografiche (p.e., Alpi, Mare Adriatico, Roma). I nomi di luoghi stranieri sono espressi nella forma originale in assenza della forma italiana (p.e., Amsterdam) e in presenza di una forma italiana desueta (p.e., New York, non Nuova York)

Le voci di soggetto geografiche possono essere

• accompagnate da una qualificazione, entro parentesi tonda, che ne delimita l’ambito (p.e., Napoli (Comune), Napoli (Provincia))

• seguite da un aggettivo che designa una parte dell’unità geografica più vasta (p.e., America latina, Italia meridionale)

• formulate con termini che non corrispondono a nessuna unità geografica, ma che, tuttavia, hanno acquisito un valore preciso nell’uso corrente (p.e., Estremo Oriente, Paesi baltici)

• formulate con termini che indicano unità geografiche che nel tempo hanno mutato nome ed estensione: Gallia non corrisponde a Francia

I soggetti biografici riguardano persone reali, mitologiche e immaginarie (p.e., Manzoni Alessandro, Caterina da Siena, Zeus, Omero, Parsifal) e sono formulati in italiano, per gli scopi divulgativi caratteristici del catalogo per soggetto

In particolare

• i nomi degli autori del periodo classico greco e latino (p.e., Virgilio, non Vergilius)• i nomi degli autori del Medioevo e del Rinascimento (p.e., Erasmo da Rotterdam)

•i nomi dei santi italiani e di altre aree linguistiche, quando la forma italiana è usata tradizionalmente (p.e., Vincenzo de’ Paoli, Antonio di Padova)

• i nomi dei sovrani non italiani, quando esiste una forma italiana (p.e., Napoleone I), e i nomi dei papi; i nomi delle case regnanti e delle dinastie sono accompagnati dalle rispettive specificazioni, entro parentesi tonde (p.e., Carolingi (Dinastia))

Le voci biografiche possono essere unite ad altre voci biografiche dalla congiunzione “e” per indicare una relazione fra due personaggi; in prima posizione è il nome dell’autore che ha subito un influsso o quello che precede nell’ordine alfabetico (p.e., Giotto e Cimabue, Leonardo da Vinci e Zenale)

Soggetti relativi alle opere anonime sono costituiti dai titoli con cui sono tradizionalmente conosciute le opere anonime (p.e., Bibbia, Chanson de Roland, Corano)

Soggetti relativi a enti (associazioni, accademie, ordini religiosi, ...) sono costituiti dal nome dell’ente (p.e., Centro di studi sul Rinascimento), spesso espresso nella forma breve (p.e., Francescani)

Soggetti relativi a eventi storici e malattie. Il Soggettario propone la costruzione di una stringa che inizia con il nome del luogo in cui si è svolta la battaglia, seguito dal segno di virgola, dalla specificazione battaglia di, dal segno di virgola e dall’indicazione cronologica (p.e., Canne, battaglia di, 216 a.C.)

La formulazione non è mai stata adottata dalla BNI, la quale preferisce la voce diretta, nel rispetto del principio dell’uso linguistico: Battaglia di Canne, 216 a.C., Battaglia di Campaldino, 1289, Battaglia di Anghiari, 1440). Stesso comportamento per i nomi delle malattie, p.e., Morbo di Parkinson, Sindrome di Stoccolma, Sindrome di Stendhal)

Un commento su un’opera di un autore ha come voce di soggetto il nome dell’autore, segno di punto e titolo dell’opera (p.e., Manzoni Alessandro. I promessi sposi; Buonarroti Michelangelo. La Pietà)

Suddivisioni

Il Soggettario ricorre all’apporto di una suddivisione per circoscrivere la capacità informativa di un termine il cui significato non coincide semanticamente con l’argomento trattato dal documento, per esprimere più compiutamente l’argomento evidenziato dalla voce principale

Le suddivisioni sono categorizzabili in varie tipologie

• suddivisioni generiche (p.e., – Storia);• suddivisioni formali (p.e., – Periodici; – Dizionari)• suddivisioni geografiche (p.e., – Italia) che determinano spazialmente il soggetto

• suddivisioni di voci geografiche. Quando l’argomento è di per sé vasto il Soggettario preferisce il termine geografico in prima posizione della stringa. Un’opera sulle condizioni economiche sociali, politiche e culturali, sulla civiltà e sulla storia complessiva di una città, di una nazione, di un territorio ha come soggetto la città, la nazione, il territorio (p.e., Italia – Economia; Italia)

• suddivisioni delle voci biografiche (p.e., Garibaldi Giuseppe – Cimeli)• suddivisioni cronologiche (p.e., – Sec. 19.; – 1945-1983) che delimitano il soggetto nel tempo

Il Soggettario non ha un ordine di combinazione fissato da regole. Ciò provoca costruzioni talora disomogenee. È tuttavia invalsa una certa consuetudine a ordinare gli elementi di una stringa seguendo la struttura delle faccette base della Colon Classification di Ranganathan, riassunte nell’acronimo PMEST, Personalità, Materia, Energia, Spazio, Tempo

La Personalità è l’entità, la Materia sono i metodi, i materiali e le

proprietà, l’Energia sono i processi, le operazioni,

lo Spazio e il Tempo sono la rappresentazione del soggetto in un luogo

e in un periodo

Ordinamento

L’ordinamento delle voci è alfabetico, parola per parola secondo la successione delle lettere dell’alfabeto italiano, in base alla prima parola che non sia un articolo. Se il primo termine è il medesimo per più soggetti, l’ordinamento è stabilito dalla seconda parola, e così di seguito

Le suddivisioni hanno un ordinamento secondo criteri formali o, nel caso di Arte, addirittura sistematico per una ricerca più agevole dei soggetti. Le suddivisioni geografiche precedono le suddivisioni generiche e formali; le suddivisioni cronologiche seguono sempre la voce – Storia

L’ordinamento è applicato anche alle suddivisioni delle suddivisioni. Una riga bianca segnala la fine della serie esemplificativa geografica dall’inizio della serie delle suddivisioni generiche e formali. Un ordinamento analogo può applicarsi anche ad altre serie di soggetti che appartengono a una medesima classe (cfr. Soggettario, p. XXVI-XXVIII)

Arte– America– Francia, etc.

– Bibliografia– Cataloghi– Collezioni– Conferenze, etc.– Storia

– Antichità– Sec. II-VII (la BNI usa attualmente i numeri arabi, ndr)– Sec. X-XII– Sec. XII-XIII– Sec. XVII-XIX– Sec. XIX

Anche le voci biografiche hanno un ordinamento parzialmente sistematico. Le suddivisioni propriamente biografiche sono ordinate alfabeticamente, ad esse seguono le suddivisioni relative alle opere (p.e., – Opere latine, – Opere poetiche, – Opere storiche), quindi il titolo delle singole opere (cfr. le voci Alighieri Dante, Carducci Giosue, Cesare Caio Giulio, Manzoni Alessandro). L’inizio di una nuova serie alfabetica all’interno della voce biografica è avvertito da tre asterischi disposti a forma di triangolo

La formulazione del soggetto è in stretta relazione con la tipologia del pubblico e

della raccolta. Importanti sistemi di catalogazione partecipata non prevedono

l’indicizzazione per soggetto e lasciano alle biblioteche aderenti ogni decisione in merito

Il catalogo per soggetto, di norma, non indicizza gli almanacchi, gli annuari, le enciclopedie e i periodici generali, le opere letterarie e artistiche, le opere filosofiche, i codici di leggi, i documenti dottrinali e liturgici di una chiesa, perché sono opere che non presentano un argomento definito o, pur avendolo, non vengono usualmente ricercate per il loro soggetto

Il Nuovo Soggettario

Lo studio di fattibilità sul rinnovamento del Soggettario è iniziato nel mese di settembre del 2000 e si è concluso nel giugno del 2002.

Lo studio ha indicato i principi e le caratteristiche del nuovo linguaggio di indicizzazione; ha definito le modalità per raggiungere obiettivi realizzabili e soluzioni economicamente sostenibili; ha elaborato un piano a breve e medio termine, un avanzamento per tappe; ha stimato la spesa relativa alle risorse umane e tecnologiche necessarie all’effettiva realizzazione del progetto.

I lavori del Prototipo sono iniziati nel novembre 2004.

2006: Pubblicata la Guida e reso pubblico il Prototipo