INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

44
INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI

Transcript of INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

Page 1: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

INFORMATICA UMANISTICA B

INFORMAZIONE NON STRUTTURATA:

ARCHIVI DI TESTI

ARCHIVI DI IMMAGINI

Page 2: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

CONTENUTI DI QUESTA LEZIONE

Informazione non strutturata Archivi di testi e Information retrieval Il modello vettoriale di ricerca informazioni Espressioni regolari Archivi di immagini ed image retrieval

Page 3: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

INFORMATICA ED ARCHIVI

Una delle funzioni principali dell’informatica e’ la creazione ed utilizzo di archivi elettronici: Di testi Di immagini

Questi archivi contengono informazione NON STRUTTURATA nel senso che non e’ organizzata secondo un modello concettuale predefinito, a differenza delle basi di dati

Page 4: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

ARCHIVI ELETTRONICI Collezioni di testi:

Articoli scientifici: e.g., ACL Archive http://ucrel.lancs.ac.uk/acl/

Libri: Project Gutenberg: http://www.gutenberg.org/ LiberLiber: http://www.liberliber.it/ Google Books: http://books.google.it/

Collezioni di documenti storici Il Web (da cercare via Google)

Collezioni di immagini: http://www.iccrom.org/eng/lib/photo.htm Il Web (da cercare via Google Image)

Page 5: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

5

DATI NON STRUTTURATI (TESTI) E STRUTTURATI (DB) NEL 1996

0

20

40

60

80

100

120

140

160

Data volume Market Cap

UnstructuredStructured

Lucido di Hinrich Schuetze

Page 6: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

6

DATI NON STRUTTURATI (TESTI) E STRUTTURATI (DB) NEL 2006

0

20

40

60

80

100

120

140

160

Data volume Market Cap

UnstructuredStructured

Lucido di Hinrich Schuetze

Page 7: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

ALCUNI USI DI QUESTI ARCHIVI

Per chi fa ricerca: facilitano la DISTRIBUZIONE di documenti e/o articoli

Facilitano anche la RICERCA di documenti rilevanti

Permettono di condurre analisi Dell’uso del linguaggio (analisi linguistica /

letteraria / storica) Storiche / filosofiche / etc.

Page 8: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

RICERCA DI TESTI: RUDIMENTI DI INFORMATION RETRIEVAL

Information retrieval e’ il nome dell’area dell’Informatica che si occupa del ritrovamento di documenti

Idea fondamentale: estrarre automaticamente dai testi informazioni (INDICI) che ne permettano il ritrovamento

Richiede metodi per INDICIZZARE i documenti Analizzare la ‘query’ Cercare i documenti piu’ rilevanti alla query

Page 9: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

DOCUMENTI COME INSIEME DI PAROLE

broad tech stock rally may signal trend - traders.

technology stocks rallied on tuesday, with gains scored broadly across many sectors, amid what some traders called a recovery from recent doldrums.

broadmay rallyralliedsignal stockstocks techtechnology traderstraders trend

DOCUMENTINDEX

Page 10: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

RICERCA DI ARCHIVI TESTUALI: GOOGLE

Il Web e’ un enorme archivio elettronico che contiene sia documenti quanto informazioni di ogni tipo

Usato estesamente nelle aree umanistiche per facilitare l’accesso a documenti

I motori di ricerca come Google permettono di ritrovare documenti rilevanti usando PAROLE CHIAVE (KEYWORDS)

Page 11: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

RICERCA AVANZATA IN GOOGLE

Immagini digitali

“immagini digitali”

albergo Trento OR Rovereto

Page 12: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

RICERCA AVANZATA IN GOOGLE: OR

albergo Trento OR Rovereto

Page 13: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

RICERCA AVANZATA IN GOOGLE: -

albergo Trento OR Rovereto –”Hotel Verona”

Page 14: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

RICERCA AVANZATA IN GOOGLE

Enrico Salerno

+la morte +e +la fanciulla

Enrico * Salerno

Page 15: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

ESPRESSIONI REGOLARI

Le espressioni per la ricerca avanzata in Google sono una versione semplificata di un linguaggio per la ricerca chiamato ESPRESSIONI REGOLARI

Le espressioni regolari sono alla base delle capacita’ di analisi dei testi in linguaggi di programmazione come Java o Perl (e nel motore di ricerca Google)

Page 16: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

ESPRESSIONI REGOLARI

/agnolotti|ravioli/

/a[b|bb]ecedario/

/ab+ecedario/

Page 17: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

ESPRESSIONI REGOLARI

/[0-9]+/

\d, \w, \s

/[^246]/

Page 18: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

USI DI ESPRESSIONI REGOLARI: TROVARE GLI INDIRIZZI DI POSTA ELETTRONICA

[email protected], [email protected], [email protected]

Ma non: asmith, @mactech.com, a@a

^([a-zA-Z0-9_\-\.]+)@((\[[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.)|(([a-zA-Z0-9\-]+\.)+))([a-zA-Z]{2,4}|[0-9]{1,3})(\]?)$

Page 19: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

INDICI E RITROVAMENTO

1 if play contains word, 0 otherwise

Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth

Antony 1 1 0 0 0 1

Brutus 1 1 0 1 0 0

Caesar 1 1 0 1 1 1

Calpurnia 0 1 0 0 0 0

Cleopatra 1 0 0 0 0 0

mercy 1 0 1 1 1 1

worser 1 0 1 1 1 0

Brutus AND Caesar but NOT Calpurnia

Page 20: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

SOMIGLIANZA IN UNO SPAZIO VETTORIALE

kj

kj

qd

qd *cos

θ

dj

qk

N

i ij

N

i ik

N

iijik

jk

ww

wwdqsim

1

2,1

2,

1,,

,

Page 21: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

ALTRI MODI PER ‘STRUTTURARE’ DATI NON STRUTTURATI

Per certi tipi di informazione altri modi di strutturazione sono piu’ appropriati

Molta ricerca corrente si occupa del problema di estrarre automaticamente informazioni che permettano di strutturare diversamente i testi

Page 22: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

RICERCA PER ENTITA’

Page 23: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

ORGANIZZAZIONE TEMPORALE

Page 24: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

LIVEMEMORIES

Page 25: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

ANALISI LESSICOGRAFICA DEI TESTI

Tipi di analisi: Concordanze Frequenze Collocazioni

Applicazioni: Lessicografia Analisi dello stile Identificazione degli autori

(Vedi anche modulo D)

Page 26: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

ANALISI LESSICOGRAFICA DI TESTI

Identificazione delle parole che occorrono in un testo

Costruzione di INDICI Calcolo delle loro FREQUENZE Costruzione di CONCORDANZE

liste ordinate di parole che si trovano in un testo con il contesto

Identificazione di COLLOCAZIONI “corpo contundente”

Page 27: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

CONCORDANZE

1   1,    1    |    uomini, sono stati e sono o repubbliche o principati. È principati 2   2,    1    |    indrieto el ragionare delle repubbliche, perché altra volta ne ragionai 3   5,    2    |  assicurarsi di loro. Ma nelle repubbliche è maggiore vita, maggiore 4   8,    1    |    dove si trattassi delle repubbliche. Questi sono quando, o per 5  12,    3   |     vede a' principi soli e repubbliche armate fare progressi grandissimi, 6  13,    6   | Alessandro Magno, e come molte repubbliche e principi si sono armati 7  15,    1   |       molti si sono immaginati repubbliche e principati che non si

Page 28: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

COLLOCAZIONI

NOTTE FONDA, LUNA PIENA, ALTA STAGIONE, CORPO CONTUNDENTE

COLLOCAZIONE: sequenza di due o piu’ parole caratterizzate da un forte legame di associazione

Page 29: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

TIPI DI COLLOCAZIONI

TERMINI TECNICI: sistema operativo, corte d’Assise

VERBO SUPPORTO: fare attenzione, prendersi un caffe’, dar manforte

COSTRUZIONI IDIOMATICHE: tagliar la corda, tirare le cuoia

Page 30: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

PER SAPERNE DI PIU’…

Modulo D

Page 31: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

ANALISI STILISTICA AL COMPUTER

Analisi dello stile di uno scrittore Esempi:

“corpo contundente”: tipico burocratese “broken twig” in James Fenimore Cooper Uso dei colori (specialmente rosso) in “Red

Badge of Courage”

Page 32: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

IDENTIFICAZIONE DI AUTORI

Identificazione dell’autore di testi storici / testi anonimi Autori dei libri della Bibbia Autori dei Federalist Papers Autore di “Primary Colors”

Page 33: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

ARCHIVI NON TESTUALI:IMMAGINI & MULTIMEDIA

Applicazioni: beni culturali, archeologia, storia dell’arte, film ….

Archivi di immagini Ricerca di immagini Analisi statistica di immagini

Page 34: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

IMAGE RETRIEVAL

Ricerca di immagini: Usando didascalie od indici costruiti a mano

(LABELS) Usando indici derivati automaticamente

Page 35: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

RITROVAMENTO DI IMMAGINI USANDO DIDASCALIE

Page 36: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

CONTENT-BASED IMAGE RETRIEVAL

Estraendo automaticamente tratti dall’immagine (CONTENT-BASED IMAGE RETRIEVAL) Ricerca usando immagini ‘simili’ Vettori di tratti visivi (colore, etc)

Esempi: Retrievr

http://labs.systemone.at/retrievr Image Miner (Uni Bremen / IBM) VIPER (Universita’ di Ginevra) http://viper.unige.ch/

Page 37: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

CONTENT-BASED IMAGE RETRIEVAL

Page 38: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

RISULTATI

Page 39: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

CREAZIONE DI ARCHIVI DI TESTI

La creazione di un archivio di testi richiede l’uso di una grande varieta’ di tecniche informatiche: Possibilmente SCANNERIZZAZIONE ‘Ripulitura’ Trasformazione in un formato STANDARD (XML /

TEI) Sviluppo di metodi di RICERCA

Page 40: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

BIBLIOTECHE DIGITALI

Sempre piu’ spesso archivi, biblioteche e musei utilizzano tecniche per la digitalizzazione e la preservazione di documenti in formato digitale

Biblioteche digitali vanno oltre archivi di testi ed immagini in quanto documenti contengono METADATI che forniscono informazioni bibliografiche e collegamenti

Page 41: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

DIGITALIZZAZIONE E CONSERVAZIONE Ora che la memoria sta

diventando sempre piu’ economica, e con lo sviluppo di metodi piu’ sofisticati di scannerizzazione delle immagini, e’ pensabile creare versioni elettroniche di documenti antichi e fragili per permetterne l’accesso senza danneggiarli

Esempio: progetti della British Library

Page 42: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

PRINCIPALI AREE DI RICERCA NELLE BIBLIOTECHE DIGITALI

Preservazione digitale Metadati:

Text Encoding Initiative (prossima lezione) DUBLIN CORE

Infrastruttura: Open Archival Information System (OAIS)

Page 43: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

RIASSUNTO DELLE IDEE PRINCIPALI

Modello vettoriale per la ricerca di informazioni non-strutturate

Espressioni regolari (e versione semplificata per Google)

Page 44: INFORMATICA UMANISTICA B INFORMAZIONE NON STRUTTURATA: ARCHIVI DI TESTI ARCHIVI DI IMMAGINI.

LETTURE ED APPROFONDIMENTI

Tomasi, capitoli 7 e 9 Google search:

Google search basics: http://www.google.com/support/websearch/bin/answer.py?answer=136861

http://en.wikipedia.org/wiki/Google_search GriseldaOnline: http://www.griseldaonline.it/ Robert Harris,

The Personal Computer as a tool for literary analysis