Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e...

Post on 01-May-2015

217 views 2 download

Transcript of Bibliografia. Sistemi di recupero dellinformazione Teoria e tecniche della catalogazione e...

Bibliografia. Sistemi di recupero dell’informazioneTeoria e tecniche

della catalogazione e classificazionePresentazioni, “informazione”, quanta infomazione?

ricerca1info

Prof.ssa Elisa GrignaniUniversità degli studi di Parma

aa. 2005/2006

2

OGGI

• Presentazioni (già visto)• Presentazione del corso (già visto)

• Che cosa si intende con “informazione”?• Quanta informazione?

3

OGGI

• Presentazioni• Presentazione del corso

• Che cosa si intende con “informazione”?• Quanta informazione?

4

Presentazioni: docente • Elisa GRIGNANI • www2.unipr.it/~grignani/EGhome/eg.htm

• Studi:• laurea in lettere, Università di Pavia • perfezionamento in biblioteconomia, Università di Parma• MLIS, University of California, Berkeley

• Ricerca:• Classificazioni bibliografiche, sistemi di recupero dell’informazione, società

bibliografica italiana sec. XIX, produzione editoriale a Pavia sec. XVII, storia delle biblioteche sec. XVII.

• Didattica:• Teoria e tecniche della catalogazione e classificazione, Bibliografia,

Biblioteconomia

5

Presentazioni: studenti

• Nome e cognome: ...

• Corso di laurea: ...

• Anno di iscrizione: ...

• e-mail: ...

• Aree di interesse o di competenza: ...

• Cosa vi aspettate da questo corso? ...

• Per quanti crediti lo seguite? …

6

Per iscrivervi a questo corso:

• Andate nel sito www.nicenet.org

• “join a class”

• inserite in modo completo i dati richiesti: in particolare, come prima cosa, l’USERNAME e la PASSWORD che intendete utilizzare; il codice da indicare come “class key” è: OZ39495B83; il nome della classe è Biblio

• “log in” usando USERNAME / PASSWORD: come prima esercitazione, dovete inviarmi compilato (“turn it online”) il modulo “Presentazioni: studenti”.

7

OGGI

• Presentazioni• Presentazione del corso

• Che cosa si intende con “informazione”?• Quanta informazione?

8

Due temi principali

Rappresentazione / organizzazione

dell’informazione

Recupero dell’informazione

e il processo di ricerca

9

Due temi principali

• Come trovare risorse informative, ed oggetti che veicolano informazione, appropriate rispetto alle esigenze nostre o di altriRicerca (Modulo A)

• Come descrivere le risorse informative, e gli oggetti che veicolano informazione, in modo che possano essere efficacemente trovati ed utilizzati da chi ne ha bisognoCatalogazione (Modulo B)

10

Ricerca – Modulo A

Recupero dell’informazione e processo di ricerca

ALCUNI ARGOMENTI:- che cosa si intende con informazione?- dati / informazione / conoscenza / sapere- quanta informazione? - teoria matematica dell’informazione- ciclo di vita dell’informazione- processo di ricerca- sistemi di recupero dell’informazione (IR)- valutazione IR- bibliografie e cataloghi come sistemi IR- ricerca in OPAC- elementi di ricerca web- stili di citazione bibliografica- ...

11

Catalogazione – Modulo B

Rappresentazione / organizzazione

dell’informazione

ALCUNI ARGOMENTI:

- perchè organizzare l’informazione?- metadati- cataloghi - requisiti funzionali per le registrazioni bibliografiche- descrizione bibliografica - accessi formali e semantici- authority file- programmi per la catalogazione automatizzata- ...

12

Goals and Objectives

• Modulo A - Ricerca– Risultati: – Obiettivi:

• Modulo B - Catalogazione– Risultati:– Obiettivi:

13

Esercitazioni, letture ed esame

• Circa 4 esercitazioni per modulo • 1 presentazione in classe (anche in piccolo gruppo;

raccomandato l’utilizzo di PowerPoint)

• Letture indicate di volta in volta

• Esame finale

14

Orario lezioni, esercitazioni e ricevimento

• Lezioni:– Aula H; lun., mart.: 10:30-12:00, merc.: 14:15-15:45

• Esercitazioni:– in orario da concordare

• Materiali lezioni ed esercitazioni:– <www2.unipr.it/~grignani/EGhome/eg.htm>– <www.nicenet.org>

• Ricevimento:– mart. 15:00-16:00, merc. 9:00-10:00, Sezione beni librari (Via

D’Azeglio, 85)

• e-mail: – elisa.grignani@unipr.it

15

Calendario lezioni

• I semestre:– Modulo A: 19 sett. - 29 ott. 2005– Modulo B: 10 nov. - 22 dic. – Modulo C: 9 gen. - 28 gen. 2006

16

OGGI

• Presentazioni

• Presentazione del corso

• Che cosa si intende con “informazione”?

• Quanta informazione?

17

Che cosa si intende con “informazione”?

(forse per metatesi dal gr. morfé ; cfr. lat. formosus (spagn. hermoso), formaggio, formalità, informatica (“information automatique”, 1962) ...

• Non c’è una unica definizione “corretta”

• Può essere d’interesse sociologico, linguistico, filosofico, informatico, giornalistico …

• Definizione d’uso:– “notizie o fatti su qualche cosa”

• Oxford English Dictionary– information: informing, telling; thing told, knowledge, items of knowledge, news

– knowledge: knowing familiarity gained by experience; person’s range of information; a theoretical or practical understanding of; the sum of what is known

18

Che cosa si intende con informazione?

• Correlare dati a un contesto (“interpretazione situazionale”)

dati informazione conoscenza

• Richiede una comunità interpretante

• Ogni informazione dipende dal contesto da cui proviene

• Può essere registrata, immagazzinata, trasmessa (anche in forma fisica: p.e. i fossili)

• Deve essere registrata

• E’ una registrazione di qualcosa che può essere riutilizzato

• E’ una necessità / è una comodità

19

Che tipi di informazione?

• Testo– Libri, periodici, WWW, pubblicità, appunti …– A stampa / manoscritta

• Film• Fotografie, altre immagini• TV, Radio• Telefono• Database• …• Quanta informazione?

20

Perché organizzare l’informazione?

• E’ una questione di scala:

– Usare metodi e categorie personali per organizzare la nostra raccolta di libri o di CD sembra funzionare …

– Ma come organizzare una raccolta di dimensione 10, 100, 1000 … volte più grande?

21

OGGI

• Presentazioni• Presentazione del corso

• Che cosa si intende con “informazione”?• Quanta informazione?

22

Quanta informazione?Produzione libri a stampa: alcuni dati storici

• Sec. XV Europa 45.000 ed. fonte: ISTC

• Sec. XVI Italia 50.000 ed. fonte: EDIT

• a. 2003 Italia 60.000 ed. fonte: IE• (ca. 160 ed. al giorno)

• ma quanta informazione su altri supporti?

24

Information

• Stored Information (physical media)

– Print

– Film

– Optical

– Magnetic

• Communicated (channels)

– Internet

– Broadcast

– Phone

– Mail

25

Unità di misuraHow big is an Exabyte? (R. Williams, Data Power of Ten)

Kilobyte (KB) 1000 bytes o 103 bytes 2 KB: 1 pagina datt.

Megabyte (MB) 106 bytes 1 MB: 1 floppy disk 3.5 5 MB: tutto Shakespeare 100 MB: 1 metro di libri 500 MB: 1 CD-ROM

Gigabyte (GB) 109 bytes

Terabyte (TB) 1012 bytes 1 TB: 50.000 alberi 130 TB: collezione a stampa della Library of Congress

Petabyte (PB) 1015 bytes

Exabyte (EB) 1018 bytes 2 EB: tutta l'informazione generata nel 1999

26

Table 1.1: How Big is an Exabyte?

Kilobyte (KB)1,000 bytes OR 103bytes 2 Kilobytes: A Typewritten page. 100 Kilobytes: A low-resolution photograph.

Megabyte (MB)

1,000,000 bytes OR 106 bytes1 Megabyte: A small novel OR a 3.5 inch floppy disk.2 Megabytes: A high-resolution photograph.5 Megabytes: The complete works of Shakespeare. 10 Megabytes: A minute of high-fidelity sound.100 Megabytes: 1 meter of shelved books. 500 Megabytes: A CD-ROM.

Gigabyte (GB)

1,000,000,000 bytes OR 109 bytes 1 Gigabyte: a pickup truck filled with books. 20 Gigabytes: A good collection of the works of Beethoven. 100 Gigabytes: A library floor of academic journals.

Terabyte (TB)

1,000,000,000,000 bytes OR 1012 bytes 1 Terabyte: 50000 trees made into paper and printed. 2 Terabytes: An academic research library. 10 Terabytes: The print collections of the U.S. Library of Congress. 400 Terabytes: National Climactic Data Center (NOAA) database.

Petabyte (PB)

1,000,000,000,000,000 bytes OR 1015 bytes 1 Petabyte: 3 years of EOS data (2001). 2 Petabytes: All U.S. academic research libraries. 20 Petabytes: Production of hard-disk drives in 1995. 200 Petabytes: All printed material.

Exabyte (EB)1,000,000,000,000,000,000 bytes OR 1018 bytes 2 Exabytes: Total volume of information generated in 1999. 5 Exabytes: All words ever spoken by human beings.

27

Summary of findings1. Print, film, magnetic, and optical storage media produced about 5 exabytes of

new information in 2002. Ninety-two percent of the new information was stored on magnetic media, mostly in hard disks.

2. We estimate that the amount of new information stored on paper, film, magnetic, and optical media has about doubled in the last three years.

3. Information flows through electronic channels -- telephone, radio, TV, and the Internet -- contained almost 18 exabytes of new information in 2002, three and a half times more than is recorded in storage media. Ninety eight percent of this total is the information sent and received in telephone calls - including both voice and data on both fixed lines and wireless.

• Radio took 38 years to get 50 M listeners, TV took 13 years, the Net took 4 years...

28

Print

• Annual Production (1999)– Books 968,735 = 8 Terabytes (compressed image)

– Newspapers 22643 = 25 Terabytes

– Journals 40000 = 2 Terabytes

– Magazines 80000 = 10 Terabytes

– Office Documents 195 Terabytes

– TOTAL 240 Terabytes (1200 scanned, 24 text)

29

Print• Library of Congress Printed book collection

– About 18 Million books = About 130 Terabytes (compressed image)

– For all of LC we should also assume• 13M photographs, 5MB each = 65 TB• 4M maps, say 200 TB• 500K files, 1GB each = 500 TB• 3.5M sound recordings, ~2000 TB• Grand total: 3 petabytes (~3000 terabytes)

30

Film and Image

• Annual Production (1999)

– Movies = 16 Terabytes (Commercial Production of about 4000 films)

– Photographs = 410 Petabytes

– X-Rays = 17.2 Petabytes

31

Optical Media

• Annual Production (1999)

– CDD-Music 90,000 items = 58 TB

– CD-ROM 1,000 items = 3 TB

– DVD-Video 5,000 items = 22 TB

– TOTAL 83 TB (total compressed 29 TB)

32

Magnetic Media

• Annual Production (1999)

– Audio Tape 184,200,000 = 184.2 Petabytes– Video Tape 355,000,000 = 1420– Floppy disks = 0.07– Removable disks = 1.69– Hard Disks = 500

33

Table 1.2: Worldwide production of original information, if stored digitally, in terabytes circa 2002. Upper estimates assume information is digitally scanned, lower estimates assume digital content has been compressed.

Storage Medium 2002 Teraby

tes Upper Estima

te

2002 Teraby

tes Lower Estima

te

1999-2000

Upper Estima

te

1999-2000

Lower Estima

te

% Chan

ge Uppe

r Estimate

s

Paper 1,634 327 1,200 240 36%

Film 420,254

76,69 431,690

58,209 -3%

Magnetic 5187130

3,416,230

2,779,760

2,073,760

87%

Optical 103 51 81 29 28%

TOTAL: 5,609,121

3,416,281

3,212,731

2,132,238

74.5%

Source: How much information 2003

34

Internet Hosts (000s) 1989-2006

0

100000

200000

300000

400000

500000

600000

700000

800000

900000

1000000

1989

1991

1993

1995

1997

1999

2001

2003

2005

hosts

Source: Vint Cerf

35

Users on the Internet (1999)

• CAN/US - 90.65M• Europe - 40.09M• Asia/Pac - 26.97M• Latin Am - 5.29M• Africa - 1.14M• Mid-east - 0.88 M

---------------------------• Total - 165M

CAN/US

Europe

Asia/Pac

Latin Am

Africa

Mid East

Source: Vint Cerf

36

2002: Around the world about 600 million people have access to the Internet, about 30% of them in North America.

World Distribution of Internet Users (in millions)

Africa 6.31

Asia Pacific 187.24

Europe 190.91

Middle East 5.12

Canada and USA 182.67

Latin America 33.35

   

37

38

According to Nielsen/NetRatings, the average Internet user in 2002 spended 11 hours and 24 minutes online per month; the average user in the United States more than twice that amount of time online: 25 hours and 25 minutes at home and 74 hours and 26 minutes at work. In the United States, Internet access is used to send email (52%), get news (32%), use a search engine to find information (29%), surf the web (23%), do research for work (19%), check the weather (17%) or send an instant message (14%) (Source: Pew Internet and American Life Project).

39

Language Distribution of Web Content

English J apaneseGerman FrenchChinese SpanishItalian SwedishMalay KoreanPortuguese DutchDanish CzechFinnish RussianPolish HungarianNorwegian EstonianGreek BulgarianCroatian BasqueThai TurkishArabic AlbanianOthers & Unknown

Source: Jack Xu: Excite

40

Language Distribution on a 634 Million Web Pages Corpus

Language Number of Docs PercentageEnglish 453,685,690 71.5288%Japanese 43,271,080 6.8222%German 32,253,563 5.0851%French 11,107,994 1.7513%Chinese 9,642,450 1.5202%Spanish 6,965,560 1.0982%Italian 5,638,827 0.8890%Swedish 4,392,709 0.6926%Malay 3,619,227 0.5706%Korean 3,200,762 0.5046%Portuguese 3,014,294 0.4752%Dutch 2,745,610 0.4329%Danish 1,911,677 0.3014%Czech 1,428,385 0.2252%Finnish 1,312,932 0.2070%Russian 1,150,127 0.1813%Polish 952,716 0.1502%Hungarian 760,162 0.1198%Norwegian 607,211 0.0957%Estonian 456,613 0.0720%Greek 393,360 0.0620%Bulgarian 392,777 0.0619%Croatian 310,237 0.0489%Basque 258,074 0.0407%Thai 99,691 0.0157%Turkish 81,218 0.0128%Arabic 38,167 0.0060%Albanian 17,779 0.0028%Others & Unknown 44,561,062 7.0256%Total 634,269,953 100%

41

Information Overload

• “The greatest problem of today is how to teach people to ignore the irrelevant, how to refuse to know things, before they are suffocated. For too many facts are as bad as none at all.” (W.H. Auden)

Cerchiamo l’espressione “information overload” in <www.google.it>. Quanti risultati otteniamo?

42

Prossimamente

• Ancora sull’informazione