Bibliografia e motori di ricerca: Google e non solo

50
1 Bologna, 13 maggio 2013 Michele Santoro Bibliografia e motori di ricerca: Google e non solo Michele Santoro Università di Bologna e-mail: [email protected]

Transcript of Bibliografia e motori di ricerca: Google e non solo

Page 1: Bibliografia e motori di ricerca: Google e non solo

1

Bologna, 13 maggio 2013

Michele Santoro

Bibliografia e motori di ricerca:

Google e non solo

Michele SantoroUniversità di Bolognae-mail: [email protected]

Page 2: Bibliografia e motori di ricerca: Google e non solo

2

La realtà di Internet

Internet è un contenitore di informazioni da cui è impossibile prescindere

ma è proprio l’immensa mole di informazioni che provoca i problemi maggiori quando si effettua una ricerca bibliografica:information overloaddata deluge

Page 3: Bibliografia e motori di ricerca: Google e non solo

3

La soluzione per eccellenza?

qual è la chiave del suo successo?

senza dubbio il suo “algoritmo di ricerca”

Page 4: Bibliografia e motori di ricerca: Google e non solo

4

La ricerca con Google

il criterio adottato da Google per definire il “ranking” di una pagina

è basato sul grado di “popolarità” della pagina stessa

ossia sul numero di legami (links) che essa riceve da parte di altre paginepiù una pagina è linkata, più è conosciuta e

quindi (si suppone), più è importante e utile

Page 5: Bibliografia e motori di ricerca: Google e non solo

5

La ricerca con Google

ben presto però si è capito che quello della popolarità (“molti links molta importanza”) non era l’unico criterio impiegato da Google per indicizzare le pagine web

e offrirle all’utente in un preciso ordine di rilevanza così sono stati “scoperti” gli elementi che

compongono il famoso (anche se ufficialmente “segreto”) algoritmo di ricerca di Google

Page 6: Bibliografia e motori di ricerca: Google e non solo

6

L’algoritmo di ricerca di Google

il “punteggio” ottenuto da una risorsa in seguito ad una ricerca con Google è dato da: utilizzo delle parole chiave (0.3) importanza del dominio (0.25) link in ingresso (0.25) dati degli utenti (0.1) qualità del contenuto (0.1) altre variabili

Page 7: Bibliografia e motori di ricerca: Google e non solo

7

La ricerca con Google

tutto bene, dunque? per le nostre ricerche possiamo affidarci con fiducia

alla potenza di calcolo di Google ed alla razionalità del suo algoritmo?

non esattamente... proviamo a porci qualche domanda:

Page 8: Bibliografia e motori di ricerca: Google e non solo

8

La ricerca con Google

siamo proprio sicuri che con Google si ottenga tutto ciò che è disponibile su Internet?

siamo proprio sicuri che ciò che troviamo con Google su un certo argomento sia davvero tutto ciò che esiste su quell’argomento?

siamo proprio sicuri che le soluzioni offerte da Google siano autorevoli, cioè adeguate ai fini di una seria ricerca bibliografica?lo stesso Google ha compreso la necessità di

strumenti di ricerca più specifici dando vita a Google Books e Google Scholar

Page 9: Bibliografia e motori di ricerca: Google e non solo

9

Google Books

progetto in base a cui milioni di libri sono stati digitalizzati e messi a disposizione gratuitamente: per quanto il progetto abbia avuto fasi alterne a

causa di problemi legati ai diritti d’autore Google Books è una fonte ricchissima e utilissima

per la ricerca bibliografica modalità di ricerca analoghe a quelle di Google anche se, nella maggior parte dei casi, non è possibile

né stampare né fare il download delle pagine !!! http://books.google.it/

Page 10: Bibliografia e motori di ricerca: Google e non solo
Page 11: Bibliografia e motori di ricerca: Google e non solo
Page 12: Bibliografia e motori di ricerca: Google e non solo
Page 13: Bibliografia e motori di ricerca: Google e non solo
Page 14: Bibliografia e motori di ricerca: Google e non solo

…_

Page 15: Bibliografia e motori di ricerca: Google e non solo

15

Google Scholar ma, come si è visto, Google Books si rivolge alle

monografie mentre la maggior parte dell’informazione nei diversi

ambiti di studio è veicolata dai periodici per questo Google ha creato Google Scholar, un motore di

ricerca specifico che esplora le diverse tipologie di documenti e in particolare i periodici

Page 16: Bibliografia e motori di ricerca: Google e non solo

16

Google Scholar

Google Scholar infatti indicizza non solo libri ma anche articoli di riviste liberamente disponibili in

rete o concessi a Google da autori o editori altri articoli sono invece accessibili sulla base di

determinati requisiti anche se gran parte dei documenti indicizzati sono

di ambito scientifico e in lingua inglese Google Scholar è uno strumento molto importante

per la ricerca bibliografica

Page 17: Bibliografia e motori di ricerca: Google e non solo
Page 18: Bibliografia e motori di ricerca: Google e non solo
Page 19: Bibliografia e motori di ricerca: Google e non solo

19

Non solo Google

per quanto raffinati, i criteri di ricerca di Google presentano comunque numerosi limitiGoogle e i suoi “derivati” (Books e Scholar) non

sono in grado di offrire una copertura esaustiva delle risorse di rete

per cui sono comparsi nuovi strumenti che si presentano come più “intelligenti” e “semanticamente” affidabili

fra questi, si segnala il motore di ricerca “computazionale” Wolphram Alpha, che interessa soprattutto le discipline scientifico-tecniche

Page 20: Bibliografia e motori di ricerca: Google e non solo

E per le discipline umanistiche?

in primo luogo vediamo cosa offre il Portale delle biblioteche dell’Università di Bologna

http://www.biblioteche.unibo.it/portale ed in particolare il settore delle banche dati

http://www.biblioteche.unibo.it/portale/home/portale/risorse-elettroniche/banche-dati

(sono risorse ad accesso riservato per tutti gli utenti Unibo)

Page 21: Bibliografia e motori di ricerca: Google e non solo
Page 22: Bibliografia e motori di ricerca: Google e non solo
Page 23: Bibliografia e motori di ricerca: Google e non solo

Motori di ricerca per le discipline umanistiche/1

JURN (http://www.jurn.org/): indicizza 4.507 free e-journals (vantaggi e limiti) UK-centrico: le risorse sono indicizzate con una

specifica attenzione agli interessi degli studiosi inglesi presenta una lista integrale dei titoli indicizzati

(http://www.jurn.org/jurn-listoftitles.pdf) e una directory più sintetica

(http://www.jurn.org/directory/) utilizza Google CSE (Custom Search Engine), uno

strumento che permette di creare - anche in modo sofisticato - motori di ricerca personalizzati

Page 24: Bibliografia e motori di ricerca: Google e non solo
Page 25: Bibliografia e motori di ricerca: Google e non solo
Page 26: Bibliografia e motori di ricerca: Google e non solo
Page 27: Bibliografia e motori di ricerca: Google e non solo

Motori di ricerca per le discipline umanistiche/2

ISIDORE (http://www.rechercheisidore.fr/) piattaforma di ricerca sviluppata in Francia indicizza una quantità di risorse digitali ad

accesso aperto relative alle scienze umane e sociali

e quindi permette l’accesso a milioni di documenti comprese le tesi di dottorato e i contributi

scientifici disponibili su Revues.org, Cairn, Persée

Page 28: Bibliografia e motori di ricerca: Google e non solo
Page 29: Bibliografia e motori di ricerca: Google e non solo
Page 30: Bibliografia e motori di ricerca: Google e non solo

…_

Page 31: Bibliografia e motori di ricerca: Google e non solo

31

Oltre i motori di ricerca

Google e i suoi derivati, così come i motori di ricerca specifici, sono strumenti molto importanti per il reperimento dell’informazione essi infatti rendono disponibile un patrimonio

conoscitivo enorme ma… la ricerca sul web continua ad essere ancora

problematica

Page 32: Bibliografia e motori di ricerca: Google e non solo

32

Problemi del web problemi legati al linguaggio naturale:

polisemia (termini con più significati) sinonimia (diversi termini con lo stesso

significato) integrazione di informazioni provenienti da più fonti assenza di “macchine intelligenti” cioè in grado di comprendere le informazioni

strutturate in maniera differente e di “ragionarci sopra”

Page 33: Bibliografia e motori di ricerca: Google e non solo

33

Il web profondo

oltre al web “di superficie”, ossia quello visibile e ricercabile attraverso i motori di ricerca

esiste un “web profondo”, detto anche “web invisibile” o “web sommerso”

che risulterebbe essere molto più grande (da 400 a 550 volte) rispetto a quello di superficie deep web: parte del web che non è accessibile ai

motori di ricerca per diversi motivi tra cui:

Page 34: Bibliografia e motori di ricerca: Google e non solo

34

Il web profondo

1. il sito è protetto da password (ad esempio un periodico elettronico non accessibile gratuitamente)

2. il contenuto informativo del sito è raggiungibile solo attraverso una ricerca interattiva in una base di dati (esempio tipico: gli opac!)

numerosi studi rilevano che il web profondo è il più consultato (ha il 50% del traffico in più)

cresce più velocemente ed è di qualità più elevata

Page 35: Bibliografia e motori di ricerca: Google e non solo

35

Possibili soluzioni

1) individuare dei criteri per “forzare” il web profondo

2) perfezionare la tecnologia e rendere le macchine più intelligenti

3) migliorare gli algoritmi di ricerca dei motori

4) accrescere la “significatività” delle parole utilizzate per le ricerche

Page 36: Bibliografia e motori di ricerca: Google e non solo

36

Possibili soluzioni tutte queste possibilità sono state sviluppate negli

anni più recenti in particolare, l’idea di migliorare i criteri di

recupero per termini significativi ha trovato una sua realizzazione attraverso l’impiego dei metadati

che permettono di descrivere le risorse elettroniche, i testi e i documenti multimediali

rendendo meno caotico l’ambiente digitale e consentendo un più efficace recupero

dell’informazione ricercata

Page 37: Bibliografia e motori di ricerca: Google e non solo

37

I metadati

si tratta di un criterio assai simile a quello della tradizionale descrizione bibliografica

ma diversamente dalla catalogazione tradizionale che dà vita a prodotti “esterni” ai documenti descritti

(e cioè schede catalografiche o record bibliografici) i metadati sono inclusi nella stessa risorsa che

descrivono

Page 38: Bibliografia e motori di ricerca: Google e non solo

Un esempio di “vecchi” metadati/1

Page 39: Bibliografia e motori di ricerca: Google e non solo

Un esempio di “vecchi” metadati/2

Campbell, Ann-Jeanette

Viaggio nello spazio : guida essenziale all'astronomia / Ann-Jeanette Campbell ; prefazione di Franco Foresta Martin. – Nuova ed. rinnovata. – Bari : Dedalo, [1998]. – 198 p. : ill. ; 21 cm. - (Nuova biblioteca Dedalo ; 205)

Trad. di Elena Joli

ISBN 88-220-6205-1

Serie: Nuova biblioteca Dedalo, 205.

CDD: 520(21.)

1. Astronomia 2. Universo I. Foresta Martin, Franco

Page 40: Bibliografia e motori di ricerca: Google e non solo

Un esempio di “vecchi” metadati/3

Page 41: Bibliografia e motori di ricerca: Google e non solo

41

Un esempio di “nuovi” metadati

Page 42: Bibliografia e motori di ricerca: Google e non solo

42

Metadati “descrittivi”

fra i molti set di metadati predisposti per la descrizione delle risorse di Internet

si è imposto (in particolare nel mondo bibliotecario) il modello Dublin Core (http://dublincore.org/)

sviluppato a partire dal Metadata Workshop del marzo 1995 tenutosi presso la sede dell’OCLC a Dublin (Ohio)

e sponsorizzato da Online Computer Library Center (OCLC) e dal National Center for Supercomputing Applications (NCSA)

Page 43: Bibliografia e motori di ricerca: Google e non solo

43

I quindici elementi del Dublin Core “simple”

1. Title Titolo della risorsa

2. Subject Parole chiave o termini tratti da un vocabolario controllato

3. Description Descrizione o abstract

4. Creator Persona o organizzazione primariamente responsabile del contenuto intellettuale della risorsa

5. Publisher Editore

6. Contributor Autore di ulteriore contributo al contenuto intellettuale della risorsa

7. Date Data associata con la creazione o la disponibilità della risorsa

8. Type Genere della risorsa (home page, articolo, tesi, data set, etc.)

9. Format Normalmente di tipo MIME (ad es. text/html)

10. Identifier URL, DOI, ISBN, ISSN, URN o altro identificatore

11. Source Risorsa da cui deriva la risorsa descritta

12. Language Lingua della risorsa

13. Relation Identificatore di una seconda risorsa e sue relazioni con la risorsa descritta

14. Coverage Caratteristiche spazio-temporali della risorsa

15. Rights Condizioni di copyright della risorsa

Page 44: Bibliografia e motori di ricerca: Google e non solo

44

Una pagina XML con metadati

…_

Page 45: Bibliografia e motori di ricerca: Google e non solo

45

Web semantico

il termine “Semantic Web” è stato proposto per la prima volta nel 2001 da Tim Berners Lee

da allora il termine è stato associato all’idea di un web nel quale vi siano applicazioni in grado di comprendere il significato dei documenti presenti sulla rete quindi guidare l’utente direttamente verso

l’informazione ricercata o sostituirsi a lui nello svolgimento di alcune

operazioni

Page 46: Bibliografia e motori di ricerca: Google e non solo

46

Web semantico

il web semantico quindi rende possibile una ricerca più evoluta

attraverso la costruzione di reti di relazioni e connessioni tra documenti

in base a logiche più elaborate rispetto a quella basata sui semplici link ipertestuali

difatti, è vero che il web è un insieme di testi collegati tra loro

ma questi collegamenti sono “deboli”, nel senso che sono troppo generici e vaghi

Page 47: Bibliografia e motori di ricerca: Google e non solo

47

Web semantico

con il web semantico invece è possibile recuperare documenti esprimendo query complesse: partendo da concetti semplici, si può raffinare

la ricerca esprimendo vere e proprie asserzioni composte da un soggetto, un predicato e un

oggetto si può quindi fare una richiesta del tipo: aziende

(soggetto) che hanno come servizio (predicato) la fornitura di scarpe (oggetto)

Page 48: Bibliografia e motori di ricerca: Google e non solo

48

Web semantico

tale possibilità è radicalmente diversa dall’interrogazione effettuata con un motore di ricerca attraverso il quale si possono indicare i tre

concetti di azienda, di servizio e di scarpe ma non si può esprimere in nessun modo il

legame esistente fra essie da ciò derivano tutte le imprecisioni tipiche

dei motori di ricerca

Page 49: Bibliografia e motori di ricerca: Google e non solo

Web semantico e linked data oggi per la realizzazione del web semantico viene

impiegata la tecnologia dei linked data ossia dati pubblicati sul web in una modalità leggibile,

interpretabile e utilizzabile da una macchina il cui significato deve essere esplicitamente definito da

un insieme di parole e marcatori (tags) importanza bibliografico-documentale dei linked data:

i metadati bibliotecari possono “uscire” dal deep web

aumenta la qualità delle ricerche sul web 49

Page 50: Bibliografia e motori di ricerca: Google e non solo

50

Michele Santoro

Bibliografia e motori di ricerca: Google e non solo

Grazie per l’attenzione!