1
SommarioSommario
Internet ed il World Wide WebInternet ed il World Wide WebIntroduzione: le reti di calcolatoriIntroduzione: le reti di calcolatori
Internet: indirizzamento e protocolli di Internet: indirizzamento e protocolli di comunicazionecomunicazione
Il World Wide Web: come funziona e a cosa serveIl World Wide Web: come funziona e a cosa serve
Ricerca di informazione sul WebRicerca di informazione sul Web
2
Introduzione: Introduzione: le reti di calcolatorile reti di calcolatori
3
Introduzione Introduzione 1 1
Una reterete è costituita da due o più computer collegati tra loro in modo tale da permettere flusso di informazione
La più grande rete esistente al mondo è InternetInternet: ogni computer connesso ad Internet è in grado di comunicare con tutti i computer collegati
4
Introduzione Introduzione 2 2
“Internet ha rivoluzionato il mondo dei calcolatori e Internet ha rivoluzionato il mondo dei calcolatori e della comunicazione come nulla aveva fatto prima. È della comunicazione come nulla aveva fatto prima. È allo stesso tempo capacità di diffusione a livello allo stesso tempo capacità di diffusione a livello mondiale, un meccanismo per disseminare mondiale, un meccanismo per disseminare informazioni ed un mezzo per collaborazione ed informazioni ed un mezzo per collaborazione ed interazione fra individui ed i loro calcolatori, senza interazione fra individui ed i loro calcolatori, senza riguardo alla collocazione geografica.riguardo alla collocazione geografica.” (Leiner et al., “A brief history of the Internet”, Feb. `97, http://www.isoc.org/internet–historyhttp://www.isoc.org/internet–history)
Internet offre una notevole varietà di servizi informativi: posta elettronica, ftp, login remoto, accesso a newsgroup, etc.; il WWWWWW è di gran lunga il più conosciuto
5
Reti localiReti locali
Una rete localerete locale — LANLAN (Local Area NetworkLocal Area Network ) — connette dispositivi hardware che si trovano fisicamente vicini, nello stesso edificio o nella stessa universitàPer le LAN, il proprietario delle macchine è anche il proprietario dei mezzi di comunicazione: non occorre acquistare servizi forniti da terzi, come la compagnia telefonicaIl modello più diffuso di LAN è chiamato EthernetEthernet
6
Reti geograficheReti geografiche
Le WAN impiegano linee di comunicazione punto–a–punto–a–puntopunto, che collegano direttamente due calcolatori, anziché canali condivisi, normalmente utilizzati per le LAN
Una rete geograficarete geografica — WANWAN (Wide Area NetworkWide Area Network ) — connette dispositivi che possono essere ai poli opposti della stessa città o in città vicine (in questo caso si parla più propriamente di MANMAN — Metropolitan Area Metropolitan Area NetworkNetwork ) o dall’altra parte dell’oceanoPoiché le WAN attraversano proprietà pubbliche, gli utenti di una WAN devono acquistare servizi di telecomunicazione
7
Servizi di reteServizi di rete
Condivisione delle risorseCondivisione delle risorse — sia fisichefisiche (memorie di massa, periferiche) che logichelogiche (dati, software)
Condivisione delle informazioniCondivisione delle informazioni — accesso ad informazioni remote, di carattere scientifico, medico, legale, commerciale
Posta elettronicaPosta elettronica — convenienteconveniente (può essere scritta/letta a qualsiasi ora del giorno e della notte), veloceveloce (un messaggio dagli USA arriva in meno di un minuto), economicaeconomica (i costi di trasmissione non dipendono dalla distanza); “documenti” di qualsiasi tipo (file, archivi, foto, musica) possono essere acclusi in allegato
8
InternetInternet
9
La storia diLa storia di Internet Internet 1 1
Internet è la rete telematica più grande del mondo, per estensione geografica e per numero di utentiNel periodo della guerra fredda, il governo USA sollecitò la creazione di DARPADARPA, Defense Advanced Defense Advanced Research Project AgencyResearch Project Agency, una struttura del Dipartimento della Difesa con il compito di mantenere le comunicazioni in caso di attacco nucleare
Fu Paul Baran a ipotizzare, in un documento dal titolo On Distributed Communication NetworksOn Distributed Communication Networks, la creazione di una rete priva di autorità centrale, in cui tutti i nodi fossero indipendenti, di pari gerarchia ed in grado di originare, passare e ricevere messaggi (indipendentemente dalla tipologia dei computer collegati)
10
La storia diLa storia di Internet Internet 2 2
Nel 1969, il Dipartimento della Difesa commissionò ARPANETARPANET, con lo scopo di promuovere la ricerca per un piano di rete nazionale militare; il primo collegamento fu stabilito tra due computer dell’Università della California (UCLA) e dello Stanford Research InstituteStanford Research Institute
I messaggi dovevano essere scomposti in pacchetti, ognuno dei quali in grado di raggiungere la propria destinazione seguendo un percorso qualsiasi, qualora quello stabilito fosse interrottoNel 1965, il DARPA finanziò uno studio sulle reti cooperative di computer
11
La storia diLa storia di Internet Internet 3 3
Internet non è gestita da alcuna istituzione politica, culturale o economica, ma da un gruppo di volontari, conosciuto come ISOC ISOC (Internet SocietyInternet Society )
Fornire le dimensioni di Internet è impossibile: si calcola vi siano centinaia di milioni di utenti, localizzati in ogni paese del mondo; la crescita esponenziale di Internet continua
12
Le tappe fondamentaliLe tappe fondamentali
1987 10000 host1989 100000 host1990 ARPANET diviene InternetInternet,
Tim Berners-Lee del CERN di
Ginevra progetta il WWWWWW1991 primi software di navigazione 1992 nasce il protocollo HTTPHTTP1993 prima versione (gratuita) di
MosaicMosaic, il primo browser grafico1994 Netscape Netscape distribuisce
gratuitamente via Internet, la versione beta
del NavigatorNavigator1995 Microsoft realizza ExplorerExplorer
1969 primo nodo di ARPANETARPANET1971 ARPANET conta 15 nodi1972 ARPANET congiunge 37 nodi1973 prima connessione
internazionale fra Inghilterra e Norvegia1976 la regina Elisabetta è il
primo capo di stato a spedire e-
mail; Jimmy Carter e Walter
Mondale coordinano la campagna
elettorale via e-mail (4$ a messaggio) 1982 nasce il protocollo TCP/IPTCP/IP1983 la rete conta più di mille
nodi; MILNETMILNET (rete militare) si scinde da ARPANET (rete di ricerca del mondo universitario)
13
Internet: la rete delle retiInternet: la rete delle reti
Conseguentemente ad ARPANET, nacquero HEPNet (High Energy Physics Network), CSNET (Computer Science Network), SPAN (Space Physics Access Network), etc., per supportare lo scambio di informazione scientifica nelle specifiche aree di ricerca: la proliferazione rapida e non pianificata di reti indipendenti causa incompatibilità e ostacola la comunicazione fra utenti di reti distinteInternetworkingInternetworking — ogni WAN è libera di gestire autonomamente la comunicazione al suo interno, ma deve utilizzare uno schema comune di indirizzamento e protocolli identici per interfacciarsi alle altre retiInternet diviene la rete delle retirete delle reti — reti distinte si interconnettono attraverso gatewaygateway, che realizzano la connessione effettiva e forniscono i servizi di routingrouting fra le diverse WAN
14
IndirizzamentoIndirizzamento
Uno schema globale e gerarchico di indirizzamento identifica univocamente ogni utente ovunque localizzato nel mondo:
[email protected]@dii.unisi.itidentifica l’utente “Monica (Bianchini)”, con un account su un calcolatore il cui indirizzo di rete è rappresentato da ciò che sta a destra di atat, @; il calcolatore è situato nel Dipartimento di Ingegneria dell’Informazione (dii) dell’Università di Siena (unisi), in Italia (it)Lo schema gerarchico di indirizzamento, che procede dallo specifico al generale, è chiamato Domain Name SystemDomain Name System (DNSDNS)Nella realtà, gli indirizzi di Internet sono numeri binari a 32 bit: gli indirizzi simbolici — più facili da memorizzare — sono convertiti automaticamente negli indirizzi numerici prima della trasmissione di dati sulla rete
15
Protocolli di comunicazioneProtocolli di comunicazione
In informatica, le regole comuni per lo scambio di informazioni vengono definite protocolli protocolli — “usi e norme che regolano le formalità, il diritto di precedenza e di cerimoniale diplomatico ”: definizione che si adatta perfettamente al contesto della trasmissione dell’informazione
TCP/IPTCP/IP — Transmission Control Protocol/Internet Transmission Control Protocol/Internet ProtocolProtocol, descrive le regole e le procedure cui le diverse WAN devono attenersi per indirizzamento, formato dei messaggi, routing e controllo degli errori: è il linguaggio comunelinguaggio comune parlato dalle reti di tutto il mondo
16
Internet: la diffusione Internet: la diffusione 1 1
Dalle origini al gennaio 2000, nei suoi primi dieci anni di vita, Internet è cresciuto fino a più di 72.4 milioni di calcolatori localizzati in ogni parte del mondo, ed il DNS include estensioni per 239 paesi, territori e possedimenti, compresi il continente antartico (.aq), Guinea Bissau (.gw), le isole Cocos (.cc), Pitcairn (.pn), etc.
Secondo uno studio dell’americana Telcordia Telcordia TechnologiesTechnologies, il numero degli Internet host presenti nel mondo avrebbe superato i 100 milioni nel 2000
Questo dato rappresenta un incremento del 45%45% rispetto al 1999Gli utenti di Internet sono circa 350 milioni
Nel primo semestre del 2004 gli Internet host sono oltre 285 milioni
17
Internet: la diffusione Internet: la diffusione 2 2
Negli USA, l’ultima parte del DNS non identifica lo stato, ma il tipo di sito: commerciale (.biz, .com), universitario (.edu), governativo (.gov), militare (.mil), organizzazioni no profit (.org)I principali servizi offerti (tramite TCP/IP) sono il telnettelnet, per realizzare il login remoto, l’FTPFTP (File File Transfer ProtocolTransfer Protocol ) per il trasferimento di file da macchine remote, l’SMTP SMTP (Simple Mail Transfer Simple Mail Transfer ProtocolProtocol ) per la posta, ed il World Wide Web World Wide Web per la condivisione di informazione ipertestuale, che si avvale del protocollo HTTPHTTP (HyperText Transfer HyperText Transfer ProtocolProtocol )In Italia...
Nel quinquennio 199095 si passa da 650 a 45000 hostLuglio 2000: 1574000 host Giugno 2004: 7447300 host
18
Il World Wide WebIl World Wide Web
19
Internet, ovvero… il WWW Internet, ovvero… il WWW 1 1
WWW: Whatever, Wherever, WheneverWWW: Whatever, Wherever, Whenever
WWW: World Wide Wait (l’attesa planetaria)WWW: World Wide Wait (l’attesa planetaria)Information Nirvana“Internet è la più grande anarchia operante nel mondo.” (Kevin Kelly)Internet è la passeggiata curiosa in un grande mercato delle pulci, dove ci si può divertire a cercare notizie sugli extraterrestri, conoscere il canto degli uccelli australiani o scambiarsi opinioni sul gioco delle bocce“Il desiderio di Internet è così intenso che può essere compreso solo come un fatto spirituale. Quel desiderio indica che c’è qualcosa che manca nella nostra vita. E quello che manca è la voce umana. Il Web promette il ritorno della voce umana.” (David Weinberger)
20
Internet, ovvero… il WWW Internet, ovvero… il WWW 2 2
Ogni sito è un punto di vista su InternetInternet non è né buono né cattivo, ma un semplice mezzo per l’uso e l’abuso; siamo noi che gli diamo l’anima, la nostra, buona o cattiva; inutile lodare, inutile maledireCercare informazioni su Internet equivale a versare un aperitivo con la pompa della benzinaOgnuno proietta su Internet quello che fa (o avrebbe voluto fare) nella vita “reale”: un ospedale virtuale, un supermercato elettronico, una galleria con le emozioni vissute…Internet è la “Mecca dei grafomani”Internet è quel posto dove tutti navigano per trovare un motivo per navigareInternet è quella realtà nella quale gli investitori pagano prezzi assurdi per azioni di aziende di cui non sanno spiegare il business
21
Internet, ovvero… il WWW Internet, ovvero… il WWW 3 3
Il motore a vapore all’inizio non ha cambiato la vita che di poche persone; ma quando è stato montato su una locomotiva e messo sulle rotaie, la società intera è stata trasformata. Il computer è il motore a vapore, Internet le rotaie. Saranno le rotaie di Internet a diffondere la “rivoluzione digitale” e a cambiare il mondo
“La nuova Internet sarà questa: non più utenti che comunicano fra di loro via computer, bensì computer in rete 24 ore su 24 che comunicano tra loro per conto degli utenti.” (Philip Greenspun, MIT, Boston)
22
Il World Wide WebIl World Wide Web
Grazie al Web stiamo assistendo ad una rivoluzione nell’accesso alle fonti di informazioneCercare nel Web è come accedere ad un’enciclopedia di miliardi di pagine senza un indice né un ordine apparente La e–revolutione–revolution avrà un enorme impatto in tutti i campi del sapere e nella nostra vita quotidianaCome rappresentiamo e misuriamo il Web ha un severo impatto nei metodi di ricerca che riusciamo a modellare3 utenti su 5 cercano nel Web sottoponendo queryquery (interrogazioni) a motori di ricerca come GoogleGoogle o AltavistaAltavista
23
Il Web italiano Il Web italiano 1 1
Secondo i dati presentati da Eurisko nel febbraio 2005 (in base a ricerche fino a gennaio) il numero totale di persone che accedono alla rete in Italia, anche occasionalmente, sarebbe salito a 14.5 milioni, che si riducono a 13.6 se si escludono gli accessi in situazioni esterne, come corsi di formazione, presso amici, in biblioteca o “bar” – e a 9.7 se si considerano le persone che dicono di collegarsi “almeno una volta alla settimana”Sono circa 4 milioni le persone che dicono di usare Internet tutti i giorniIl numero totale di “utenti dal lavoro, da casa o da scuola” nel gennaio 2005 è aumentato del 5% rispetto al gennaio 2004 (in mesi precedenti si erano rilevati indici più alti – per esempio un aumento del 15% nel giugno 2004 rispetto a un anno prima)
24
Il Web italiano Il Web italiano 2 2
Eurisko ritiene che il “potenziale di sviluppo” si collochi fra i 23 e i 24 milioni di persone (e che quindi l’attuale “penetrazione” sia circa il 60 %)L’andamento di Internet in generale, e particolarmente nei paesi più evoluti, indica che siamo lontani da un’ipotetica “soglia di saturazione”
Utenti Internet in Italia (gennaio 2001Utenti Internet in Italia (gennaio 2001gennaio gennaio 2005)2005)
25
PrevisioniPrevisioni
Ci saranno più di 765 milioni di utenti nel mondo 118 ogni 1000 persone alla fine del 2005, in base a quanto stimato dal CIA CIA (Computer Industry Almanac)
La quota di utenti Internet statunitensi è destinata a calare dal 43% del totale di utenti nel mondo alla fine del 1999 al 27% per la fine del 2005L’Europa dell’ovest sta crescendo più velocemente del nord America ed è destinata a diventare la seconda area nel 2005 con più di 213 milioni di utentiLa regione AsiaPacifico sta crescendo ancora più velocemente ed avrà approssimativamente 190 milioni di utenti nel 2005La quota di utilizzatori in centro e sud America, e Africa, sta crescendo più lentamente, in particolare in Africa (studi sociologici hanno dimostrato che esiste una connessione diretta tra livello culturale, occupazione ed utilizzo di Internet)
26
Internet interplanetarioInternet interplanetario
27
L’informazione ipertestuale L’informazione ipertestuale 1 1
IpertestoIpertesto — raccolta di documenti connessi da puntatori, gli hyperlinkhyperlink ; un documento contenente informazione ipertestuale è una paginapagina, nel linguaggio del WebLo standard linguistico per la scrittura di pagine è HTMLHTML — Hypertext Markup LanguageHypertext Markup Language
NavigareNavigare sul Web significa accedere a pagine successive, utilizzando i link per spostarsi da pagina a paginaI documenti ipertestuali possono essere
memorizzati ovunque nei miliardi di computer collegati ad Internet e un link è il nome di una pagina e l’indirizzo Internet della macchina su cui è memorizzata
28
L’informazione ipertestuale L’informazione ipertestuale 2 2
Un link di un ipertesto fa riferimento ad un URLURL (Uniform Uniform Resource LocatorResource Locator ),
protocollo://indirizzo_Internet/risorsaprotocollo://indirizzo_Internet/risorsa “protocolloprotocollo” indica la natura dell’informazione contenuta
nella pagina (httphttp(s) : ipertesto; ftpftp: file download; newsnews : per informazioni da bollettini e newsgroup; mailtomailto: web– mail) “indirizzo_Internetindirizzo_Internet” è l’indirizzo DNS della macchina su cui la pagina è locata “risorsarisorsa” è l’identificativo della risorsa, un file memorizzato sulla macchina specificata
http://www–dii.ing.unisi.it/people.htmlhttp://www–dii.ing.unisi.it/people.html
29
L’informazione ipertestuale L’informazione ipertestuale 3 3
Quando si “clicca ” su un link, la rete utilizza i protocolli TCP/IP–HTTP per stabilire una connessione tra la macchina dell’utente e la macchina remota il cui indirizzo Internet è puntato dall’URL
Quando la connessione è stabilita, la pagina richiesta viene trasferita alla macchina dell’utente e visualizzata sullo schermo: il fetchfetch (reperimento) delle pagine e la loro visualizzazione è gestita da un browserbrowser (NetscapeNetscape, MS ExplorerMS Explorer)
Il WWW è la “killer appkiller app ”, l’applicazione dalla crescita più rapida e la più importante di Internet
30
InternetInternet
38 years38 years
4 years4 years
13 years13 years 16 years16 years
Radio Radio Televisione Televisione PC PC
Numero di anni per raggiungere Numero di anni per raggiungere 50.000.000 di utenti50.000.000 di utenti
31
Il commercio elettronicoIl commercio elettronico
Termine applicato all’utilizzo del Web per lo scambio di merci, informazioni e servizi nel settore commercialeI primi servizi offerti dall’e–commercee–commerce riguardavano soprattutto aspetti di e–businesse–business, con l’emissione di bonifici, l’attivazione di sportelli automatici per la gestione di transazioni finanziarie da siti remoti, l’utilizzo di dispositivi di lettura alle casse per la raccolta automatica di informazioni di venditaI POSPOS (Point of SalePoint of Sale) per la lettura di carte di credito e Bancomat sono esempi di servizi di e–businessPiù recentemente, con il WWW, si è assistito alla diffusione del servizio in maniera capillare; i siti commerciali offrono tour interattivi nei loro negozi virtualiIn rete possono essere acquistati — con transazioni sicure — libri, cd musicali, dvd, magliette, generi alimentari, che vengono rapidamente recapitati a domicilio
32
Commercio elettronico in ItaliaCommercio elettronico in Italia
Nella sua accezione più sommaria, il commercio elettronico è il risultato di un insieme di transazioni commerciali svolte attraverso un processo telematicoTuttavia, il Ministero dell’Industria, del Commercio e dell’Artigianato lo definisce come…
«L'E-Commerce […] consiste nello svolgimento di attività commerciali e di transazioni per via elettronica e comprende attività diverse quali: la commercializzazione di beni e servizi per via elettronica, la distribuzione on-line di contenuti digitali, l'effettuazione per via elettronica di operazioni finanziarie e di borsa, gli appalti pubblici per via elettronica ed altre procedure di tipo transattivo della pubblica Amministrazione »
Le società multinazionali per tecnologiche avanzate (come Cisco e Oracle) sono state tra le prime che hanno trasferito i loro acquisti e gran parte delle loro vendite sul Web
33
Sicurezza in reteSicurezza in rete
Dalla rapida crescita delle transazioni economiche sulla rete proviene la necessità di incrementare la sicurezzasicurezza ; se un hackerhacker rubasse i numeri delle carte di credito usate per acquisti on–lineon–line o ottenesse l’accesso agli archivi di una banca, potrebbero verificarsi perdite economiche catastrofiche
La sicurezza in rete coinvolge:
il problema dell’autenticazione autenticazione (verifica dell’identità di chi
effettua la transazione)
il problema della crittazione/decrittazionecrittazione/decrittazione (per la sicurezza
dell’informazione durante la trasmissione)
la tolleranza ai guastitolleranza ai guasti (per la sicurezza delle transazioni in
presenza di guasti software/hardware)
34
Ricerca di informazioneRicerca di informazionesul Websul Web
35
Perché non è facile trovare Perché non è facile trovare informazione sul Web?informazione sul Web?
Enorme massa di informazione — 20 miliardi di pagine (stimate), 48 milioni nel Web italiano, 3 milioni di pagine aggiunte ogni giorno; il Web raddoppia ogni 2 anni
L’informazione è spesso accessibile solo attraverso maschere di ricerca
I motori di ricerca indicizzano le pagine con circa 15 giorni di ritardo
Poca o nessuna possibilità di personalizzare gli strumenti di ricerca
36
Il modello a Il modello a papillonpapillon
Modello generato Modello generato dalla dalla
raccolta di 200 raccolta di 200 milionimilioni
di paginedi pagine
Il Il raggio del “core” raggio del “core” è è
stimato pari a 19 stimato pari a 19 clicclic
37
Deep WebDeep Web
Il deep Webdeep Web è rappresentato da tutti i siti inaccessibili ai motori di ricerca tradizionali: 500 miliardi di documenti racchiusi in oltre 100.000 siti che permettono di accedere dinamicamente ad informazioni strutturate nei propri archiviI motori di ricerca censiscono solo le singole pagine statiche dei siti, e cioè il surface Websurface Web
38
Che tipo di informazione Che tipo di informazione si trova sul Web?si trova sul Web?
Le homepage di 2500 server Web sono state classificate manualmente 83% siti commercialiIl numero di siti su argomenti specifici è abbastanza piccolo; è perciò possibile creare motori di ricerca verticali relativi ad un singolo argomentoIl 65% dei siti è in ingleseCirca il 7% degli utenti Internet sono di lingua tedesca, il 51% parlano inglese, e poco più del 7% sono giapponesi
39
Motori di ricercaMotori di ricerca
Ve ne sono probabilmente + di 3000, ma i 20 più usati 20 più usati coprono il 98% di tutte le ricerchecoprono il 98% di tutte le ricercheArchitettura dei motori di ricerca:Web crawlerWeb crawler: colleziona documenti di testo, html, etc.
IndexerIndexer: indicizza alcune delle pagine raccolte e, a fronte di ogni interrogazione, fornisce una serie di documenti in ordine ordine di importanzadi importanza
Query engineQuery engine: effettua le query sul database locale
Query interfaceQuery interface: realizza l’interfaccia per la formulazione delle interrogazioni
40
Criteri di valutazioneIndicizzazione delle pagineCopertura Freschezza dell’informazioneVelocitàAffidabilitàFacilità di utilizzo
Confrontare i motori di ricercaConfrontare i motori di ricerca
41
Come i Come i Web navigatorWeb navigator usano usano i motori di ricercai motori di ricerca
Le interrogazioni fatte in base ad un’unica chiave di ricerca sono il 50%, mentre l’1% dei termini più usati è presente nel 10% delle interrogazioniLa categoria “sesso ” è nettamente la più richiesta Per una data ricerca, ciascun utente effettua, in media, 4.87 queryIn media, vengono utilizzati 2.11 termini per ricerca; nei normali database, le interrogazioni sono tra 3 e 7 volte più articolateGli operatori booleani (andand e oror ) sono usati 1 volta ogni 15 query, ma il 33% delle volte non sono immessi in modo correttoI modificatori (+, , “ ”) sono usati 1 volta ogni 9 query, ma il 75% delle volte l’utilizzo è scorretto
42
Informazione non reperibile dai Informazione non reperibile dai motori di ricercamotori di ricerca
L’hiddenhidden Web, è il Web nascosto dietro maschere di ricerca o firewall
Porzioni di Web non raggiungibili dalle altre pagine (pagine mai puntate dall’esterno)
Pagine a cui i robot dei motori di ricerca non possono accedere a causa dei “Robots exclusion standardsRobots exclusion standards ”
Il Web dinamico dinamico (deep Web), che varia più velocemente della frequenza di aggiornamento dei database dei motori di ricerca
43
Perché i motori non indicizzano Perché i motori non indicizzano tutto il Web?tutto il Web?
Limiti tecnologicia) Banda/tempo per effettuare il downloadb) Spazio su disco per memorizzare l’informazione
Vi è un limite oltre il quale non è Vi è un limite oltre il quale non è economicamente conveniente indicizzare di economicamente conveniente indicizzare di più…più…
Soluzione:Soluzione: Motori di ricerca specializzatiMotori di ricerca specializzati,, portali portali verticaliverticali
44
Una generazione avanti: Una generazione avanti: GoogleGoogle
Google Google tiene in considerazione l’informazione topologica inclusa nell’ipergrafo del WebPageRankPageRank, il metodo di indicizzazione utilizzatoda Google, usa concetti simili a quelli classici dell’editoria cartacea per valutare l’importanza di una pagina; tiene conto di…
…quanti link puntano ad una pagina per deciderne l’importanzainoltre, link da pagine popolari sono più importanti
Esamina il testo dei link della pagina per valutare la necessità di sondarli in relazione alla stessa interrogazioneGoogle indicizza più di 8 miliardi di pagine (gennaio 2005): raggiunge così un numero di elementi web ricercabili che supera quello di qualsiasi altro concorrente
Top Related