Paolo Ferragina, Università di Pisa Motori di Ricerca presente e futuro prossimo Cosa è un motore...

Paolo Ferragina, Università di Pisa

Motori di Ricercapresente e futuro prossimo

Cosa è un motore di ricerca ?

Un lavoro storico: Brin & Page [1998]

Motore di Ricerca: struttura W

Crawler

Archivio Pagine

Analizzatorepagine

Controllo

Risolutore

AnalizzatoreRilevanza

TestoStruttura

Utilità

Indicizzatore

Il Web

“Surface Web”: 25 ÷ 75 Terabytes (1Tb = 1000 Gb)

6 miliardi di pagine (cambiano circa 10 milioni al giorno)

Pagina in media 5 ÷ 40Kb, #links ~ 10

Circa il 23% delle pagine è duplicato

“Hidden Web”: circa 500 volte più grande Siti intranet, database, pagine dinamiche,…

Circa 4,200 Tb di dati testuali interessanti

Una immagine pittorica del Web

Alcuni dati

Velocità di cambiamento [snapshot settimanale nel 2004: 154 web sites, 35 mil pg, 65Gb]

Normalizzatarispetto prima

settimana

Motori di Ricercapresente e futuro prossimo

Cosa è un crawler ?

Fase di Crawling Numerosi problemi di progettazione:

Copertura: Quali pagine occorre visitare ?

Aggiornamento: Quanto spesso occorre visitarle ?

Invadenza: Come minimizzare il carico dei siti visitati ?

Efficienza: Come parallelizzare il processo di “crawling” ?

Scalabilità: Come gestire il “flusso” di pagine ?

Link Extractor

while(<ci sono pagine da esaminare nel repository>){

<inserisci i link estratti in una coda, ciascuno

con una priorità dipendente dalla politica scelta> <marca p come pagina da cui abbiamo estratto i link>}

Downloader

while(<ci sono link assegnati dal Manager>){

<invia le pi al page repository>}

Crawler Manager<estrai un gruppo di link dalla coda in ordine di priorità>

while(<ci sono link nel gruppo>){ foreach link u { if ( (u “pagine già viste” )

|| ( u “pagine già viste” && <sul Web server la pagina è più recente> ) && ( <u è un link accettato dal robot.txt del sito>) ) {

“Ciclo di vita” di un Crawler

Politica di selezione delle pagine Data una pagina P, definire quanto sia “buona”.

Esistono molte metriche:

Guidate dal topic coperto dal motore Guidate dalla popolarità BFS, DFS, Random Strategie combinate

BFSDFS

Raggiungimento di pagine interessanti

Alcuni risultati

Focused Crawling

Si scelgono selettivamente le pagine sulle quali continuare la visita,

in accordo a un insieme di topic rilevanti definiti apriori.

I topic sono specificati mediante documenti campione

I topic sono specificati mediante indirizzi

Risparmio di risorse di rete e di hardware.

Esempi di crawler open-source

Nutch, also used by Yahoo Hentrix, used by Archive.org

Paolo Ferragina, Università di Pisa Motori di Ricerca presente e futuro prossimo Cosa è un motore...

Documents

Transcript of Paolo Ferragina, Università di Pisa Motori di Ricerca presente e futuro prossimo Cosa è un motore...

PIANO TRIENNALE DI ATTIVITA 2016 – 2018 SCHEDE DI … · Tale progettualità mostrerà una profonda sintonia con le linee guida del prossimo Programma Quadro della ricerca europea,

Paolo Ferragina, Università di Pisa Motori di Ricerca presente e futuro prossimo Rilevanza dei Risultati: Prima generazione.

Pronomi diretti al passato prossimo

· 21. mitrache corina alexandra 22. pisera' giuseppe 23. vecchio federica 24. serewa kacper 25. desiderato giuseppe costa alessandro ferragina mariateresa no no no no no no 6,90

IL PROSSIMO APPUNTAMENTO

Redazione superando .17 Crediti Ricerca avanzata ... · Mondiale dell'Autismo Progetto europeo S. Rita Sala e Luca Des Dorides saranno i protagonisti, il 15 marzo, del prossimo appuntamento

Motori di Ricerca presente e futuro prossimo

Presentazione standard di PowerPoint€¦ · Eugenia Ferragina Indice Introduzione, di Eugenia Ferragina APERTURA DEI LAVORI Felice Esposito Corcione, Marcello Colantoni, Angelo Grillo,

Curriculum Vitae Eugenia Ferragina INDIRIZZO Ferragina.pdf · 1992-4: Diploma Speciale (D.E.A. Diplôme d’Etudes Avancés), presso l’Institut d’Etudes des Pays en Développement,

passato prossimo ausiliare avere.doc

Brain Profiler Certification - Six Seconds · Ti riconosci? Ricorda: queste sono le informazioni che ricerca il tuo cervello per lavorare al meglio! Il prossimo passo è approfondire

Newsletter Uilcarige 02 2014 · newsletter che scriviamo al buio. Dal prossimo numero del Notiziario smetteremo di ... impedimento per una corretta ricerca di buone soluzioni. Ci

Passato Prossimo

Imperfetto - Passato Prossimo

Il passato in italiano Il Passato Prossimo. The passato prossimo con avere e participi passati regolari Prima Parte.

FARSI PROSSIMO - Milano

PIace : giovedì prossimo concerto

Lettura Passato Prossimo

AIRI - ASSOCIAZIONE ITALIANA PER LA RICERCA … · Farmaceutica e biotecnologie, ... del prossimo futuro sulle quali puntano le industrie italiane, ... linee tecnologiche industriali

Passato Prossimo - Esercizi PDF