I motori di_ricerca_2

32
Internet I motori di ricerca Ricercare contenuti dal web.

description

Gli operatori di ricerca avanzati, Analisi di una ricerca avanz

Transcript of I motori di_ricerca_2

Page 1: I motori di_ricerca_2

InternetI motori di ricerca

Ricercare contenuti dal web.

Page 2: I motori di_ricerca_2

L'input della ricerca

Ci sono alcune caratteristiche intrinseche di cui qualsiasi utente usufruisce "automagicamente":autocorrezione, stemming o riduzione automatica, "AND" implicita, trattamento indifferente maiuscole e minuscole e delle parole suddivise

Riferimenti:http://www.google.com/support/websearch/bin/answer.py?answer=136861#exceptionshttp://www.adamantio.net/wordpress/category/web/google-guide/

Page 3: I motori di_ricerca_2

Le stopwords

I caratteri speciali quali:

@ # $ % ^ & * ( ) = + [ ] \

vengono in genere ignorati.

Allo stesso modo vengono ignorate anche le congiunzioni le preposizioni, gli articoli etc... a meno che non siano interpretate come discriminanti dal motore.

Page 4: I motori di_ricerca_2

I risultati al microscopio

Page 5: I motori di_ricerca_2

Operatori logici/booleani/jolly

Gli operatori booleani sono quei simboli che ci consentono di concatenare, sottrarre o alternare termini di ricerca e/o operatori. Mentre i caratteri jolly ci consentono di accettare variazioni nel termine di ricerca AND Ricerca <arg/op1> ed <arg/op2>. Per Bing le "AND" pesano più delle "OR" ed hanno la precedenza.

OR Ricerca <arg/op1> o <arg/op2>. Su GigaBlast vengono preferite le pagine in cui appaiono tutti gli elementi(!).

NOT risultati contenenti i termini -<arg/op> devono(!) essere esclusi- Equivale a "NOT"

+ I termini +<arg/op> devono(!) far parte dei risultati

| Equivale a "OR"

|| Equivale a "OR" solo per Bing& Equivale a "AND"

&& Equivale a "AND" solo per Bing

"" Stringa esatta. Solo per Google equivale a "+"

() Stabilisce la precedenza. Vengono valutate prima le espressioni fra parentesi. Per Bing serve come separatore di argomenti per alcuni metaoperatori

* . "*" Carattere Jolly per Google che sostituisce una o più parole in una frase; "." un carattere in una parola

: Vengono utilizzati per separare i temini o gli argomenti dagli operatori o metaoperatori

.. Operatore di gamma di valori numerici di Google. Ricerca fra i valori: <arg/op1>..<arg/op2>

~ Operatore di somiglianza di Google

Page 6: I motori di_ricerca_2

"(a -b)|(b -a)" oppure "(a NOT b) OR (b NOT a)"

La logica booleana

Solo "a"Solo "B"

"a OR b" oppure "a|b"

"a NOT b" oppure "a -b"

"b NOT a" oppure "b -a"

"a AND b" oppure "a b"

Page 7: I motori di_ricerca_2

Gli operatori logici: "AND" o "&"

Utilizzabile su: Tutti

Argomenti necessari: >1● le keyword

Sintassi: <key1> <key2>

Risultato: Si otterrà un elenco di risultati che conterranno tutte le chiavi; ma anche parte di esse (merito dell'algoritmo).

Page 8: I motori di_ricerca_2

Gli operatori logici: "OR" o "|"

Utilizzabile su: Tutti

Argomenti necessari: >1● le keyword

Sintassi: <key1> OR <key2>; <key1>|<key2>

Risultato: Si otterrà un elenco di risultati che conterranno almeno una delle due chiavi, ma anche tutte e due.

Page 9: I motori di_ricerca_2

Gli operatori logici: "NOT" o "-"

Utilizzabile su: tutti*

Argomenti necessari: >1● le keyword

Sintassi: <key1> NOT <key2>; <key1> -<key2>

Risultato: Si otterrà un elenco di risultati che conterranno una* delle due chiavi.

* Su google NOT non funziona va usato il segno -

Page 10: I motori di_ricerca_2

Gli operatori jolly: "*" e ".."

Utilizzabile su: Solo google

Argomenti necessari: >1● le keyword per l'operatore "*"● la gamma per l'operatore ".."

Sintassi: <key1> * <key2> ; <key> <num>..<num>

Risultato: Per l'operatore "*" si otterrà un elenco di risultati che fra le keyword fornite avranno una o più parole suggerite.Per l'operatore ".." si otterrà una query che conterrà qualsiasi* valore compreso nella gamma.

Page 11: I motori di_ricerca_2

Gli operatori avanzati

Breve elenco degli operatori avanzati più comuni:

Riferimenti ufficiali:http://help.yahoo.com/l/us/yahoo/search/basics/basics-04.htmlhttp://www.google.com/intl/gn/help/operators.htmlhttp://onlinehelp.microsoft.com/it-IT/bing/ff808535.aspxhttp://gigablast.com/help.html

A/B/GB/G/Y site:<dominio> <key> Ricerca la chiave su un dominio

A/B/G/Y intitle:<key> Ricerca solo nei titoli

A/G/ inurl:termine Ricerca il termine nelle URL

B/G/Y inanchor:<key> Ricerca negli anchor text

B/G/GB/Y filetype:<key> Ricerca la chiave nel tipo di file

B/Y instreamset:(<args>):<key> Ricerca la chiave selezionata nei/l metattag fornito come argomento

G - B/Y cache:<url> / url:<ulr> Verifica che l'url fornito sia presente nell'indice

Page 12: I motori di_ricerca_2

Gli operatori avanzati: "site"

Utilizzabile su: Ask, Bing, Gigablast, Google e Yahoo

Argomenti necessari: 2● Il dominio● la keyword

Sintassi: site:<domain> <key>

Risultato: Si otterrà un elenco di risultati che avranno come comune denominatore la chiave di ricerca ed il dominio

Page 13: I motori di_ricerca_2

Gli operatori avanzati: "intitle"

Utilizzabile su: Ask, Bing, Google e Yahoo

Argomenti necessari: 1● keyword

Sintassi: intitle:<key>

Risultato: Si otterrà un elenco di risultati che avranno come comune denominatore la chiave di ricerca nel titolo della pagina.Google fornisce un operatore aggiuntivo "allintitle:" che consente la ricerca di più keyword nel medesimo tag. Per gli altri motori si dovrà procedere con una AND.

Page 14: I motori di_ricerca_2

Gli operatori avanzati: "inurl"

Utilizzabile su: Ask, Google e Gigablast

Argomenti necessari: 1● keyword

Sintassi: inurl:<key>

Risultato: Si otterrà un elenco di risultati che avranno come comune denominatore la chiave di ricerca nell'url della pagina.Google fornisce un operatore aggiuntivo "allinurl:" che consente la ricerca di più keyword nel medesimo tag. Per gli altri motori si dovrà procedere con una AND.

Page 15: I motori di_ricerca_2

Gli operatori avanzati: "inanchor"

Utilizzabile su: Bing, Google e Yahoo

Argomenti necessari: 1● keyword

Sintassi: inanchor:<key>

Risultato: Si otterrà un elenco di risultati che avranno come comune denominatore la chiave di ricerca nell'anchor della pagina.Google fornisce un operatore aggiuntivo "allinanchor:" che consente la ricerca di più keyword nel medesimo tag. Per gli altri motori si dovrà procedere con una AND.

Page 16: I motori di_ricerca_2

Gli operatori avanzati: "filetype"

Utilizzabile su: Bing, Google, Gigablast e Yahoo

Argomenti necessari: 2● estensione "dos"● keyword

Sintassi: filetype:<ext> <key>

Risultato: Si otterrà un elenco di risultati che avranno come comune denominatore la chiave di ricerca individuata all'interno del file di cui è stata specificata l'estensione o comunque pertinente il file (nome o descrizione semantica).

Page 17: I motori di_ricerca_2

Gli operatori avanzati: "cache/url"

Utilizzabile su: Google il primo e Bing e Yahoo il secondo

Argomenti necessari: 1● url

Sintassi: cache/url:<url>

Risultato: Si otterrà per google la visualizzazione della porzione di pagina catturata dal bot (100kb); si noti che le immagini, benché visualizzate non provengono dalla server farm di Mountain View, ma dal sito che le ospita*. Mentre per Bing o Yahoo viene restituito l'url stesso, come prova della sua indicizzazione.

Page 18: I motori di_ricerca_2

Gli operatori avanzati: "instreamset"

Utilizzabile su: Bing e Yahoo

Argomenti necessari: >=2● una o più tag/metatag separate da un operatore logico● keyword

Sintassi: instreamset:(<tag><logOp><optTag>):<key>

Risultato: Si otterrà per google la visualizzazione della porzione di pagina catturata dal bot (100kb); si noti che le immagini, benché visualizzate non provengono dalla server farm di Mountain View, ma dal sito che le ospita*. Mentre per Bing o Yahoo viene restituito l'url stesso, come prova della sua indicizzazione.

Page 19: I motori di_ricerca_2

Mettiamo tutto insieme

Si debbono conoscere esattamente le caratteristiche di ciò che si cerca per trovare qualcosa...

Page 20: I motori di_ricerca_2

Il directory listing

Estrapolare files dal "directory listing" dei server web:

intitle:index.of server.at site:miodominio.com

Page 21: I motori di_ricerca_2

Il directory listing

Estrapolare files dal "directory listing" dei server web:-inurl:(htm|html|asp|php) intitle:index.of server.at "last modified" "parent directory" "description" "size" "(wma|mp3)" "vasco rossi" -site:wallywashis.name

oppure in un altra sintassi:"last modified" "parent directory" "description" "size" "vasco rossi" intitle:index.of server.at (wma OR mp3) (-inurl:htm OR -inurl:html OR -inurl:php) -site:wallywashis.name

su bing si potrebbe tentare:"vasco rossi" -url:(html|htm|asp|php) intitle:index.of server.at +size + parent +directory +(.mp3 OR .wma)

-inurl:(htm|html|asp|php) = nessuna estensione per la pagina

intitle:index.of = "index of" nel titolo della pagina

"last modified" "parent directory" "description" "size" "(wma|mp3)" "vasco rossi" = parole chiave obbligatorie nel corpo della pagina, specificazione tipo files ricercati

Page 22: I motori di_ricerca_2

Analisi di una ricerca complessa

Page 23: I motori di_ricerca_2

Altri strumenti di ricerca

Alcune distribuzioni Linux offrono degli strumenti che possono essere utilizzati per ricavare una serie di informazioni dettagliate dai motori di ricerca direttamente da una shell di comandi, es: GHDB http://www.hackersforcharity.org/ghdb/

GOOFILEhttp://code.google.com/p/goofile/

Esse sfruttano il potere della shell linux per l'automazione e le cosiddette "google dorks" (quelle speciali stringhe di ricerca che offrono risultati interessanti ai fini del web security assesment).

Page 24: I motori di_ricerca_2

Pannelli di ricerca avanzati

Benché sia possibile effettuare ricerche complesse utilizzando, assieme al termine da ricercare quelle speciali parole definite come "operatori avanzati", Google e Yahoo permettono di ottenere i medesimi risultati da una pagina dedicata e semplificata.

Riferimenti:http://www.google.com/support/websearch/bin/answer.py?answer=136861#exceptions

Page 25: I motori di_ricerca_2

Le scorciatoie (shortcuts)

Elenco delle scorciatoie principali: ● Google/Yahoo. Calcolatrice: [4 * (12 - (6 / 3))]● Convertitori di misura o valute;

○ Google: [50 euro in dollari]; [3 piedi in metri]○ Yahoo in italiano: [cambiavalute] (riporta su uno speciale applicativo)○ Yahoo (sito inglese): [convert 50 euro dollars]; [convert 7 feet to m]

● Google/Yahoo. Meteo: [meteo milano]● Google. Risultati sportivi: [roma calcio]; [ac milan]; [ss lazio]; ...● Google. Correttore ortografico e sinonimi: [carotta] (forse cercavi carota...) ● Google/Yahoo. Ricerca in locazione: [pizzerie a napoli] (google restituisce anche una

mappa)● Yahoo. Sinonimi: [synonym awsome]● Google/Yahoo. Definizione da dizionario: [define agnostico]● Google. Mappe: [mappa albano laziale] (google restituisce anche una mappa)

Riferimenti ufficiali:http://www.google.it/intl/it/help/features.htmlhttp://help.yahoo.com/l/us/yahoo/search/basics/basics-05.html;_ylt=ArIv_4dIhgPOVWShdjJjDMykOCd4http://help.yahoo.com/l/it/yahoo/search/tips/tips-01.html;_ylt=AqsXKgZcTA2OUhGSe0njIEvKRSV4

Page 26: I motori di_ricerca_2

Ricerche correlate

Opzioni per la ricerca:la pagina delle ricerche correlate ci propone i termini più frequentemente utilizzati assieme alla nostra richiesta.

Page 27: I motori di_ricerca_2

Sequenze temporali

Opzioni per la ricerca:La pagina delle sequenze temporali ci fornisce un estratto cronologico delle pagine.

Page 28: I motori di_ricerca_2

Pagine visitate/Pagine nuove

Opzioni per la ricerca: cercare un termine solo nelle pagine che si è già consultato, o escluderle a priori; combinare questa ricerca con dei filtri di tempo.

(Richiesto Google Account)

Page 29: I motori di_ricerca_2

Ricerche personali...

Google esamina per ragioni di marketing tutti i nostri movimenti.

Anche se non abbiamo accesso ad un account Google, mediante i cookies vengono determinate le nostre scelte e preferenze per farci vivere una navigazione più amichevole(!).

Page 30: I motori di_ricerca_2

e personalizzate...

Pannello di impostazione di un motore di ricerca personalizzato.

Page 31: I motori di_ricerca_2

Ricerche programmate

Google ci da la possibilità di mettere dei "cani da guardia" su interrogazioni specifiche.

Page 32: I motori di_ricerca_2

Q&A

Grazie per l'attenzione