1 Querying Modelli per la ricerca. 2 Modelli di Retrieval Un modello per il retrieval specifica...

Querying

Modelli per la ricerca

Modelli di Retrieval

Un modello per il retrieval specifica rappresentazione dei documenti rappresentazione delle queries la funzione di retrieval

Due classi di modelli Boolean Modelli spazio query

Documento: insieme di keywords Queries: espressioni Boolean Ricerca: Ok se le keywords satisfano la query

Boolean

Si può aggiungere: diverse strategie stopword removal e

stemming mantere diverse informazioni ausiliarie

nell’indice e usare diversi metodi di implementazione

Modello Boolean

E’ il più popolare facile da comprendere sfrutta il vantaggio del calcolo proposizionale

Implemtazioni efficienti identif. documenti con una certa parola supporto di strut. ausiliarie, e.g., forward index per

la cancellazione I MB si possono estendere per includere ranking (non

facile)

MB: Aspetti Positivi

Molto rigido E’ difficile esprimere domande complesse documenti recuperati

tutti i documenti che soddisfano possono essere recup.

Non è facile fare ranking delle uscite tutti i documenti soddisfano la query nello

stesso modo E’ difficile implementare relevance feedback

E’ un difficile problema di inferenza induttiva

MB: Aspetti Negativi

Un EsempioValutazione di Blair & Maron [CACM, March

1985] 40,000 documenti legali. STAIRS (IBM 70’s) - usato da avvocati. Interazione con operatori per la

“migliore” formulazione della Boolean Interazione finchè il risultato è

soddisfacente Media: Precisione =20% Recall = 80%

Un documento è una lista di keywords La similiarità è basata sulla frequenza di

occorrenza Gli utenti specificano un insieme di termini

desiderati con pesi opzionali Weighted query terms : Q = database 0.5;

text 0.8; information 0.2 Unweighted query terms : Q = database;

text; information Non ci sono conditioni Boolean nella query

Si può supportare relevance feedback

Un po’ di Statistica ...

Come determinare le parole importanti in un documento?

Come determinare il grado di importanza della parola nel documento e nell’intera collezione?

Come stabilire il grado di similiarità? Se ho ambienti con hyperlinks … come

stabilire glli effetti dei links, della struttura e del formato(grassetto, lampeggiante ...)?

Problemi ...

Il Modello Vector-Space

Ci sono T termini distinti (index terms o vocabolario)

architecturebuscomputerdatabase….xmlcomputer science

biblotecavocabolario

Per ora: Solo termini singoli, non frasi

Modello Vector Space

I termini sono incorrelati (ortogonali) e formano il vector space

“computer” “science” “business”

CS biblioteca Tutto ciò che risulta importante

• Ma c’è in realtà correlazione tra i termini ...

Il Modello Vector-Space

Un esempio a due termini di = 0, 0 (Non contiene parole del

vocabolario) dj = 0, 0.7 (contiene una della due parole)

dk = 1, 2 (contiene entrambe le parole)

Così per 3 termini … ecc ... Un documento o una query si possono

rappresentare come combinazioni lineari di termini

Reppresentazione Grafica

Esempio:

D1 = 2T1 + 3T2 + 5T3

D2 = 3T1 + 7T2 + T3

Q = 0T1 + 0T2 + 2T3

D1 = 2T1+ 3T2 + 5T3

D2 = 3T1 + 7T2 + T3

Q = 0T1 + 0T2 + 2T3

• E’ D1 o D2 più simile a Q?• Come si misura il grado di

similitudine?

Collezione dei Documenti

Collezione documenti: matrice

T1 T2 …. Tt

D1 d11 d12 … d1t

D2 d21 d22 … d2t

: : : : : : : :Dn dn1 dn2 … dnt

Misura di Similiarità

Misura Similiarità: grado di similiarità tra coppie di vettori N.B.: queries e documenti sono vettori!

Qual è la migliore funzione (se ne esiste una valida per tutte le stagioni!)

Si possono stabilire soglie per controllare la dimensione del retrieved set

Come usare info di relevance feedback?

Il Prodotto Scalare

sim ( Di , Q ) = dik qk)

dik è il peso del termine k nel documento i e qk è il peso del termine k nella query

Vettori binari: numero di matched query terms nel documento

Inner Product -- Examples

Binary: D = 1, 1, 1, 0, 1, 1, 0

Q = 1, 0 , 1, 0, 0, 1, 1

sim(D, Q) = 3

retrieval

database

architecture

computer

management

information

D1 = 2T1 + 3T2 + 5T3 D2 = 3T1 + 7T2 + T3

Q = 0T1 + 0T2 + 2T3

sim(D1 , Q) = 2*0 + 3*0 + 5*2 = 10

sim(D2 , Q) = 3*0 + 7*0 + 1*2 = 2

Proprietà prod. scalare

Favorisce documenti lunghi documenti lunghi cresce linearmente …

Interessante l’ortogonalità: un documento che parla della torta mantovana ha verosimilmente prod. Scalare nullo con uno che parla di basket!

Normalizzazione coseno

D1 = 2T1 + 3T2 + 5T3 CosSim(D1 , Q) = 5 / 38 = 0.81D2 = 3T1 + 7T2 + T3 CosSim(D2 , Q) = 1 / 59 = 0.13

Q = 0T1 + 0T2 + 2T3

D1 è 6 volte meglio di D2 con il coseno ma solo 5 volte meglio

con il prodotto scalare

∑ ∑

kik1 1

)(CosSim(Di, Q) =

Altre Similiarità .

D1 = 2T1 + 3T2 + 5T3 Sim(D1 , Q) = 10 / (38+4-10) = 10/32 = 0.31D2 = 3T1 + 7T2 + T3 Sim(D2 , Q) = 2 / (59+4-2) = 2/61 = 0.04

Q = 0T1 + 0T2 + 2T3

D1 è 9.5 volte meglio di D2

Qual è la differenza rispetto al cos?

∑ ∑∑

•−+

kik1 11

Coeff. Jaccard :

Versioni Binarie

∑ ∑∑

•−+

kik1 11

Prodotto Scalare:

Coseno:

Jaccard :qkdiqkdi

∩−+

∑ ∑

kik1 1

kkik qd

)( qkdi ∩

di e qk qui sono insiemi di keywordsdi e qk qui sono vettori

Term Weightstfij = frequenza del termine j nel documento i

df j = document frequency del termine j

= no. documenti che contengono il term j

idfj = inverse document frequency del termine j

= log2 (N/ df j) (N: numero doc. collez.)

Inverse document frequency -- un indicatore di termini discriminatori: non servono termini che sono in “tutti” i documenti!

Term Weight

Tipico pesowij = tfij idfj = tfij log2 (N/ df j)

Alto peso: termini frequenti nel documento e rari nella collezione

Un altro peso:

wij = (tfij /maxl{tflj}) idfj = (tfij /maxl {tflj}) log2 (N/ df j)

maxl{tflj} è la term frequency del più frequente termine nel documento j

system

computer

database

science D2, 4

Index terms df

Dj, tfj

Opzionali: possono risiedere su file separato

posting

postings list

Implementazione

Parole e documenti: 16-bit o 32-bit

key content

• Come rappresentare tfmax?

• Come gestire la cancellazione di doc.?

• Perché non memorizzare direttamente idf?

Serve un “forward index”: Dato un documento, restituisce i terms che contiene e, forse, il suo più alto tf.

Implementazione

Ranking con op. Boolean

Si filtra prima con Boolean, poi si fa ranking nel vector-space

Combinazione Boolean e Vector-Space

Boolean filter

ranking

documenti

Vector-spacequery

resultati

Booleanquery

Complementi per la lezione

Indici inversi:I.H. Witten, A. Moffat, and T.C. Bell, “Managing Gigabytes,Compressing and Indexing Documents and Images,”Morgan kauffmann, 1999chapter 4

1 Querying Modelli per la ricerca. 2 Modelli di Retrieval Un modello per il retrieval specifica...

Documents

Transcript of 1 Querying Modelli per la ricerca. 2 Modelli di Retrieval Un modello per il retrieval specifica...

Sistemi per il recupero delle informazioni INFORMATION RETRIEVAL.

I MODELLI Cosa sono? Rappresentazione concettuale, spesso semplificata della realtà capace di spiegarne il funzionamento attraverso oggetti di uso comune.

Database & Information Retrieval GRUPPO 3 Corso di Didactics of Computer Science 6 Maggio 2011.

Information Retrieval Definizioni e metodi classici.

Modelli Geometrici per l'apprendimento automatico e l'Information … · Modelli Geometrici per l’apprendimento automatico e l’Information Retrieval R. Basili Corso di Web Mining

Data Retrieval @ Sissa 2014

Modelli di rappresentazione delle professioni e relative ... · Modelli di rappresentazione delle professioni e relative competenze: ipotesi di lavoro per la PA Pag. 7 prioritaria

Modelli di rappresentazione dei processi artistico/culturali Progetto Andasa, Susanna Tornesello, Comunicatrice e Cultural Project Manager

LEGGEREE% COMPRENDERE UNTESTO e comprendere un... · LEGGERE.!COMPRENSIONE!:!!formarsi!rappresentazioni!mentali! corrispondenS!alle!intenzioni!dell’autore!in!qualche!modo.!!!MODELLI=rappresentazione!schemacaed

Modello di rappresentazione concernente i modelli di ... · Superfici per la promozione della bio-diversità, livello qualitativo ll Cantoni [UFAG] 153.4 Superfici per la promozione

La rappresentazione delle Informazioni · Codifica Decodifica Informazione comprensibile da un utente umano Rappresentazione digitale. rappresentazione "decimale posizionale". Oltre

Rappresentazione dell'Informazione€¦ · Rappresentazione dell'informazione 4/53 Rappresentazione dell'informazione I calcolatori elettronici rappresentano qualsiasi tipo di informazione

I MODELLI TESTUALI. TESTO DESCRITTIVO Osservazione Rappresentazione (ordine logico spaziale) Denotativo Connotativo.

Shape-based visual information retrieval Enver Sangineto Dipartimento di Informatica sangineto@di.uniroma1.it.

NEUROMODULATORY APPROACHES AND POTENTIAL CLINICAL …paduaresearch.cab.unipd.it/10395/1/davide_francesco_stramaccia_th… · 1.4.1 neural correlates of the retrieval-practice phase

Valutazione delle prstazioni di un sistema di retrieval.

Rappresentazione tridimensionale di modelli digitali …(funzionantiattraversopianteedalzati,(perabbracciare unaconcezionetridimensionalegiàdalloschizzoideativo,(seguendouna logicaoggipropostadasvariatiprogrammiCAD?Certamente“

Linguaggio naturale Mondo Rappresentazione del mondo conoscenza Modelli mentali percezioni Ragionamento Parlare del mondo Mondo della Vita Linguaggi di.

Sistemi Multimediali - ingegneria-informatica.unina.it · Elaborato finale in Sistemi Multimediali Tool per l’image annotation & retrieval Anno Accademico 2013/2014 Candidato: De

Rappresentazione di un edificio - Home PCI - …profgiuseppeclemente.altervista.org/alterpages/.../RAPPRESENTAZIONE... · Rappresentazione di un edificio ... La pianta è una sezione