Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B...

Post on 16-Feb-2019

216 views 0 download

Transcript of Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B...

Informatica per

le discipline umanistiche 2– lezione 15 –

 

Nella lezione precedente:"

"

"

In realtà non tutto il data mining è dettato

dagli interessi economici…"

data mining"(commercial)"

Abbiamo visto risvolti commerciali perché di fatto ci siamo concentrati su dati commerciali. "

""

data mining"(text)"

Ma ci sono altri tipi di dati, come ad esempio i testi scritti. "

""

text mining"

E’ una tecnica di elaborazione automatica dei testi, con lo scopo di estrarre da essi nuova informazione. """

Text mining""

"

Le informazioni estratte vengono composte per formare nuovi fatti o nuove ipotesi da verificare u l ter iormente con mezzi p iù c lassic i d i sperimentazione.""

text mining≠

web search"

Obiettivo:estrarre nuova informazione che non era presente prima (almeno non in maniera esplicita)."

Text mining""

"

Problema:scartare il materiale non rilevante alla nostra ricerca."

"

Obiettivo:t r o v a r e informazione già esistente."

Web search""

"

Problema:l’informazione non è attualmente presente e va creata.""

data mining"

text"Di fatto, i testi sono un tipo particolare di dati, e il text mining può essere considerato un tipo particolare di data mining. """

Si potrebbe pensare, quindi, che le svariate tecniche del data mining si possano applicare al caso particolare dei testi. """

Solo che… ""

"

data mining"

text"

database"

matricola" facoltà"23456! ing!19797! let!21215! let!

Solo che… ""

"

…il data mining si effettua su database, che sono tipicamente dati organizzati in tabelle… "

""

…mentre nel text mining si cercano i pattern interessanti in testi scritti in linguaggio naturale. "

""

Ogni tecnica che mira ad elaborare in maniera automatica il linguaggio naturale viene considerata come parte della disciplina del Natural Language Processing (NLP). ""

"

Il text mining è un caso speciale di NLP perché si concentra esclusivamente sui testi scritti. "

""

Il NLP comprende però anche l’analisi del l i n g u a g g i o p a r l a t o ( a d e s e m p i o , c o l riconoscimento vocale). """

Il prodotto con riconoscimento vocale del momento (novembre 2011) è l’iPhone 4S con Siri. "

""

Torniamo ai testi:il text mining è un modo di analizzarli con il supporto del computer, in modi diversi. """

In contrasto con quanto visto con il data mining, prendiamo un campo di applicazione radicalmente diverso: la ricerca medica."

""

MEDLINE è un catalogo online di articoli da oltre 5000 riviste mediche dal 1950 ad oggi.Attualmente (2011), MEDLINE contiene riferimenti a più di 21 milioni di articoli."

""

La ricerca medica è divisa in campi e sottocampi altamente specializzati, con poca comunicazione (e scambi di idee) tra discipline diverse.Questa separazione potrebbe essere necessaria e utile alla ricerca specializzata in questo campo, ma può anche avere l’effetto di restringere le prospettive, impedendo la creazione di connessioni tra le varie scoperte."

L’elaboratione manuale dei testi con la loro indicizzazione sulla base di parole chiave aiuta, ma da un’analisi di MEDLINE è emerso che molti concetti presenti nei testi degli articoli non erano rappresentati da alcuna parola chiave.Chiaramente, i testi della letteratura medica contengono informazioni importanti per i r i c e r c a t o r i c h e p o s s o n o n o n e s s e r e completamente colte da revisori e curatori di questi articoli."

Come al solito, laddove l’azione umana non è abbastanza precisa o veloce, cerchiamo di delegare il compito a un computer."

Che cosa NON è il text mining""

"Il web search è la ricerca di un documento in

particolare tra miliardi di altri che non ci interessano.Il text mining, invece, è la ricerca di conoscenza che colleghi tra loro documenti diversi. ""

"

Abbiamo già detto che NON è web search"

La conoscenza che si cerca tramite il text mining coinvolge più documenti. ""

"

Per questo il text mining NON coincide con quelle pratiche automatiche di elaborazione dei testi che si focalizzano su un testo solo, come ad esempio l ’ i n fo rmat ion ex t rac t ion oppure l a t ex t summarization. ""

"

Information extraction""

"

Dato un CV (meglio se in formato standard, come il CV europeo) , s i es t raggono a u t o m a t i c a m e n t e c e r t e informazioni, come il nome, il congnome, la data di nascita. ""

"

Esempio:"

Text summarization""

"

Dato un testo, se ne fornisce un breve riassunto basato sulle parole più frequentemente usate (a parte quelle non significative, come “il” o “di” o “e”, chiamate stopword)." ""

"

Esempio:"

Text mining""

"

Come nel data mining, esistono numerose

tecniche."

""1. Named entity recognition (NER)""

"

L’obiettivo è di riconoscere, all’interno di una collezione di testi, tutti i nomi di uno specifico tipo di entità. Ad esempio, tutti i nomi di entità biologiche all’interno di una serie di articoli da rivista."

Problemi con i nomi""

"

Per la maggior parte dei tipi di nomi di entità biologiche, non esiste un dizionario completo. Perciò una tecnica automatica di ricerca e matching non funziona."

La stessa parola può riferirsi a entità diverse (ad es. ferritina può essere una sostanza biologica o un test di laboratorio)."

Molte entità biologiche hanno diversi nomi (ad es. PTEN e MMAC1 si riferiscono allo stesso gene)."

Le entità biologiche posso avere anche nomi composti da più parole (ad es. “arteria carotide”), quindi sorge anche il problema di stabilire i confini tra un nome e altre parole nel testo."

Gli approcci per risolvere il problema NER sono 4:1. basato sul lessico 2. basato su regole3. statistico4. una combinazione dei precedenti"

"Il risultato di un sistema automatico che fa NER è dato da un etichettatura di tutti i nomi con il tipo calcolato, con un eventuale grado di confidenza nel risultato."

Le performance dei s is temi NER sono misurate in termini di precision/precisione e di recall/richiamo."

Precision = n° predizioni corrette / n° predizioniRecall = n° predizioni corrette / n° nomi nel testoEsiste anche un’unica misura chiamata F-score F-score = 2Pr*Re/(Pr+Re)"

2. Relationship extraction""

"

L’obiettivo è di rilevare occorrenze di tipi predefiniti di relazione tra coppie di entità di tipi specifici. "

R"

2. Relationship extraction""

"

Mentre i tipi delle entità sono solitamente molto specifici (per es. geni, proteine, principi attivi), il tipo delle relazioni può variare da molto generale (per es. una qualsiasi associazione biochimica) a molto specifica (per es. un legame di regolazione)."

I possibili metodi per scoprire queste relazioni sono numerosi:ricerca di schemi predefiniti forniti da esperti del settore;ricerca di schemi creati automaticamente analizzando i testi nell’intorno di coppie di entità di nostro interesse;analisi del testo mediante schemi “soggetto-predicato-complemento” tipici del NLP (natural language processing)."

3. Hypothesis generation""

"

Mentre l’estrazione di relazioni si focalizza sui legami tra entità esplicitamente espressi nel testo, la generazione di ipotesi mira a scoprire relazioni che non sono al momento presenti nei documenti, ma potrebbero essere inferite. Lo scopo ultimo è quello di scoprire nuove relazioni tra le entità su cui valga la pena di indagare."

Di fatto, tutti i lavori su generazione di ipotesi fanno uso di un’idea che ebbe Don R. Swanson, uno scienziato dell’informazione, chiamata ‘complementary structures in disjoint literatures’ (CSD), o ‘strutture complementari in letterature disgiunte’. "

Swanson capì che i grandi database della letteratura scientifica avrebbero potuto permettere nuove scoperte, mediante la connessione tra concetti per mezzo dell’inferenza logica."

Egli propose un semplice modello di ragionamento:se A influenza B e B influenza C, A potrebbe influenzare C.Questo modello per rilevare casi di CSD è oggi noto come il modello dell’ABC di Swanson. "

In numerosi articoli pubblicati negli anni ‘80 e ‘90, Swanson ha fornito esempi su scoperte di nuove ipotesi connettendo manualmente concetti presenti in diversi articoli scientifici. (Ad es.: benefici dell’olio di pesce sulla sindrome di Raynaud.)"

Mentre Swanson ha applicato i l suo modello ABC manualmente, numerosi ricercatori hanno tentato di automatizzare il processo.I sistemi di generazione automatica di ipotesi creano numerose potenziali ipotesi scientifiche: occorre quindi un metodo per valutare l’efficacia di tali sistemi.Il metodo più diffuso al momento è la ricerca manuale delle ipotesi generate in letteratura."

4. Synonym and abbreviation extraction""

"

per l’estrazione e la raccolta di sinonimi e abbreviazioni di un termine."

Altre tecniche tipiche del text mining"

"

"

5. Text classification""

"

per determinare automat icamente se un d o c u m e n t o è i n t e r e s s a n t e , s u l l a b a s e dell’argomento che discute o del tipo di informazioni che contiene."

Altri settori di applicazione del text mining""

"

Sicurezza: analisi di conversazioni e scambi di email in cerca di sospetti atti terroristici""

"

Editoria: automatizzare la lettura di un articolo per poter rispondere a domande di un

utente che non ha diritto di accesso all’articolo stesso"

"

"

Analisi dei sentimenti: comprensione automatica del tono delle recensioni di un film o disco (positivo o meno)"

"

"

Marketing: per una migliore relazione con il cliente; ad es. allarme automatico basato su predizione di abbandono"

"

"

Ancora qualche considerazione

sul text mining…  

Text summarization""

"

Dato un testo, se ne fornisce un breve riassunto basato sulle parole più frequentemente usate (a parte quelle non significative, come “il” o “di” o “e”, chiamate stopword)." ""

"

Esempio:"

Si è detto che la text summarization non è considerata text mining in senso stretto perché s i e f f e t t u a s u u n documento solo e non cerca collegamenti tra diversi contenuti."

""

"

Si tratta comunque di elaborazione automatica di testo."

""

"

A processor in a computer is also called a chip. A chip is the most important par t in a computer, because it is the device that performs all the operations. Even when you type “potato” on the screen, the chip is involved."

""

"

Consideriamo il seguente testo." ""

"

Analizziamolo con la tecnica della text summarization e contiamo le parole più frequenti, ignorando le stop word e punteggiatura."

"

""

processor"1"

"""

system"1"

"""

computer"1"

"""

chip"3"

"""

potato"1"

"""

called"1"

"""

important"1"

"""

part"1"

"""

performs"1"

"""

operations"1"

"""

type"1"

"""

screen"1"

"""

involved"1"

"""

device"1"

"""

you"1"

"""

A processor in a computer is also called a chip. A chip is the most important par t in a computer, because it is the device that performs all the operations. Even when you type “potato” on the screen, the chip is involved."

""

"

Come si fa a capire l’argomento del testo con la frequenza delle parole?" "

""

processor"1"

"""

system"1"

"""

computer"1"

"""

chip"3"

"""

potato"1"

"""

called"1"

"""

important"1"

"""

part"1"

"""

performs"1"

"""

operations"1"

"""

type"1"

"""

screen"1"

"""

involved"1"

"""

device"1"

"""

you"1"

"""

A processor in a computer is also called a chip. A chip is the most important par t in a computer, because it is the device that performs all the operations. Even when you type “potato” on the screen, the chip is involved."

""

"

Consideriamo la parola più frequente." ""

"

chip"3"

"""

computer chip" ""

"

potato chip" ""

"

Problema: i sinonimi" ""

"

Facendo una ricerca su Google si scopre che ‘chip’ può essere addirittura un acronimo." "

""

Come affrontare il problema?

 

I l p r o b l e m a d i c a p i r e l’argomento di cui tratta un testo è molto importante per poter individuare tale testo in mezzo ad altri, come ad esempio in una ricerca in internet." ""

"

Soluzione 1: affidarsi a ricerche più precise, con più parole chiave." ""

"

E’ la soluzione più semplice, e funziona nella maggior parte dei casi." "

""

Ma non in tutti." ""

"

processor"1"

"""

system"1"

"""

computer"1"

"""

chip"3"

"""

potato"1"

"""

called"1"

"""

important"1"

"""

part"1"

"""

performs"1"

"""

operations"1"

"""

type"1"

"""

screen"1"

"""

involved"1"

"""

device"1"

"""

you"1"

"""

A processor in a computer is also called a chip. A chip is the most important par t in a computer, because it is the device that performs all the operations. Even when you type “potato” on the screen, the chip is involved."

""

"

Il problema è che, nel testo, ‘computer’ e ‘potato’ sono frequenti nella stessa misura." "

""

Questo sembra essere un finto problema.

Infatti…  

processor"1"

"""

system"1"

"""

computer"1"

"""

chip"3"

"""

potato"1"

"""

called"1"

"""

important"1"

"""

part"1"

"""

performs"1"

"""

operations"1"

"""

type"1"

"""

screen"1"

"""

involved"1"

"""

device"1"

"""

you"1"

"""

A processor in a computer is also called a chip. A chip is the most important par t in a computer, because it is the device that performs all the operations. Even when you type “potato” on the screen, the chip is involved."

""

"

Esaminando le altre parole presenti, è chiaro che si sta parlando del computer chip e non della potato chip." "

""

In realtà…  

processor"1"

"""

system"1"

"""

computer"1"

"""

chip"3"

"""

potato"1"

"""

called"1"

"""

important"1"

"""

part"1"

"""

performs"1"

"""

operations"1"

"""

type"1"

"""

screen"1"

"""

involved"1"

"""

device"1"

"""

you"1"

"""

A processor in a computer is also called a chip. A chip is the most important par t in a computer, because it is the device that performs all the operations. Even when you type “potato” on the screen, the chip is involved."

""

"

Noi riusciamo a stabilire che le parole ‘processor’, ‘device’ e tante altre parole del testo appartengono allo stesso dominio di ‘computer’. Ma come facciamo? Ne sfruttiamo il significato."

""

"

Sappiamo bene i limiti dei computer in fatto di significato." ""

"

‘Processor’ e ‘device’ sono

termini informatici."

8"

Inoltre…  

A new brand of chips, called ‘Screen’ has become available, made from the best potatoes in England. It is marketed to appeal to a IT-oriented audience, and has computers, processors, and all sorts of devices depicted on the package. Market research has shown that people in IT, especially programmers, are large consumers of chips."

""

"

Naturalmente l’esempio è poco realistico, ma mostra i limiti dell’analisi di un testo basato esclusivamente sul conteggio dei vocaboli: funziona molto spesso, ma non in tutti i casi."

""

"

Per elaborare una soluzione che funzioni in tutti i casi, dovremmo riprodurre la classificazione degli argomenti, che un essere umano solitamente fa, in un computer."

""

"

‘Processor’ e ‘device’ sono

termini informatici."

8"

L’esperimento mentale della stanza cinese di Searle vuole dimostrare che un calcolatore che elabora simboli in maniera sintattica non può comprendere la semantica delle parole rappresentate da questi simboli." ""

"

Il computer tratta solo simboli in maniera sintattica." "

""

Vogliamo che il computer tratti anche la semantica." "

""

Deve esserci un modo di esprimere la semantica in maniera sintattica."

""

"

Sembra una cosa insensata.Eppure…" "

""

Web 2.0 1.0  

Il termine “Web 2.0”, che abbiamo visto utilizzato per descrivere il web “sociale”, in cui gli utenti sono anche creatori di contenuti e l’interazione svolge un ruolo fondamentale, è stato in realtà originariamente introdotto con un altro significato. Esiste insomma una prima versione del Web 2.0." ""

"

Semantic Web  

La prima versione del Web 2.0 è nota anche come semantic Web, o Web semantico, appunto perché si prefiggeva di arricchire internet con tecniche per la trattazione automatica del significato.L’idea è stata introdotta da colui che viene considerato come l’inventore del Web 1.0: Tim Berners-Lee." ""

"

Tim Berners-Lee  

L’idea di base del Semantic Web" ""

"

tipo di entità nel mondo"

""

"

Cat

sequenza di caratteri"

""

"

Anziché affidarsi solo alla mente dell’utente Web per creare il legame tra la sintassi dei simboli e la loro semantica…" "

""

↔"

L’idea di base del Semantic Web" ""

"

…usare dei simboli aggiuntivi, sotto forma di marcature, che rimandano a un’ontologia (simile a un vocabolario, in cui i concetti sono organizzati secondo classi di appartenenza)."

""

"

termine"

fine marcatura"

inizio marcatura"

Resource Description Framework: data model dei metadati come ‘about’"

Indirizzo della parte dell’ontologia dove viene spiegato il concetto espresso dal termine “Cat”"

Resource Description Framework" ""

"

E’ una convenzione che prescrive il modo con cui i dati con cui lavoriamo devono essere descritti, ossia fornisce indicazioni sui metadati: i dati che parlano di dati."

""

"

Resource Description Framework: data model dei metadati come ‘about’"

Ovviamente, come tutte le convenzioni, l’RDF deve essere accettato e seguito da tutti i creatori di contenuti Web per poter funzionare. "

""

"

Semantic Web: problema 1" ""

"

Tutti gli utenti Web devono seguire un’unica convenzione su come descrivere i dati presenti nel Web.RDF è una proposta, ma non è stata universalmente accettato." ""

"

Le ontologie" ""

"

Un’ontologia ha lo scopo di definire tutti i concetti appartenenti a un particolare dominio, e di elencare tutte le possibili relazioni tra di essi."

""

" Indirizzo della parte

dell’ontologia dove viene spiegato il concetto espresso dal termine “Cat”"

Se andiamo a dbpedia.org/resource/Cat troviamo questa descrizione, in svariate lingue. " "

""

La descrizione comprende tutti i modi di riferirsi a un gatto nelle lingue presenti, e anche un albero filogenetico." "

""

Semantic Web: problema 2" ""

"

Per ciascun concetto esistente, tutti gli utenti Web devono essere d’accordo sull’ontologia che lo descrive.DBpedia è una proposta, ma non è stata universalmente accettata.""

""

"

Semantic Web: problema 3" ""

"

The chicken or the egg." ""

"

Il “chicken or the egg problem” si riferisce a una situazione di stallo. Nel caso della gallina e dell’uovo, la questione si pone come segue: senza l’uovo, la gallina non può nascere, ma senza una gallina, non si può fare un uovo."

"

""

"

Per quanto riguarda il semantic Web, la questione riguarda il grande lavoro umano necessario per etichettare con le marcature semantiche tutti i concetti presenti nelle pagine Web esistenti e in quelle future. Tale lavoro chiaramente non può essere automatizzato, perché presuppone che i computer conoscano già il significato delle parole.""

""

"

Riferito al semantic Web, quindi, il “chicken or the egg problem” descrive il seguente stallo: nessun produttore di contenuti Web vuole iniziare l’impresa titanica di marcarli se non è sicuro che il semantic Web si realizzi davvero; ma perché il semantic Web si realizzi, tutti devono marcare i contenuti che pubblicano."

" "

""

Quindi?" ""

"

Il termine “Web 2.0” è stato riciclato per indicare il Web sociale.Il Semantic Web è ora noto come “Web 3.0”, e non si sa se si realizzerà mai.""

""

"