Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B...

67
Informatica per le discipline umanistiche 2 – lezione 15 –

Transcript of Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B...

Page 1: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Informatica per

le discipline umanistiche 2– lezione 15 –

 

Page 2: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Nella lezione precedente:"

"

"

Page 3: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

In realtà non tutto il data mining è dettato

dagli interessi economici…"

Page 4: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

data mining"(commercial)"

Abbiamo visto risvolti commerciali perché di fatto ci siamo concentrati su dati commerciali. "

""

Page 5: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

data mining"(text)"

Ma ci sono altri tipi di dati, come ad esempio i testi scritti. "

""

Page 6: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

text mining"

Page 7: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

E’ una tecnica di elaborazione automatica dei testi, con lo scopo di estrarre da essi nuova informazione. """

Text mining""

"

Le informazioni estratte vengono composte per formare nuovi fatti o nuove ipotesi da verificare u l ter iormente con mezzi p iù c lassic i d i sperimentazione.""

Page 8: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

text mining≠

web search"

Page 9: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Obiettivo:estrarre nuova informazione che non era presente prima (almeno non in maniera esplicita)."

Text mining""

"

Problema:scartare il materiale non rilevante alla nostra ricerca."

"

Obiettivo:t r o v a r e informazione già esistente."

Web search""

"

Problema:l’informazione non è attualmente presente e va creata.""

Page 10: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

data mining"

text"Di fatto, i testi sono un tipo particolare di dati, e il text mining può essere considerato un tipo particolare di data mining. """

Page 11: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Si potrebbe pensare, quindi, che le svariate tecniche del data mining si possano applicare al caso particolare dei testi. """

Solo che… ""

"

Page 12: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

data mining"

text"

database"

matricola" facoltà"23456! ing!19797! let!21215! let!

Page 13: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Solo che… ""

"

…il data mining si effettua su database, che sono tipicamente dati organizzati in tabelle… "

""

…mentre nel text mining si cercano i pattern interessanti in testi scritti in linguaggio naturale. "

""

Page 14: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Ogni tecnica che mira ad elaborare in maniera automatica il linguaggio naturale viene considerata come parte della disciplina del Natural Language Processing (NLP). ""

"

Il text mining è un caso speciale di NLP perché si concentra esclusivamente sui testi scritti. "

""

Il NLP comprende però anche l’analisi del l i n g u a g g i o p a r l a t o ( a d e s e m p i o , c o l riconoscimento vocale). """

Page 15: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Il prodotto con riconoscimento vocale del momento (novembre 2011) è l’iPhone 4S con Siri. "

""

Page 16: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Torniamo ai testi:il text mining è un modo di analizzarli con il supporto del computer, in modi diversi. """

In contrasto con quanto visto con il data mining, prendiamo un campo di applicazione radicalmente diverso: la ricerca medica."

""

MEDLINE è un catalogo online di articoli da oltre 5000 riviste mediche dal 1950 ad oggi.Attualmente (2011), MEDLINE contiene riferimenti a più di 21 milioni di articoli."

""

La ricerca medica è divisa in campi e sottocampi altamente specializzati, con poca comunicazione (e scambi di idee) tra discipline diverse.Questa separazione potrebbe essere necessaria e utile alla ricerca specializzata in questo campo, ma può anche avere l’effetto di restringere le prospettive, impedendo la creazione di connessioni tra le varie scoperte."

Page 17: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura
Page 18: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

L’elaboratione manuale dei testi con la loro indicizzazione sulla base di parole chiave aiuta, ma da un’analisi di MEDLINE è emerso che molti concetti presenti nei testi degli articoli non erano rappresentati da alcuna parola chiave.Chiaramente, i testi della letteratura medica contengono informazioni importanti per i r i c e r c a t o r i c h e p o s s o n o n o n e s s e r e completamente colte da revisori e curatori di questi articoli."

Come al solito, laddove l’azione umana non è abbastanza precisa o veloce, cerchiamo di delegare il compito a un computer."

Page 19: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Che cosa NON è il text mining""

"Il web search è la ricerca di un documento in

particolare tra miliardi di altri che non ci interessano.Il text mining, invece, è la ricerca di conoscenza che colleghi tra loro documenti diversi. ""

"

Abbiamo già detto che NON è web search"

La conoscenza che si cerca tramite il text mining coinvolge più documenti. ""

"

Per questo il text mining NON coincide con quelle pratiche automatiche di elaborazione dei testi che si focalizzano su un testo solo, come ad esempio l ’ i n fo rmat ion ex t rac t ion oppure l a t ex t summarization. ""

"

Page 20: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Information extraction""

"

Dato un CV (meglio se in formato standard, come il CV europeo) , s i es t raggono a u t o m a t i c a m e n t e c e r t e informazioni, come il nome, il congnome, la data di nascita. ""

"

Esempio:"

Text summarization""

"

Dato un testo, se ne fornisce un breve riassunto basato sulle parole più frequentemente usate (a parte quelle non significative, come “il” o “di” o “e”, chiamate stopword)." ""

"

Esempio:"

Page 21: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Text mining""

"

Come nel data mining, esistono numerose

tecniche."

""1. Named entity recognition (NER)""

"

L’obiettivo è di riconoscere, all’interno di una collezione di testi, tutti i nomi di uno specifico tipo di entità. Ad esempio, tutti i nomi di entità biologiche all’interno di una serie di articoli da rivista."

Page 22: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura
Page 23: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Problemi con i nomi""

"

Per la maggior parte dei tipi di nomi di entità biologiche, non esiste un dizionario completo. Perciò una tecnica automatica di ricerca e matching non funziona."

La stessa parola può riferirsi a entità diverse (ad es. ferritina può essere una sostanza biologica o un test di laboratorio)."

Molte entità biologiche hanno diversi nomi (ad es. PTEN e MMAC1 si riferiscono allo stesso gene)."

Le entità biologiche posso avere anche nomi composti da più parole (ad es. “arteria carotide”), quindi sorge anche il problema di stabilire i confini tra un nome e altre parole nel testo."

Page 24: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Gli approcci per risolvere il problema NER sono 4:1. basato sul lessico 2. basato su regole3. statistico4. una combinazione dei precedenti"

"Il risultato di un sistema automatico che fa NER è dato da un etichettatura di tutti i nomi con il tipo calcolato, con un eventuale grado di confidenza nel risultato."

Le performance dei s is temi NER sono misurate in termini di precision/precisione e di recall/richiamo."

Precision = n° predizioni corrette / n° predizioniRecall = n° predizioni corrette / n° nomi nel testoEsiste anche un’unica misura chiamata F-score F-score = 2Pr*Re/(Pr+Re)"

Page 25: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

2. Relationship extraction""

"

L’obiettivo è di rilevare occorrenze di tipi predefiniti di relazione tra coppie di entità di tipi specifici. "

Page 26: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

R"

Page 27: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

2. Relationship extraction""

"

Mentre i tipi delle entità sono solitamente molto specifici (per es. geni, proteine, principi attivi), il tipo delle relazioni può variare da molto generale (per es. una qualsiasi associazione biochimica) a molto specifica (per es. un legame di regolazione)."

I possibili metodi per scoprire queste relazioni sono numerosi:ricerca di schemi predefiniti forniti da esperti del settore;ricerca di schemi creati automaticamente analizzando i testi nell’intorno di coppie di entità di nostro interesse;analisi del testo mediante schemi “soggetto-predicato-complemento” tipici del NLP (natural language processing)."

Page 28: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

3. Hypothesis generation""

"

Mentre l’estrazione di relazioni si focalizza sui legami tra entità esplicitamente espressi nel testo, la generazione di ipotesi mira a scoprire relazioni che non sono al momento presenti nei documenti, ma potrebbero essere inferite. Lo scopo ultimo è quello di scoprire nuove relazioni tra le entità su cui valga la pena di indagare."

Page 29: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura
Page 30: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Di fatto, tutti i lavori su generazione di ipotesi fanno uso di un’idea che ebbe Don R. Swanson, uno scienziato dell’informazione, chiamata ‘complementary structures in disjoint literatures’ (CSD), o ‘strutture complementari in letterature disgiunte’. "

Swanson capì che i grandi database della letteratura scientifica avrebbero potuto permettere nuove scoperte, mediante la connessione tra concetti per mezzo dell’inferenza logica."

Egli propose un semplice modello di ragionamento:se A influenza B e B influenza C, A potrebbe influenzare C.Questo modello per rilevare casi di CSD è oggi noto come il modello dell’ABC di Swanson. "

In numerosi articoli pubblicati negli anni ‘80 e ‘90, Swanson ha fornito esempi su scoperte di nuove ipotesi connettendo manualmente concetti presenti in diversi articoli scientifici. (Ad es.: benefici dell’olio di pesce sulla sindrome di Raynaud.)"

Page 31: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Mentre Swanson ha applicato i l suo modello ABC manualmente, numerosi ricercatori hanno tentato di automatizzare il processo.I sistemi di generazione automatica di ipotesi creano numerose potenziali ipotesi scientifiche: occorre quindi un metodo per valutare l’efficacia di tali sistemi.Il metodo più diffuso al momento è la ricerca manuale delle ipotesi generate in letteratura."

Page 32: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

4. Synonym and abbreviation extraction""

"

per l’estrazione e la raccolta di sinonimi e abbreviazioni di un termine."

Altre tecniche tipiche del text mining"

"

"

5. Text classification""

"

per determinare automat icamente se un d o c u m e n t o è i n t e r e s s a n t e , s u l l a b a s e dell’argomento che discute o del tipo di informazioni che contiene."

Page 33: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Altri settori di applicazione del text mining""

"

Sicurezza: analisi di conversazioni e scambi di email in cerca di sospetti atti terroristici""

"

Editoria: automatizzare la lettura di un articolo per poter rispondere a domande di un

utente che non ha diritto di accesso all’articolo stesso"

"

"

Analisi dei sentimenti: comprensione automatica del tono delle recensioni di un film o disco (positivo o meno)"

"

"

Marketing: per una migliore relazione con il cliente; ad es. allarme automatico basato su predizione di abbandono"

"

"

Page 34: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Ancora qualche considerazione

sul text mining…  

Page 35: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Text summarization""

"

Dato un testo, se ne fornisce un breve riassunto basato sulle parole più frequentemente usate (a parte quelle non significative, come “il” o “di” o “e”, chiamate stopword)." ""

"

Esempio:"

Si è detto che la text summarization non è considerata text mining in senso stretto perché s i e f f e t t u a s u u n documento solo e non cerca collegamenti tra diversi contenuti."

""

"

Si tratta comunque di elaborazione automatica di testo."

""

"

Page 36: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

A processor in a computer is also called a chip. A chip is the most important par t in a computer, because it is the device that performs all the operations. Even when you type “potato” on the screen, the chip is involved."

""

"

Consideriamo il seguente testo." ""

"

Analizziamolo con la tecnica della text summarization e contiamo le parole più frequenti, ignorando le stop word e punteggiatura."

"

""

Page 37: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

processor"1"

"""

system"1"

"""

computer"1"

"""

chip"3"

"""

potato"1"

"""

called"1"

"""

important"1"

"""

part"1"

"""

performs"1"

"""

operations"1"

"""

type"1"

"""

screen"1"

"""

involved"1"

"""

device"1"

"""

you"1"

"""

A processor in a computer is also called a chip. A chip is the most important par t in a computer, because it is the device that performs all the operations. Even when you type “potato” on the screen, the chip is involved."

""

"

Come si fa a capire l’argomento del testo con la frequenza delle parole?" "

""

Page 38: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

processor"1"

"""

system"1"

"""

computer"1"

"""

chip"3"

"""

potato"1"

"""

called"1"

"""

important"1"

"""

part"1"

"""

performs"1"

"""

operations"1"

"""

type"1"

"""

screen"1"

"""

involved"1"

"""

device"1"

"""

you"1"

"""

A processor in a computer is also called a chip. A chip is the most important par t in a computer, because it is the device that performs all the operations. Even when you type “potato” on the screen, the chip is involved."

""

"

Consideriamo la parola più frequente." ""

"

Page 39: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

chip"3"

"""

computer chip" ""

"

potato chip" ""

"

Problema: i sinonimi" ""

"

Page 40: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Facendo una ricerca su Google si scopre che ‘chip’ può essere addirittura un acronimo." "

""

Page 41: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Come affrontare il problema?

 

I l p r o b l e m a d i c a p i r e l’argomento di cui tratta un testo è molto importante per poter individuare tale testo in mezzo ad altri, come ad esempio in una ricerca in internet." ""

"

Page 42: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Soluzione 1: affidarsi a ricerche più precise, con più parole chiave." ""

"

Page 43: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

E’ la soluzione più semplice, e funziona nella maggior parte dei casi." "

""

Ma non in tutti." ""

"

Page 44: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

processor"1"

"""

system"1"

"""

computer"1"

"""

chip"3"

"""

potato"1"

"""

called"1"

"""

important"1"

"""

part"1"

"""

performs"1"

"""

operations"1"

"""

type"1"

"""

screen"1"

"""

involved"1"

"""

device"1"

"""

you"1"

"""

A processor in a computer is also called a chip. A chip is the most important par t in a computer, because it is the device that performs all the operations. Even when you type “potato” on the screen, the chip is involved."

""

"

Il problema è che, nel testo, ‘computer’ e ‘potato’ sono frequenti nella stessa misura." "

""

Page 45: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Questo sembra essere un finto problema.

Infatti…  

Page 46: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

processor"1"

"""

system"1"

"""

computer"1"

"""

chip"3"

"""

potato"1"

"""

called"1"

"""

important"1"

"""

part"1"

"""

performs"1"

"""

operations"1"

"""

type"1"

"""

screen"1"

"""

involved"1"

"""

device"1"

"""

you"1"

"""

A processor in a computer is also called a chip. A chip is the most important par t in a computer, because it is the device that performs all the operations. Even when you type “potato” on the screen, the chip is involved."

""

"

Esaminando le altre parole presenti, è chiaro che si sta parlando del computer chip e non della potato chip." "

""

Page 47: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

In realtà…  

Page 48: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

processor"1"

"""

system"1"

"""

computer"1"

"""

chip"3"

"""

potato"1"

"""

called"1"

"""

important"1"

"""

part"1"

"""

performs"1"

"""

operations"1"

"""

type"1"

"""

screen"1"

"""

involved"1"

"""

device"1"

"""

you"1"

"""

A processor in a computer is also called a chip. A chip is the most important par t in a computer, because it is the device that performs all the operations. Even when you type “potato” on the screen, the chip is involved."

""

"

Noi riusciamo a stabilire che le parole ‘processor’, ‘device’ e tante altre parole del testo appartengono allo stesso dominio di ‘computer’. Ma come facciamo? Ne sfruttiamo il significato."

""

"

Page 49: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Sappiamo bene i limiti dei computer in fatto di significato." ""

"

‘Processor’ e ‘device’ sono

termini informatici."

8"

Page 50: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Inoltre…  

Page 51: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

A new brand of chips, called ‘Screen’ has become available, made from the best potatoes in England. It is marketed to appeal to a IT-oriented audience, and has computers, processors, and all sorts of devices depicted on the package. Market research has shown that people in IT, especially programmers, are large consumers of chips."

""

"

Naturalmente l’esempio è poco realistico, ma mostra i limiti dell’analisi di un testo basato esclusivamente sul conteggio dei vocaboli: funziona molto spesso, ma non in tutti i casi."

""

"

Page 52: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Per elaborare una soluzione che funzioni in tutti i casi, dovremmo riprodurre la classificazione degli argomenti, che un essere umano solitamente fa, in un computer."

""

"

‘Processor’ e ‘device’ sono

termini informatici."

8"

Page 53: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

L’esperimento mentale della stanza cinese di Searle vuole dimostrare che un calcolatore che elabora simboli in maniera sintattica non può comprendere la semantica delle parole rappresentate da questi simboli." ""

"

Page 54: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Il computer tratta solo simboli in maniera sintattica." "

""

Vogliamo che il computer tratti anche la semantica." "

""

Deve esserci un modo di esprimere la semantica in maniera sintattica."

""

"

Sembra una cosa insensata.Eppure…" "

""

Page 55: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Web 2.0 1.0  

Il termine “Web 2.0”, che abbiamo visto utilizzato per descrivere il web “sociale”, in cui gli utenti sono anche creatori di contenuti e l’interazione svolge un ruolo fondamentale, è stato in realtà originariamente introdotto con un altro significato. Esiste insomma una prima versione del Web 2.0." ""

"

Page 56: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Semantic Web  

La prima versione del Web 2.0 è nota anche come semantic Web, o Web semantico, appunto perché si prefiggeva di arricchire internet con tecniche per la trattazione automatica del significato.L’idea è stata introdotta da colui che viene considerato come l’inventore del Web 1.0: Tim Berners-Lee." ""

"

Page 57: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Tim Berners-Lee  

Page 58: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

L’idea di base del Semantic Web" ""

"

tipo di entità nel mondo"

""

"

Cat

sequenza di caratteri"

""

"

Anziché affidarsi solo alla mente dell’utente Web per creare il legame tra la sintassi dei simboli e la loro semantica…" "

""

↔"

Page 59: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

L’idea di base del Semantic Web" ""

"

…usare dei simboli aggiuntivi, sotto forma di marcature, che rimandano a un’ontologia (simile a un vocabolario, in cui i concetti sono organizzati secondo classi di appartenenza)."

""

"

termine"

fine marcatura"

inizio marcatura"

Resource Description Framework: data model dei metadati come ‘about’"

Indirizzo della parte dell’ontologia dove viene spiegato il concetto espresso dal termine “Cat”"

Page 60: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Resource Description Framework" ""

"

E’ una convenzione che prescrive il modo con cui i dati con cui lavoriamo devono essere descritti, ossia fornisce indicazioni sui metadati: i dati che parlano di dati."

""

"

Resource Description Framework: data model dei metadati come ‘about’"

Ovviamente, come tutte le convenzioni, l’RDF deve essere accettato e seguito da tutti i creatori di contenuti Web per poter funzionare. "

""

"

Page 61: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Semantic Web: problema 1" ""

"

Tutti gli utenti Web devono seguire un’unica convenzione su come descrivere i dati presenti nel Web.RDF è una proposta, ma non è stata universalmente accettato." ""

"

Page 62: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Le ontologie" ""

"

Un’ontologia ha lo scopo di definire tutti i concetti appartenenti a un particolare dominio, e di elencare tutte le possibili relazioni tra di essi."

""

" Indirizzo della parte

dell’ontologia dove viene spiegato il concetto espresso dal termine “Cat”"

Page 63: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Se andiamo a dbpedia.org/resource/Cat troviamo questa descrizione, in svariate lingue. " "

""

La descrizione comprende tutti i modi di riferirsi a un gatto nelle lingue presenti, e anche un albero filogenetico." "

""

Page 64: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Semantic Web: problema 2" ""

"

Per ciascun concetto esistente, tutti gli utenti Web devono essere d’accordo sull’ontologia che lo descrive.DBpedia è una proposta, ma non è stata universalmente accettata.""

""

"

Page 65: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Semantic Web: problema 3" ""

"

The chicken or the egg." ""

"

Page 66: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Il “chicken or the egg problem” si riferisce a una situazione di stallo. Nel caso della gallina e dell’uovo, la questione si pone come segue: senza l’uovo, la gallina non può nascere, ma senza una gallina, non si può fare un uovo."

"

""

"

Per quanto riguarda il semantic Web, la questione riguarda il grande lavoro umano necessario per etichettare con le marcature semantiche tutti i concetti presenti nelle pagine Web esistenti e in quelle future. Tale lavoro chiaramente non può essere automatizzato, perché presuppone che i computer conoscano già il significato delle parole.""

""

"

Riferito al semantic Web, quindi, il “chicken or the egg problem” descrive il seguente stallo: nessun produttore di contenuti Web vuole iniziare l’impresa titanica di marcarli se non è sicuro che il semantic Web si realizzi davvero; ma perché il semantic Web si realizzi, tutti devono marcare i contenuti che pubblicano."

" "

""

Page 67: Informatica per le discipline umanistiche 2 – lezione 15 Appunti 15.pdf · se A influenza B e B influenza C, A potrebbe influenzare C. ... Editoria: automatizzare la lettura

Quindi?" ""

"

Il termine “Web 2.0” è stato riciclato per indicare il Web sociale.Il Semantic Web è ora noto come “Web 3.0”, e non si sa se si realizzerà mai.""

""

"