Classificare informazione: le tendenze del nuovo web

22
classificare informazione: le tendenze del nuovo web Gino Roncaglia Università della Tuscia

description

Slide per il convegno "Interoperabilità delle biblioteche digitali: costituzione, condivisione e diffusione delle risorse informative", Roma, 9-10 ottobre 2006 (relazione sul tema "Folksonomies e semantiche controllate: due strade conciliabili?)

Transcript of Classificare informazione: le tendenze del nuovo web

Page 1: Classificare informazione: le tendenze del nuovo web

classificare informazione: le tendenze del nuovo web

Gino Roncaglia

Università della Tuscia

Page 2: Classificare informazione: le tendenze del nuovo web

nuovo web, nuovi termini

per cominciare, un po’ di confusione: • web 2.0

• web semantico

• metadati

• social networking

• collaborative filtering

• user generated content

• folksonomies

• web 3.0

• …

partiamo dal concetto che sembra essere più chiaro: il semantic web

Page 3: Classificare informazione: le tendenze del nuovo web

semantic web, macchine, utenti

il progetto del semantic web • affiancare all’informazione primaria presente in rete, metainformazioni

(e in particolare metainformazioni semantiche) suscettibili di elaborazione automatica;

• l’obiettivo principale è quello di permettere la realizzazione di agenti di ricerca, selezione, organizzazione, elaborazione dei dati che, utilizzando le metainformazioni fornite e interagendo fra loro grazie alla condivisione dei relativi formalismi, permettano una gestione e manipolazione ‘intelligente’ dell’informazione primaria, in un contesto di interoperabilità;

• l’utente finale non è il destinatario immediato della metainformazione semantica aggiunta al sistema: ne è piuttosto un destinatario mediato, avendo in tal modo a disposizione strumenti più potenti ed ‘intelligenti’ per reperire, selezionare, organizzare, gestire l’informazione.

Page 4: Classificare informazione: le tendenze del nuovo web

metadati

il cuore del problema è nella metainformazione • ma cos’è la metainformazione?

• “metadata are data about data”

• alcune distinzioni tradizionali non sempre funzionano

• metadati descrittivi e gestionali (ormai anche i metadati descrittivi hanno una funzione gestionale)

• la stessa distinzione fra dati e metadati può essere problematica (il titolo di un articolo è insieme metadato e parte del testo)

• metadati testuali per informazione non testuale

• metadati descrittivi e modelli di descrizione

• la costruzione di sistemi di metadati presuppone di norma una interpretazione, un modello di ciò che si descrive

Page 5: Classificare informazione: le tendenze del nuovo web

un compito non facile…

i problemi del semantic web • quali forme di modellizzazione adottare?

• quali soluzioni e formalismi adottare per rappresentare l’informazione primaria e associarvi le opportune metainformazioni semantiche?

• chi deve fare questo lavoro? E di quali strumenti ha bisogno?

• come garantire l’interoperabilità fra soluzioni e formalismi diversi?

ma anche

• di che tipo di ‘strumenti intelligenti’ ha bisogno l’utente finale?

• come evitare che il rapporto fortemente mediato (dai professionisti della metainformazione, dalle loro scelte in materia di modellizzazione e formalismo, dagli agenti software utilizzati…) non crei strumenti lontani dalle effettive necessità – e capacità – degli utenti?

Page 6: Classificare informazione: le tendenze del nuovo web

semantiche controllate…

il semantic web sembra presupporre, in prima istanza, semantiche rigide, controllate e altamente formali

• per renderle suscettibili di elaborazione automatica in maniera efficiente

• per garantirne l’interoperabilità

• per garantire uniformità e rigore nei criteri di classificazione

Page 7: Classificare informazione: le tendenze del nuovo web

…e semantiche libere

gli utenti sembrano spesso operare in base a semantiche non rigorose, non rigide, soggettive, ‘facili’

• apparentemente incompatibili con presupposti e metodi del semantic web

• apparentemente non utilizzabili per classificare, ricercare, selezionare ed elaborare in maniera efficace l’informazione in rete

Page 8: Classificare informazione: le tendenze del nuovo web

folksonomies (social tagging)

e allora perché tanta attenzione attorno alle folksonomies?

• innanzitutto: di cosa si tratta?• un sistema di categorizzazione collaborativa (social tagging) dei

contenuti sulla base di parole chiave o etichette (tag) assegnate direttamente dagli utenti finali (siano essi i produttori e/o i fruitori dei contenuti classificati)

• cioè proprio quello che pensavamo fosse meglio evitare??

• forse… o forse no. Attenzione all’aspetto collaborativo e sociale del processo di categorizzazione: potrebbe aiutare a superare alcuni dei problemi tradizionali delle semantiche non controllate

Page 9: Classificare informazione: le tendenze del nuovo web

una definizione

e allora perché tanta attenzione attorno alle folksonomies?

• innanzitutto: di cosa si tratta?

Folksonomy is the result of personal free tagging of information and objects (anything with a URL) for one's own retrieval. The tagging is done in a social environment (shared and open to others). The act of tagging is done by the person consuming the information.

The value in this external tagging is derived from people using their own vocabulary and adding explicit meaning (…). The people are not so much categorizing as providing a means to connect items and to provide their meaning in their own understanding.(T. Vanderwal 2005; cf. anche T. Vanderwal 2006: http://www.dlib.org/dlib/january06/guy/01guy.html)

Page 10: Classificare informazione: le tendenze del nuovo web

not all folksonomies are equal…

i sistemi di classificazione semantica basati su folksonomies possono essere anche assai diversi l’uno dall’altro

Gene Smith 2005, http://atomiq.org/archives/2005/01/visual_folksonomy_explanation.html

Page 11: Classificare informazione: le tendenze del nuovo web

user generated content

la diffusione del social tagging è strettamente legata alla crescita esponenziale del cosiddetto ‘user generated content’

•quando enormi quantità di contenuti informativi sono immessi in rete direttamente dagli utenti, gli utenti stessi tendono inevitabilmente ad essere anche i responsabili della descrizione dei contenuti immessi

•corollario: gli strumenti di upload di contenuti verso la rete devono permettere meccanismi semplici e funzionali di descrizione dei contenuti inviati

•i tag sembrano essere la soluzione più semplice

Page 12: Classificare informazione: le tendenze del nuovo web

folksonomies e collaborative filtering

i sistemi basati su folksonomies che funzionano meglio sono quelli che sfruttano la loro natura sociale e collaborativa per migliorare la qualità del processo di classificazione semantica

• lo strumento normalmente usato a questo scopo è quello del collaborative filtering

• i comportamenti classificatori di più utenti relativamente a uno stesso contenuto vengono confrontati fra loro, con l’obiettivo di fare emergere quelli più frequenti, che possono a loro volta essere suggeriti (ma non imposti) ai nuovi classificatori

Page 13: Classificare informazione: le tendenze del nuovo web

collaborative filtering

un esempio: Amazon

segnalazione del consenso

normalizzazione e frequenza

Page 14: Classificare informazione: le tendenze del nuovo web

migliorare il collaborative filtering

strategie non ancora ottimali, ma che potrebbero essere integrate da altri strumenti; ad es…

• folksonomies con start-up specialistico

• il sistema viene aperto alla classificazione libera dopo aver registrato per un certo periodo solo comportamenti classificatori di utenti ‘preparati’ – che assumono funzione guida per i comportamenti classificatori dei nuovi utenti

Page 15: Classificare informazione: le tendenze del nuovo web

collaborative filtering e autorità

• richiesta esplicita del contributo specialistico

• ad es. Google Co-op

Page 16: Classificare informazione: le tendenze del nuovo web

premiare il consenso

• folksonomies che ‘premiano’ il consenso• ad es. Google Image Labeler

Page 17: Classificare informazione: le tendenze del nuovo web

folksonomies: i problemi

nessun problema, dunque?

• non proprio…• le folksonomies – senza ‘aiuti’ – restano uno strumento assai

povero per organizzare e strutturare la metainformazione semantica

• (ma strumenti di questo tipo potrebbero essere aggiunti anche a metodi di modellizzazione semantica assai più complessi, come le mappe topiche)

• sono soggette a problemi di meta noise (metadati irrilevanti) e vandalismo (senza gli strumenti di revert dei wiki…)

• gli strumenti di collaborative filtering richiedono grandi numeri per funzionare

Page 18: Classificare informazione: le tendenze del nuovo web

folksonomies ‘non standard’

Nonostante i problemi, il social tagging offre dunque uno strumento che può essere integrato con altri, formalmente più rigorosi e soddisfacenti… ma meno ‘facili’ e diffusi.

In questo lavoro di integrazione va tenuta presente la ricchezza che si può nascondere dietro le etichette di una folksonomy, che in fondo rappresentano, più che un ‘significato’, un insieme di risorse (interpretazione estensionale dei tag)•etichette non standard:

• citato da x (social trackback)

•…

Page 19: Classificare informazione: le tendenze del nuovo web

il livello della mediazione

sembra dunque essere possibile una ‘terza via’ fra folksonomies costruite dal basso (in cui il collaborative filtering è l’unico strumento di normalizzazione) e ontologie rigidamente controllate•una terza via di questo genere presuppone un livello di mediazione (mediation layer), in cui le tassonomie sono discusse e raffinate in maniera esplicita

• potrebbe essere utile una nuova generazione di strumenti destinata proprio a semplificare e razionalizzare la discussione esplicita di tassonomie e il loro miglioramento qualitativo (explicit collaborative filtering)

Page 20: Classificare informazione: le tendenze del nuovo web

social tagging e mediazione informativa

per la loro capacità di coinvolgere gli utenti nel processo di organizzazione dei contenuti e di recepirne i comportamenti classificatori, le folksonomies possono essere uno strumento utilissimo in situazioni di mediazione informativa

•è bene però che siano usate in modo consapevole, verificando che i numeri di comportamenti classificatori raccolti sia sufficiente a garantirne la significatività e affiancando strumenti di collaborative filtering (nonché, se possibile, un mediation layer)

Page 21: Classificare informazione: le tendenze del nuovo web

classificare materiali didattici

nell’ambito del master, avete incontrato o incontrerete diversi sistemi di metadatazione utilizzabili per classificare materiali didattici (a cominciare da LOM). Non è questa la sede per parlarne, ma può essere utile indicare un problema di un certo rilievo:•molti sistemi di metadatazione per materiali didattici sembrano presupporre che questi materiali siano nati in un contesto di apprendimento formale e siano bene organizzati (modello learning object)

•ma… è bene ricordare sempre che non tutti i materiali didattici sono learning object!

Page 22: Classificare informazione: le tendenze del nuovo web

flessibilità, interoperabilità

i nostri sistemi di metadatazione devono essere abbastanza flessibili da funzionare anche con materiali (learning assets) di natura eterogenea, magari prodotti in contesti informali•in questo caso i sistemi di social tagging ci possono aiutare?

•in molti casi probabilmente sì, ma attenzione a non lavorare su due strade troppo divergenti

•è bene prevedere dei mediation layers

•le ricerche devono poter essere integrate

• è dunque sempre importante lavorare comunque con l’obiettivo dell’interoperabilità, anche (soprattutto) a livello di metadati