ILC L’Istituto di Linguistica Computazionale “Antonio ... · scene di filmati in base al...

1
Ricerca, innovazione e tecnologia 9 Eventi Lunedì 25 marzo 2013 M ilioni di tweet al giorno, di post su Facebook, di foto caricate. Il nostro mondo digitalizzato produce una quantità enorme di dati, che gli uten- ti inseriscono su tutti i canali a loro disposizione. Solo sistemi intelligenti, che analizzino il linguaggio naturale in modo automatico, riescono a render- li fruibili. Il delicato compito è affidato, all’interno dell’Istituto di Linguistica Computazionale, alla li- nea di ricerca “Risorse e infrastrutture linguistiche”. Tra le sue attività principali, il gruppo produce gran- di depositi di dati digitalizzati, che sono alla base dei progressi recentemente ottenuti per esempio negli ambiti della traduzione automatica e dei motori di ricerca intelligenti. “Costruisce anche - spiega Monica Monachini, pri- mo ricercatore - Grandi infrastrutture di ricerca, ovvero ambienti ‘virtuali’ di ricerca, in cui alcune comu- nità, specialmente quelle scientifiche e industriali, possano condividere e fru- ire dei dati e delle risorse prodotte”. Il secondo ambito di intervento riguar- da la creazione di risorse e strumen- ti linguistici per il monitoraggio di Internet e dei social media, in modo da comprendere, e poi rappresentare grafi- camente, le opinio- ni delle comunità online. Affascinante è anche il terzo ambito, relativo allo studio della rap- presentazione dell’azione nella lingua: le interazioni tra linguistica computazionale, tecnologia e robotica sono tali da permettere a esseri umani di recuperare scene di filmati in base al significato linguistico in esse contenuto (per esempio tutti i goal di un cer- to calciatore) e, ai robot, di usare modelli grazie ai quali comprendano ed eseguano azioni “umane” sul- la base di comandi in linguaggio naturale. Solo sistemi intelligenti che analizzino il linguaggio riescono a rendere fruibili grandi depositi di dati L’ILC ha una grande capacità di attrarre finanziamenti esteri che suppliscono la scarsa dotazione ministeriale La presenza concomitante di più filoni di ricerca è il punto di forza dell’Istituto di Linguistica Computazionale I l suo nome è complesso, il suo ambito di studi e applicazioni affascinante: benvenuti nel mondo della linguistica computazionale, nata negli anni 50 con l’in- tento di adoperare i calcola- tori elettronici nella memo- rizzazione ed elaborazione di dati testuali, in modo da produrre indici di parole e concordanze (cioè indici nei quali, oltre alle singole for- me linguistiche, compaiono i contesti ove ciascuna di esse è presente). È datata 1979 la fondazione, in seno al Cnr, dell’Istituto di Linguistica Computazionale “Antonio Zampolli” (ILC), per opera proprio dello stu- dioso che oggi dà il nome alla struttura. “Sin dall’origine - spiega il direttore, Andrea Bozzi - l’istituto, che ha sede a Pi- sa, ha mantenuto un giusto equilibrio fra ricerca di base e applicata: la presenza del- la componente tecnologica rappresentata dall’informa- tica e dalle applicazioni su dati digitali facilita questa duplice attività”. La ricerca di base consente di indagare il testo scritto, da un’angolatura diversa da quella delle discipline lin- guistiche tradizionali, per- ché lo sviluppo di soſtware, la progettazione di sistemi di intelligenza artificiale e l’uti- lizzo appropriato di metodi statistici offrono la possibi- lità di formulare modelli te- orici che si stanno rivelando utili per affrontare, con nuo- vi strumenti di indagine, le facoltà linguistiche e comu- nicative umane, arrivando a studiare la complessa inte- razione tra lingua e funzio- namento del cervello e delle sue componenti. È proprio questo l’ambito di ricerca del laboratorio di Fisiologia della comunicazione, nel quale gli studi utilizzano il computer come se fosse un cervello artificiale. Spiega Vito Pirrelli, dirigente di ri- cerca: “Il computer riprodu- ce l’interazione tra migliaia di neuroni interconnessi, la dinamica della loro sincro- nizzazione, il processo che porta un gruppo di neuroni ad attivarsi selettivamente in presenza di un suono, di una sillaba, di una parola. Queste simulazioni ci permetteran- no di scoprire, oltre alle basi delle dinamiche cognitive, anche nuovi percorsi per la diagnosi e la riabilitazione dei disturbi del linguaggio e della comunicazione”. Ri- cerca di base e applicata, combinate in uno strategi- co equilibrio, stanno dietro alle attività del costituendo laboratorio ItaliaNLP (www. italianlp.it). Spiega a questo proposito Simonetta Monte- magni, dirigente di ricerca e responsabile del laboratorio: “Resta ancora oggi difficile demandare a un computer il compito di selezionare, classificare ed elaborare au- tomaticamente i contenuti di un testo. Le tecnologie informatiche per il tratta- mento automatico del lin- guaggio sono una risposta al problema. Grazie soprattut- to a finanziamenti esterni, sia pubblici che privati, ab- biamo potuto sviluppare un sistema all’avanguardia di metodi, modelli e strumenti per l’analisi automatica del linguaggio, e in particolare dell’italiano, che è stato spe- rimentato con grande suc- cesso in numerosi progetti di ricerca e applicativi”. Due i filoni di ricerca: uno che mira a estrarre conoscenza da testi, utile a predispor- re modalità di navigazione “intelligente” dei documenti digitali, l’altro, più recente, incentrato sulla valutazione delle strutture linguistiche del testo, per ricostruire le abilità linguistiche di chi lo ha scritto oppure per sem- plificarlo accorciando così le distanze tra di esso e l’utente finale. Il respiro dell’agire dell’isti- tuto è assolutamente inter- nazionale. Vanno qui ricor- dati i numerosissimi progetti europei che l’ILC ha sempre coordinato o nei quali è stato partner, i numerosi progetti del Miur, i progetti regionali per l’innovazione tecnologica soprattutto nel campo della cultura e dei beni ad essa correlati. L’ILC, spiega il direttore “ha una grande capacità di attrarre finanziamenti esterni, che suppliscono alla sempre più scarsa dotazione del fondo ordinario ministeriale. Il li- vello di autofinanziamento consente, infatti, di avere circa il 50% del personale a tempo determinato soste- nuto su progetti a finanzia- mento esterno”. La presenza concomitante di più filoni di ricerca è il punto di forza dell’Istituto. Tutti i temi che sono trattati ad alto livello sono in linea con gli stru- menti che l’Europa chiede in vista della costituzione di una “Smart Society” dove tecnologia, cultura e socie- tà dovranno collaborare in misura sempre maggiore (si veda il programma Horizon 2020). “Gli strumenti che agevoleranno lo scambio di informazioni nel mondo digitale mediante il linguag- gio, strumento principe del- la comunicazione umana, saranno nello stesso tempo in grado di semplificare la comunicazione fra gli uomi- ni e le macchine - conclude Bozzi -. La linguistica com- putazionale possiede en- trambi questi requisiti”. Un sistema web per la traduzione in italiano del Talmud babilonese Il progetto non ha al momento uguali sul mercato ed è l’unico che soddisfa la molteplicità dei requisiti richiesti a un ambiente moderno per la gestione di documenti multimediali T radurre un libro dalla storia antica e dalla vita infinita, fornendo ai tradut- tori supporti per un lavoro che va al di là della singola parola. Questo è l’imponente progetto che si sta realizzando attorno al Talmud, nato da un’intesa tra la Presiden- za del Consiglio dei Ministri, il Miur, il Cnr, l’Unione delle Comunità Ebraiche Italiane e il Collegio Rabbinico Italiano. Andrea Boz- zi ha la responsabilità scientifica del lavoro. L’Istituto di Linguistica Computazionale ha sviluppato un’applicazione web, chiamata Sistema Talmud, che gestisce il lavoro di traduzione del Talmud babilonese in lingua italiana, improntato su aspetti di linguistica e filologia computazionali. Cosa significa? Spiega Bozzi: “In pratica, con un solo stru- mento si consente agli studiosi di dedicarsi alla traduzione e di fare lavoro di ricerca sull’originale e sul testo tradotto. Siamo di fronte a un sistema web collaborativo, che permette non solo di usufruire di strumenti di indicizzazione, ma anche di inserire com- menti ed effettuare ricerche complesse, oltre a fornire suggerimenti alla traduzione”. La risultante sarà un Talmud digitale in italia- no, corredato da informazioni aggiuntive, che verrà poi stampato a cura di un impor- tante editore nazionale. Il sistema Talmud, commenta il direttore “non ha al momento eguali sul mercato, ed è l’unico progetto che soddisfi la molteplicità dei requisiti richiesti a un ambiente moderno per la gestione di documenti multimediali: si basa su archi- tettura a componenti open-source, è consul- tabile via web, è multimediale, è dotato di strumenti avanzati per il trattamento della lingua e della conoscenza”. ■■ ILC / L’Istituto di Linguistica Computazionale “Antonio Zampolli” è nato nel 1979 in seno al Cnr e ha sede a Pisa Lingua e computer: un matrimonio di interesse Semplificare la comunicazione fra uomini e macchine è uno degli obiettivi del centro, che coordina numerosi progetti di ricerca I finanziamenti ottenuti dall’Istituto nel periodo 2011-2012 Vito Pirrelli, responsabile del laboratorio di Fisiologia della Comunicazione e Simonetta Montemagni, responsabile del laboratorio ItaliaNLP Andrea Bozzi, direttore dell¹Istituto di Linguistica Computazionale “Antonio Zampolli” Monica Monachini, responsabile della Linea Risorse e Infrastrutture (linguistiche) Università 5% Cnr 5% Miur 24% Privati 9% Regionali 15% Europa/Organismi internazionali 42%

Transcript of ILC L’Istituto di Linguistica Computazionale “Antonio ... · scene di filmati in base al...

Page 1: ILC L’Istituto di Linguistica Computazionale “Antonio ... · scene di filmati in base al significato linguistico in esse contenuto (per esempio tutti i goal di un cer-to calciatore)

Ricerca, innovazione e tecnologia 9EventiLunedì 25 marzo 2013

Milioni di tweet al giorno, di post su Facebook, di foto caricate. Il nostro mondo digitalizzato

produce una quantità enorme di dati, che gli uten-ti inseriscono su tutti i canali a loro disposizione. Solo sistemi intelligenti, che analizzino il linguaggio naturale in modo automatico, riescono a render-li fruibili. Il delicato compito è affidato, all’interno dell’Istituto di Linguistica Computazionale, alla li-nea di ricerca “Risorse e infrastrutture linguistiche”. Tra le sue attività principali, il gruppo produce gran-di depositi di dati digitalizzati, che sono alla base dei progressi recentemente ottenuti per esempio negli ambiti della traduzione automatica e dei motori di ricerca intelligenti. “Costruisce anche - spiega Monica Monachini, pri-mo ricercatore - Grandi infrastrutture di ricerca, ovvero ambienti ‘virtuali’ di ricerca, in cui alcune comu-nità, specialmente quelle scientifiche e industriali, possano condividere e fru-ire dei dati e delle risorse prodotte”. Il secondo ambito di intervento riguar-da la creazione di risorse e strumen-ti linguistici per il monitoraggio di Internet e dei social media, in modo da comprendere, e poi rappresentare grafi-camente, le opinio-ni delle comunità online. Affascinante è anche il terzo ambito, relativo allo studio della rap-presentazione dell’azione nella lingua: le interazioni tra linguistica computazionale, tecnologia e robotica sono tali da permettere a esseri umani di recuperare scene di filmati in base al significato linguistico in esse contenuto (per esempio tutti i goal di un cer-to calciatore) e, ai robot, di usare modelli grazie ai quali comprendano ed eseguano azioni “umane” sul-la base di comandi in linguaggio naturale.

Solo sistemi intelligenti che analizzino il linguaggio riescono a rendere fruibili grandi depositi di dati

L’ILC ha una grande capacità di attrarre

finanziamenti esteri che suppliscono la scarsa dotazione ministeriale

La presenza concomitante di più filoni di ricerca

è il punto di forza dell’Istituto di Linguistica

Computazionale

Il suo nome è complesso, il suo ambito di studi e

applicazioni affascinante: benvenuti nel mondo della linguistica computazionale, nata negli anni 50 con l’in-tento di adoperare i calcola-tori elettronici nella memo-rizzazione ed elaborazione di dati testuali, in modo da produrre indici di parole e concordanze (cioè indici nei quali, oltre alle singole for-me linguistiche, compaiono i contesti ove ciascuna di esse è presente). È datata 1979 la fondazione, in seno al Cnr, dell’Istituto di Linguistica Computazionale “Antonio Zampolli” (ILC), per opera proprio dello stu-dioso che oggi dà il nome alla struttura. “Sin dall’origine - spiega il direttore, Andrea Bozzi - l’istituto, che ha sede a Pi-sa, ha mantenuto un giusto equilibrio fra ricerca di base e applicata: la presenza del-la componente tecnologica rappresentata dall’informa-tica e dalle applicazioni su dati digitali facilita questa duplice attività”.La ricerca di base consente di indagare il testo scritto, da un’angolatura diversa da quella delle discipline lin-guistiche tradizionali, per-ché lo sviluppo di software, la progettazione di sistemi di intelligenza artificiale e l’uti-lizzo appropriato di metodi statistici offrono la possibi-lità di formulare modelli te-orici che si stanno rivelando utili per affrontare, con nuo-vi strumenti di indagine, le facoltà linguistiche e comu-nicative umane, arrivando a studiare la complessa inte-razione tra lingua e funzio-namento del cervello e delle sue componenti. È proprio questo l’ambito di ricerca del laboratorio di Fisiologia della comunicazione, nel quale gli studi utilizzano il computer come se fosse un cervello artificiale. Spiega Vito Pirrelli, dirigente di ri-cerca: “Il computer riprodu-ce l’interazione tra migliaia di neuroni interconnessi, la dinamica della loro sincro-nizzazione, il processo che porta un gruppo di neuroni ad attivarsi selettivamente in presenza di un suono, di una sillaba, di una parola. Queste simulazioni ci permetteran-no di scoprire, oltre alle basi delle dinamiche cognitive,

anche nuovi percorsi per la diagnosi e la riabilitazione dei disturbi del linguaggio e della comunicazione”. Ri-cerca di base e applicata, combinate in uno strategi-co equilibrio, stanno dietro alle attività del costituendo laboratorio ItaliaNLP (www.italianlp.it). Spiega a questo proposito Simonetta Monte-magni, dirigente di ricerca e responsabile del laboratorio: “Resta ancora oggi difficile demandare a un computer il compito di selezionare, classificare ed elaborare au-tomaticamente i contenuti di un testo. Le tecnologie informatiche per il tratta-mento automatico del lin-guaggio sono una risposta al problema. Grazie soprattut-to a finanziamenti esterni, sia pubblici che privati, ab-biamo potuto sviluppare un sistema all’avanguardia di metodi, modelli e strumenti per l’analisi automatica del linguaggio, e in particolare dell’italiano, che è stato spe-rimentato con grande suc-cesso in numerosi progetti di ricerca e applicativi”. Due i filoni di ricerca: uno che mira a estrarre conoscenza da testi, utile a predispor-re modalità di navigazione “intelligente” dei documenti digitali, l’altro, più recente, incentrato sulla valutazione delle strutture linguistiche del testo, per ricostruire le abilità linguistiche di chi lo ha scritto oppure per sem-plificarlo accorciando così le distanze tra di esso e l’utente finale.Il respiro dell’agire dell’isti-tuto è assolutamente inter-nazionale. Vanno qui ricor-dati i numerosissimi progetti europei che l’ILC ha sempre coordinato o nei quali è stato partner, i numerosi progetti del Miur, i progetti regionali per l’innovazione tecnologica soprattutto nel campo della cultura e dei beni ad essa correlati. L’ILC, spiega il direttore “ha una grande capacità di attrarre finanziamenti esterni, che suppliscono alla sempre più scarsa dotazione del fondo ordinario ministeriale. Il li-vello di autofinanziamento consente, infatti, di avere circa il 50% del personale a tempo determinato soste-nuto su progetti a finanzia-

mento esterno”. La presenza concomitante di più filoni di ricerca è il punto di forza dell’Istituto. Tutti i temi che sono trattati ad alto livello sono in linea con gli stru-

menti che l’Europa chiede in vista della costituzione di una “Smart Society” dove tecnologia, cultura e socie-tà dovranno collaborare in misura sempre maggiore (si veda il programma Horizon 2020). “Gli strumenti che agevoleranno lo scambio di informazioni nel mondo digitale mediante il linguag-gio, strumento principe del-la comunicazione umana, saranno nello stesso tempo in grado di semplificare la comunicazione fra gli uomi-ni e le macchine - conclude Bozzi -. La linguistica com-putazionale possiede en-trambi questi requisiti”.

Un sistema web per la traduzione in italiano del Talmud babiloneseIl progetto non ha al momento uguali sul mercato ed è l’unico che soddisfa la molteplicità dei requisiti richiesti a un ambiente moderno per la gestione di documenti multimediali

Tradurre un libro dalla storia antica e dalla vita infinita, fornendo ai tradut-

tori supporti per un lavoro che va al di là della singola parola. Questo è l’imponente progetto che si sta realizzando attorno al Talmud, nato da un’intesa tra la Presiden-za del Consiglio dei Ministri, il Miur, il Cnr, l’Unione delle Comunità Ebraiche Italiane e il Collegio Rabbinico Italiano. Andrea Boz-zi ha la responsabilità scientifica del lavoro. L’Istituto di Linguistica Computazionale ha sviluppato un’applicazione web, chiamata Sistema Talmud, che gestisce il lavoro di traduzione del Talmud babilonese in lingua italiana, improntato su aspetti di linguistica e filologia computazionali. Cosa significa? Spiega Bozzi: “In pratica, con un solo stru-mento si consente agli studiosi di dedicarsi alla traduzione e di fare lavoro di ricerca

sull’originale e sul testo tradotto. Siamo di fronte a un sistema web collaborativo, che permette non solo di usufruire di strumenti di indicizzazione, ma anche di inserire com-menti ed effettuare ricerche complesse, oltre a fornire suggerimenti alla traduzione”. La risultante sarà un Talmud digitale in italia-no, corredato da informazioni aggiuntive, che verrà poi stampato a cura di un impor-tante editore nazionale. Il sistema Talmud, commenta il direttore “non ha al momento eguali sul mercato, ed è l’unico progetto che soddisfi la molteplicità dei requisiti richiesti a un ambiente moderno per la gestione di documenti multimediali: si basa su archi-tettura a componenti open-source, è consul-tabile via web, è multimediale, è dotato di strumenti avanzati per il trattamento della lingua e della conoscenza”.

■■■ ILC / L’Istituto di Linguistica Computazionale “Antonio Zampolli” è nato nel 1979 in seno al Cnr e ha sede a Pisa

Lingua e computer: un matrimonio di interesseSemplificare la comunicazione fra uomini e macchine è uno degli obiettivi del centro, che coordina numerosi progetti di ricerca

I finanziamenti ottenuti dall’Istituto nel periodo 2011-2012

Vito Pirrelli, responsabile del laboratorio di Fisiologia della Comunicazione eSimonetta Montemagni, responsabile dellaboratorio ItaliaNLP

Andrea Bozzi, direttore dell¹Istituto di Linguistica Computazionale“Antonio Zampolli”

Monica Monachini, responsabile della Linea Risorse e Infrastrutture (linguistiche)

Università 5%

Cnr5%

Miur24%

Privati9%

Regionali15%

Europa/Organismi internazionali

42%