IL DATO LINGUISTICO E TESTUALE - Alphabit.net · Risultati in concordanza ... Certificazione di...

16/04/2010

1

SCRITTURA ACCADEMICA E

RISORSE BIBLIOGRAFICHE

ONLINE

Isabella Chiari

PdE LM - Chiari, Scrittura accademica 2010 1

IL DATO LINGUISTICO E

TESTUALE

i corpora di riferimento della lingua italiana, corpora specialistici, corpora letterari.

PdE LM - Chiari, Scrittura accademica 2010 2

16/04/2010

2

Tipologie di risorse digitali (online)

PdE LM - Chiari, Scrittura accademica 2010

3

Corpora linguistici

Corpora di lingua parlata, corpora di lingua scritta, corpora specialistici

Portali

ParlarItaliano

Testi da varie fonti

Repubblica, Corriere della Sera, La Stampa

Biblioteche digitali

Cd-rom e risorse

LIZ Letteratura Italiana Zanichelli, TLIO

Principali corpora italiani

Fakulteta za humanistične študije Koper, Univerza na Primorskem,

Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari

4

ITALIANO

SCRITTO

ITALIANO

PARLATO

LIF - Lessico di frequenza della lingua

italiana contemporanea

LIP - Lessico di frequenza dell'italiano

parlato

CORIS / CODIS

Corpus Dinamico dell’Italiano scritto

CLIPS - Corpora Linguistici per l'Italiano

Parlato e Scritto

COLFIS - Corpus e Lessico di Frequenza

dell'Italiano Scritto

LABLITA - Corpus di italiano parlato

LA REPUBBLICA CORPUS (giornalistico) Integrated reference corpora for spoken

romance languages

(C-ORAL-ROM)

http://www.alphabit.net/home/index.php?option=com_content&view=article&id=59:liz&catid=37:corporaitaliani&Itemid=58

http://www.alphabit.net/home/index.php?option=com_content&view=article&id=59:liz&catid=37:corporaitaliani&Itemid=58

16/04/2010

3

Altri corpora di italiano



5

ITALIANO

SCRITTO

ITALIANO

PARLATO

TLIO - Tesoro della lingua italiana delle

origini (lettarario)

CIT - Corpus di italiano televisivo

LIZ - Letteratura Italiana Zanichelli

(lettarario)

LIR - Lessico di frequenza dell'italiano

radiofonico

BOnonia Legal Corpus (BolC) API/AVIP/IPar

EUROTRA, EuroWordNet, PAROLE, SIMPLE

l‟Italian Reference Corpus

Child Language Data Exchange System

(CHILDES) - italiano

Banca dati di Italiano L2

Osservatorio Linguistico permanente

dell'Italiano Diffuso fra Stranieri -Siena

Corpora di italiano scritto (1)


6

LIF Lessico di frequenza della lingua italiana contemporanea

Lessico di frequenza della lingua italiana contemporanea (LIF), elaborato nel 1971 al cnuce (Centro Nazionale Universitario di Calcolo elettronico) di Pisa (cfr. Bortolini et alii , 1971).

Si tratta del primo grande progetto di costruzione di un lessico di frequenza per la lingua italiana (non tagliato su un singolo autore o su testi specificatamente letterari).

Il lessico contiene circa 5.000 lemmi ordinati per frequenza e secondo l'ordine alfabetico, tratti dallo spoglio di testi per un complesso di 500.000 parole. I testi che sono entrati a far parte del corpus sono datati tra il 1947 e il 1968, sono tutti testi scritti, presi da 5 fonti diverse (teatro, romanzi, cinema, periodici, sussidiari), a rappresentare diverse forme testuali alcune delle quali vicine al parlato.

Il corpus non è disponibile per la consultazione né offline né online.

16/04/2010

4



7

Corpus e Lessico di Frequenza dell'Italiano Scritto

Corpus e Lessico di Frequenza dell'Italiano Scritto

(ColFIS), costruito da Bertinetto, Burani, Laudanna,

Marconi, Ratti, Rolando e Thornthon, è costituito da

3.150.075 occorrenze lessicali tratte da quotidiani,

periodici e libri di varia natura bilanciate secondo le

letture degli italiani.

Al momento sono disponibili gratuitamente online le

liste con il lemmario (non il corpus).

http://www.istc.cnr.it/material/database/colfis/

Progetto COLFIS



8

Rappresentatività italiano “medio”

•Letture preferite dagli italiani

•1992-1994•differenziati per tipologia (quotidiani, periodici, libri) e per argomento (politica, letteratura, sport, ecc.). •il bilanciamento delle fonti, che conferisce un carattere di non casualità alle rilevazioni numeriche estraibili dall'archivio lessicale

Estensione

•3.798.275 parole




16/04/2010

5

Bilanciamento



9

QUOTIDIANI

• Circa 1.800.000 occorrenze

PERIODICI

• Circa 1.306.000 occorrenze

LIBRI

• Circa 655.000 occorrenze

• 13 generi letterari

QUOTIDIANI

La Stampa

La Repubblica

Il corriere della sera

economia

cronaca locale

cronaca mondana

cronaca nera

politica estera

politica interna

scienza

spettacolo

sport

altro

arte scienza e tecnica

auto e nautica

bambini e ragazzi

casa e hobby

femminili

fotoromanzi

informazione generale

cronaca mondana

radio e televisione

sport

viaggi e ecologia

Ricerca nel corpus



10

16/04/2010

6

“sai” nel COLFIS11



12

CORIS/CODIS Corpus di Italiano Scritto contemporaneo

Corpus di Italiano Scritto contemporaneo (CORIS/CODIS): COrpus di Riferimento dell'Italiano Scritto (CORIS) elaborato e coordinato da R. Rossini Favretti, dal 1998. Formato da due corpus distinti.

Il COrpus di Riferimento dell'Italiano Scritto ( Coris ) è stato elaborato con lo scopo di costruire un corpus generale dell'italiano scritto. Il corpus contiene 100 milioni di parole, e verrà aggiornato ogni due anni con nuovo materiale di controllo.

I testi ivi contenuti sono prevalentemente di narrativa prodotta negli anni Ottanta e Novanta. Il corpus è elaborato con criteri linguistici molto rigorosi ed è per sua natura dinamico. Dal corpus generale si distinguono alcuni sottocorpora, rappresentanti delle diverse varietà dell'italiano scritto.

Accanto al Coris si aggiunge il COrpus Dinamico dell'Italiano Scritto ( Codis ) che permette la selezione ed eventuale esclusione di sottocorpora considerati non rilevanti per specifiche ricerche. Il corpus è disponibile su cd-rom e per consultazione online.

http://corpora.dslo.unibo.it/coris_ita.html

http://corpora.dslo.unibo.it/coris_ita.html

16/04/2010

7

CODIS

Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza,

Roma-Bari.

Risultati in concordanza



14

16/04/2010

8



15

ItWac

ItWac, corpus di lingua italiana costituito da circa 1.909.535.984 parole (occorrenze). Il corpus è parzialmente bilanciato attraverso una serie di procedure di Web crawling, lemmatizzato con un lemmatizzatore di impianto statistico TreeTagger, interrogato attraverso il Corpus Query System di Sketch Engine. M. Baroni, A. Kilgarriff, Large linguistically-processed Web corpora for multiple languages, in Proceedings of the Eleventh Conference of the European Chapter of the Association for Computational Linguistics, Association for Computational Linguistics, 2006, pp. 87-90.

http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/

http://ca.sketchengine.co.uk/auth/corpora/

Il corpus di Repubblica


16

Corpus di Repubblica (SSLMIT, Baroni)

Corpus delle 10 annate pubblicate fino al 1999

Annotato con Treetagger

Circa 380 milioni di occorrenze

http://dev.sslmit.unibo.it/corpora/





16/04/2010

9

Tipologie testuali



17

La Repubblica

news

church, culture, economics,

education, news, politics,

commento

science, society, sport, weather

Risultati in concordanza



18

16/04/2010

10

LA REPUBBLICA in sintesi

• Lemmatizzato e analizzato morfologicamente (in modo automatico, Treetagger)

Trattamento

• Sintassi di interrogazione molto ricca (un po‟ complessa)

Interrogazione

• 380 milioni (grande per gli standard attuali)

Estensione

• Online gratuita

Distribuzione

• Non è un corpus di riferimento

Disegno

• Senza esportazione delle concordanze

• Nessun accesso al testo integrale

• Liste di frequenza non esportabili nella totalità

Accesso corpus

19



Pregi Difetti

Corpora di parlato


20

LIP Lessico di frequenza dell'italiano parlato

Lessico di frequenza dell'italiano parlato (LIP), curato da De Mauro, Mancini, Vedovelli e Voghera (1993) costituisce la controparte del lifper l'italiano parlato. Il corpus da cui è tratto è costituito da circa 500.000 parole grafiche, trascrizioni di registrazioni effettuate a Milano, Firenze, Roma e Napoli, pari a quasi 57 ore di parlato. Le tipologie del parlato rappresentate sono dialoghi faccia a faccia e non, a presa di parola libera e non, monologhi faccia a faccia e non. I lemmi sono consultabili secondo frequenza e secondo ordine alfabetico, vi è anche una lista di frequenza dei fonosimboli e delle polirematiche. Il volume del lessico è corredato da due dischetti che contengono le trascrizioni di tutti i testi del corpus, permettendo dunque a chi voglia svolgere ulteriori analisi l'accesso diretto ai materiali.

http://languageserver.uni-graz.at/badip/badip/20_corpusLip.php




16/04/2010

11

Il lessico di frequenza del LIP



21

Esempio: il testo RA1 (formato grezzo)



22

16/04/2010

12

Interrogazione BADIP

Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza,

Roma-Bari.

Interrogazione BADIP



24

16/04/2010

13

Risultati



25

Osservare le concordanze



26

16/04/2010

14

Usare i testi integrali



27

Corpora di parlato (2)


28

API/AVIP/IPar

API/AVIP/IPar sono progetti di raccolta di materiale fonico spontaneo di lingua italiana, cui hanno partecipato variamente il laboratorio di linguistica della Scuola Normale di Pisa, il CIRASS e l‟Orientale di Napoli, il Politecnico di Bari e l‟Università del Piemonte Orientale. I progetti sono conformi alle specifiche di codifica e annotazione di Eagles. Il materiale dei corpora (files e software) è disponibile su cd-rom, distribuiti dal CIRASS e via ftp sempre dal sito del CIRASS.

Corpus LIPS – Italiano di stranieri

"Il corpus LIPS raccoglie le trascrizioni dei testi tratti dall‟archivio delle prove d‟esame CILS - Certificazione di Italiano come Lingua Straniera dell‟Università per Stranieri di Siena. Dall‟archivio, che comprende tutte le prove dei candidati agli esami CILS a partire dalla prima sessione del 1993, sono state estratte circa 2000 prove di diversi candidati accomunati dal fatto di avere svolto almeno due prove in successione delle sei prove CILS. Al momento attuale, il corpus selezionato comprende circa 70 ore di parlato, che, una volta trascritto, ha raggiunto le 530.000 occorrenze di forme di unità lessicali."

16/04/2010

15



29

CLIPS - Corpora Linguistici per l'Italiano Parlato e Scritto

Corpora Linguistici per l'Italiano Parlato e Scritto (CLIPS) (audio, etichettatura e documentazione) è pubblico, l‟accesso e il download completo del materiale per finalità scientifiche sono gratuiti.

CLIPS consiste di circa 100 ore di parlato, equamente ripartito tra voci maschili e voci femminili, in parte trascritto ortograficamente e etichettato foneticamente. Le registrazioni sono state effettuate in 15 località italiane scelte in base a criteri di rappresentatività linguistica e socioeconomica: Bari, Bergamo, Bologna, Cagliari, Catanzaro, Firenze, Genova, Lecce, Milano, Napoli, Palermo, Parma, Perugia, Roma, Venezia.

La documentazione, i protocolli di raccolta e di annotazione del materiale tengono conto delle direttive del progetto EAGLES.

CLIPS



30

Progetto

• diretto da Federico Albano Leoni

• 1999-2004

• voci maschili e voci femminili, in parte trascritto ortograficamente e etichettato foneticamente

Struttura

• 100 ore di parlato

• Distribuzione sia dell‟audio sia delle trascrizioni

Località

• 15 località italiane

• Bari, Bergamo, Bologna, Cagliari, Catanzaro, Firenze, Genova, Lecce, Milano, Napoli, Palermo, Parma, Perugia, Roma, Venezia

16/04/2010

16

Tipologie testuali



31

a) parlato radiotelevisivo

• (notiziari, interviste, talk shows);

b) parlato dialogico

• (240 dialoghi raccolti secondo le modalità del map task e del „gioco delle differenze‟, dei quali 30 etichettati foneticamente, 90 trascritti ortograficamente, studenti universitari);

c) parlato letto da parlanti non professionisti

• (20 frasi atte a garantire la copertura delle frequenze medio-alte del lessico italiano);

d) parlato telefonico

• (conversazioni tra circa 300 parlatori e un portiere d‟albergo simulato)

e) parlato letto da 20 parlanti professionisti

www.clips.unina.it



32

16/04/2010

17


Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari33

<inspiration> in realtà la

cultura svedese , è come se

in qualche modo un po' ha

sempre un po<oo>'

<inspiration> <eh> subito

una<aa> <inspiration>

una un po' una mancanza

di fiducia in se stessa e

quindi si è sempre nutrita di

modelli , che in negli anni

sessanta principalmente

erano fondamentalmente

l'America <inspiration>

CLIPS in sintesi

• Ortografica, fonetica e fonologica

• Standardizzata Eagles

Trascrizione e Annotazione

• Online gratuita

• Accesso al corpus integrale (scaricabile)

• Accesso anche all‟audio

• Software per le analisi gratuiti online

• Documentazione dettagliata

Distribuzione

• Grande per indagini fonetiche, ma piccolo per gli altri livelli

Estensione

• Nessuna annotazione grammaticale (attualmente)

Interrogazione e annotazione

• Mediante Ftp (un po‟ lento)

Accesso corpus

34



Pregi Difetti

16/04/2010

18



35

Lessico di frequenza dell'italiano radiofonico (LIR)

Lessico di frequenza dell'italiano radiofonico (LIR) è un progetto di analisi del lessico e del corpus del parlato radiofonico, diretto da Nicoletta Maraschio, in 2 DVD ed è pubblicato dall'Accademia della Crusca."I due DVD contengono due corpora di italiano radiofonico raccolti a quasi dieci anni di di-stanza, una prima volta nel 1995 e poi nel 2003. Il corpus del LIR1 (1995) raccoglie circa 64 ore di parlato radiofonico, trascritto e in voce, registrato da nove radio a diffusione nazionale [...] può essere interrogato grazie a un potente motore di ricerca come il DBT di Eugenio Picchi" (Maraschio, Stefanelli)



36

Corpora di LABLITA

LABLITA dal 1973 si occupa della raccolta e gestione di corpora con lo standard di trascrizione chat (cfr. Childes). Si tratta di un insieme di corpora composto da: 1) un corpus di italiano parlato spontaneo adulto che raccoglie circa 120 testi che riguardano situazioni comunicative diafasiche diverse per un totale di 60 ore; 2) un corpus della lingua dei media (cinema, radio e televisione); 3) un corpus di 100 ore di italiano registrato nella fase del primo apprendimento (in bambini di 18-36 mesi). In questo corpus i testi sono trascritti, ma l'audio è disponibile in formato digitalizzato (wav). Indicazioni e materiali si trovano nei due volumi accompagnati da cd-rom multimediale: Emanuela Cresti (2000), Corpus di italiano Parlato , Accademia della Crusca.

http://lablita.dit.unifi.it/

http://lablita.dit.unifi.it/

16/04/2010

19

Annotazioni e distribuzione



37

Audio

• In questi corpora i testi sono trascritti, ma l‟audio è disponibile in formato digitalizzato (.wav).

Trascrizioni

• Le trascrizioni sono in formato CHAT (cfr. Childes)

Distribuzione

• A richiesta

• Non interrogabili online

E. Cresti - M. Moneglia

2005

comparable set of corpora of spontaneous spoken language for the main romance languages, namely French, Italian, Portuguese and

Spanish

300,000 words for each language

C-ORAL-ROM

Integrated reference corpora for spoken

romance languages

38

Fakulteta za humanistične študije Koper, Univerza na Primorskem, Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari

16/04/2010

20

Caratteristiche C-ORAL-ROM



39

Comparabilità tra le quattro lingue romanze

Distribuzione di Audio e trascrizione

Allineamento di audio e trascrizione con software (WinPitch)

tagging prosodico & grammaticale

C-ORAL-ROM design



40

16/04/2010

21

Che in C-ORAL-ROM



41


Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari42

16/04/2010

22

C-ORAL-ROM in sintesi

• Ortografica

• Annotazione prosodica e grammaticale

• Standardizzata CHAT

• Esportazione di concordanze e liste selezionate

Trascrizione e Annotazione

• Accesso al corpus integrale

• Accesso anche all‟audio

• Software per le analisi gratuiti online

• Documentazione dettagliata

Distribuzione

• Piccola per indagini diverse da fonetica e prosodica

Estensione

• Non si possono interrogare sequenze

Interrogazione

• A pagamento su cd-rom

Accesso corpus

43



Pregi Difetti



44

Corpus di italiano televisivo

Corpus di italiano televisivo (CIT) sarà composto da 250.000 parole, e successivamente è programmato un ampliamento del corpus a 500.000 parole per una maggiore omogeneità con altri corpora italiani di lingua scritta (LIF) e parlata (LIP).

I testi prescelti sono tratti da trasmissioni originali non di fiction, tratte da diverse categorie di attualità, intrattenimento, pubblicità, sport e telegiornali. Il Cit è annotato secondo gli standard della Text EncodingInitiative (TEI).

http://www.sspina.it/cit/cit.htm






16/04/2010

23

Il portale ParlarItaliano


45

PARLARITALIANO.IT è un portale di riferimento per lo studio su corpora parlati, coordinato da Miriam Voghera. Dalla presentazione: "è il primo osservatorio nazionale sul parlato italiano costituito nel 2004 da dieci gruppi di ricerca di otto diversi Atenei italiani

Parlare italiano ha lo scopo di offrire strumenti teorici e applicativi per la diffusione e migliore conoscenza della lingua italiana, con particolare attenzione alla didattica dell‟italiano come lingua straniera.

Nel sito Parlare italiano potrete trovare un ampio spettro di ricerche sul parlato che garantiscono la massima pubblicità dei corpora sui cui si lavora, dei metodi e delle tecniche di analisi"

http://www.parlaritaliano.it/parlare/

nella ricerca linguistica

Piccola “guida” all‟uso dei corpora46

http://www.parlaritaliano.it/parlare/

16/04/2010

24

Analisi comparativa47

LIP CLIPS CORIS/CODIS COLFIS LA

REPUBBLICA

C-ORAL-

ROM

Analisi fonetiche ()

Analisi

morfosintattiche

()

Analisi lessicali ()

Accesso al testo

integrale

Accesso ai

sottocorpora

Gratuito

Accesso online

Le interrogazioni sui quotidiani


48

La Repubblica

http://www.repubblica.it/

Corriere della sera

http://archiviostorico.corriere.it/

La Stampa

http://archivio.lastampa.it/



http://archiviostorico.corriere.it/



16/04/2010

25



16/04/2010

26


Le biblioteche digitali52


16/04/2010

27

Biblioteche digitali


53

Liber Liber, progetto Manuzio

http://www.liberliber.it/

L'associazione Liber Liber promuove il progetto Manuzio, che ha per scopo la

fondazione di una biblioteca telematica ad accesso gratuito. I libri sono

prelevabili direttamente via Internet, oppure si possono ottenere su CDROM (i

CDROM vengono spediti ai sostenitori di Liber Liber). Disponibili anche alcuni

atti pubblici (come i verbali della Commissione Parlamentare Antimafia), tesi di

laurea, riviste (Studi storici, Spolia), ecc.

Biblioteca della Letteratura Italiana

http://www.letteraturaitaliana.net/

Realizzato da Pianetascuola in collaborazione con l'editore Einaudi, questo sito

Internet si pone come obiettivo quello di rispondere ai bisogni di una scuola che

sta sperimentando nuove tecnologie e nuovi contenuti. Le caratteristiche salienti

sono: materiali forniti gratuitamente; qualità dei testi; semplicità di utilizzo. Ben

fatte le schede sugli autori. Il formato degli e-book è PDF, che - se pure facile

da usare - è un formato proprietario (non standard e non evoluto come l'XML).


54

Biblioteca Italiana

http://www.bibliotecaitaliana.it/

Una biblioteca digitale di testi della tradizione

culturale e letteraria italiana, promossa e gestita dal

“Centro interuniversitario Biblioteca italiana telematica”

(CIBIT), per opera della sua unità attiva presso

l‟Università di Roma La Sapienza, e da “Testi Italiani in

Linea”. Si candida a divenire il principale progetto di

biblioteca telematica finanziata pubblicamente.

http://www.liberliber.it/comunicare/novita/index.htm

http://www.liberliber.it/comunicare/novita/index.htm






16/04/2010

28


TLIO, LIZ, ecc.

Cd-rom e risorse online di tipo

letterario56


http://www.bibliotecaitaliana.it/xtf/search

16/04/2010

29

TLIO Tesoro della lingua italiana delle

origini


57

Tesoro della lingua italiana delle origini (TLIO) è un database testuale (nato nel 1995 e inaugurato nel 1998) composto da circa 1.780 testi per circa 20 milioni di parole, tratte da scritti in lingua italiana prima del 1375, in prosa e in poesia.

Una prima versione della banca dati fu implementata in dbt di Eugenio Picchi. Il database è interrogabile online con registrazione gratuita al sito dell'Istituto Opera del Vocabolario Italiano (OVI):

È pubblicato qui in corso di redazione il Tesoro della Lingua Italiana delle Origini (TLIO), prima sezione cronologica del vocabolario storico italiano.Una selezione delle stesse voci viene stampata nel Bollettino dell'OVI; la versione in rete può essere aggiornata rispetto alla versione a stampa.

Nuove voci vengono aggiunte periodicamente, col procedere della redazione. Alla fine del 2009 è stato raggiunto un totale di circa 20.500 voci

http://tlio.ovi.cnr.it/TLIO/


16/04/2010

30

Le Banche Dati dell'Opera del

Vocabolario Italiano


59

Le Banche Dati sono consultabili con accesso libero e gratuito.

Corpus OVI dell'Italiano antico: è il corpus sul quale si redige

il Tesoro della Lingua Italiana delle Origini. Si può consultare

anche per lemmi.

TLIO

Corpus TLIO aggiuntivo: contiene testi destinati ad entrare

nel Corpus OVI dell'Italiano antico, provvisoriamente non

lemmatizzati.

Aggiuntivo


http://gattoweb.ovi.cnr.it/

http://aggweb.ovi.cnr.it/

http://gattoweb.ovi.cnr.it/%28S%28th1im4jqnr0ham33gzkczg45%29%29/CatForm01.aspx

16/04/2010

31

LIZ Letteratura Italiana Zanichelli


61

LIZ 4.0. LETTERATURA ITALIANA ZANICHELLI CD-

ROM dei testi della letteratura italiana. Quarta

edizione per Windows. A cura di Pasquale

Stoppelli ed Eugenio Picchi.

Sistema di interrogazione DBT in collaborazione con

il Consiglio Nazionale delle Ricerche. Con il volume

Schede di letteratura italiana; 1000 opere, 245

autori, 2001

http://www.zanichelli.it/index.asp




IL DATO LINGUISTICO E TESTUALE - Alphabit.net · Risultati in concordanza ... Certificazione di...

Documents

Transcript of IL DATO LINGUISTICO E TESTUALE - Alphabit.net · Risultati in concordanza ... Certificazione di...