Verifica di qualità in citologia: un test di concordanza su immagini digitali
IL DATO LINGUISTICO E TESTUALE - Alphabit.net · Risultati in concordanza ... Certificazione di...
Transcript of IL DATO LINGUISTICO E TESTUALE - Alphabit.net · Risultati in concordanza ... Certificazione di...
16/04/2010
1
SCRITTURA ACCADEMICA E
RISORSE BIBLIOGRAFICHE
ONLINE
Isabella Chiari
PdE LM - Chiari, Scrittura accademica 2010 1
IL DATO LINGUISTICO E
TESTUALE
i corpora di riferimento della lingua italiana, corpora specialistici, corpora letterari.
PdE LM - Chiari, Scrittura accademica 2010 2
16/04/2010
2
Tipologie di risorse digitali (online)
PdE LM - Chiari, Scrittura accademica 2010
3
Corpora linguistici
Corpora di lingua parlata, corpora di lingua scritta, corpora specialistici
Portali
ParlarItaliano
Testi da varie fonti
Repubblica, Corriere della Sera, La Stampa
Biblioteche digitali
Cd-rom e risorse
LIZ Letteratura Italiana Zanichelli, TLIO
Principali corpora italiani
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
4
ITALIANO
SCRITTO
ITALIANO
PARLATO
LIF - Lessico di frequenza della lingua
italiana contemporanea
LIP - Lessico di frequenza dell'italiano
parlato
CORIS / CODIS
Corpus Dinamico dell’Italiano scritto
CLIPS - Corpora Linguistici per l'Italiano
Parlato e Scritto
COLFIS - Corpus e Lessico di Frequenza
dell'Italiano Scritto
LABLITA - Corpus di italiano parlato
LA REPUBBLICA CORPUS (giornalistico) Integrated reference corpora for spoken
romance languages
(C-ORAL-ROM)
16/04/2010
3
Altri corpora di italiano
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
5
ITALIANO
SCRITTO
ITALIANO
PARLATO
TLIO - Tesoro della lingua italiana delle
origini (lettarario)
CIT - Corpus di italiano televisivo
LIZ - Letteratura Italiana Zanichelli
(lettarario)
LIR - Lessico di frequenza dell'italiano
radiofonico
BOnonia Legal Corpus (BolC) API/AVIP/IPar
EUROTRA, EuroWordNet, PAROLE, SIMPLE
l‟Italian Reference Corpus
Child Language Data Exchange System
(CHILDES) - italiano
Banca dati di Italiano L2
Osservatorio Linguistico permanente
dell'Italiano Diffuso fra Stranieri -Siena
Corpora di italiano scritto (1)
PdE LM - Chiari, Scrittura accademica 2010
6
LIF Lessico di frequenza della lingua italiana contemporanea
Lessico di frequenza della lingua italiana contemporanea (LIF), elaborato nel 1971 al cnuce (Centro Nazionale Universitario di Calcolo elettronico) di Pisa (cfr. Bortolini et alii , 1971).
Si tratta del primo grande progetto di costruzione di un lessico di frequenza per la lingua italiana (non tagliato su un singolo autore o su testi specificatamente letterari).
Il lessico contiene circa 5.000 lemmi ordinati per frequenza e secondo l'ordine alfabetico, tratti dallo spoglio di testi per un complesso di 500.000 parole. I testi che sono entrati a far parte del corpus sono datati tra il 1947 e il 1968, sono tutti testi scritti, presi da 5 fonti diverse (teatro, romanzi, cinema, periodici, sussidiari), a rappresentare diverse forme testuali alcune delle quali vicine al parlato.
Il corpus non è disponibile per la consultazione né offline né online.
16/04/2010
4
Corpora di italiano scritto (2)
PdE LM - Chiari, Scrittura accademica 2010
7
Corpus e Lessico di Frequenza dell'Italiano Scritto
Corpus e Lessico di Frequenza dell'Italiano Scritto
(ColFIS), costruito da Bertinetto, Burani, Laudanna,
Marconi, Ratti, Rolando e Thornthon, è costituito da
3.150.075 occorrenze lessicali tratte da quotidiani,
periodici e libri di varia natura bilanciate secondo le
letture degli italiani.
Al momento sono disponibili gratuitamente online le
liste con il lemmario (non il corpus).
http://www.istc.cnr.it/material/database/colfis/
Progetto COLFIS
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
8
Rappresentatività italiano “medio”
•Letture preferite dagli italiani
•1992-1994•differenziati per tipologia (quotidiani, periodici, libri) e per argomento (politica, letteratura, sport, ecc.). •il bilanciamento delle fonti, che conferisce un carattere di non casualità alle rilevazioni numeriche estraibili dall'archivio lessicale
Estensione
•3.798.275 parole
16/04/2010
5
Bilanciamento
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
9
QUOTIDIANI
• Circa 1.800.000 occorrenze
PERIODICI
• Circa 1.306.000 occorrenze
LIBRI
• Circa 655.000 occorrenze
• 13 generi letterari
QUOTIDIANI
La Stampa
La Repubblica
Il corriere della sera
economia
cronaca locale
cronaca mondana
cronaca nera
politica estera
politica interna
scienza
spettacolo
sport
altro
arte scienza e tecnica
auto e nautica
bambini e ragazzi
casa e hobby
femminili
fotoromanzi
informazione generale
cronaca mondana
radio e televisione
sport
viaggi e ecologia
Ricerca nel corpus
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
10
16/04/2010
6
“sai” nel COLFIS11
Corpora di italiano scritto (2)
PdE LM - Chiari, Scrittura accademica 2010
12
CORIS/CODIS Corpus di Italiano Scritto contemporaneo
Corpus di Italiano Scritto contemporaneo (CORIS/CODIS): COrpus di Riferimento dell'Italiano Scritto (CORIS) elaborato e coordinato da R. Rossini Favretti, dal 1998. Formato da due corpus distinti.
Il COrpus di Riferimento dell'Italiano Scritto ( Coris ) è stato elaborato con lo scopo di costruire un corpus generale dell'italiano scritto. Il corpus contiene 100 milioni di parole, e verrà aggiornato ogni due anni con nuovo materiale di controllo.
I testi ivi contenuti sono prevalentemente di narrativa prodotta negli anni Ottanta e Novanta. Il corpus è elaborato con criteri linguistici molto rigorosi ed è per sua natura dinamico. Dal corpus generale si distinguono alcuni sottocorpora, rappresentanti delle diverse varietà dell'italiano scritto.
Accanto al Coris si aggiunge il COrpus Dinamico dell'Italiano Scritto ( Codis ) che permette la selezione ed eventuale esclusione di sottocorpora considerati non rilevanti per specifiche ricerche. Il corpus è disponibile su cd-rom e per consultazione online.
http://corpora.dslo.unibo.it/coris_ita.html
16/04/2010
7
CODIS
Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza,
Roma-Bari.
Risultati in concordanza
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
14
16/04/2010
8
Corpora di italiano scritto (3)
PdE LM - Chiari, Scrittura accademica 2010
15
ItWac
ItWac, corpus di lingua italiana costituito da circa 1.909.535.984 parole (occorrenze). Il corpus è parzialmente bilanciato attraverso una serie di procedure di Web crawling, lemmatizzato con un lemmatizzatore di impianto statistico TreeTagger, interrogato attraverso il Corpus Query System di Sketch Engine. M. Baroni, A. Kilgarriff, Large linguistically-processed Web corpora for multiple languages, in Proceedings of the Eleventh Conference of the European Chapter of the Association for Computational Linguistics, Association for Computational Linguistics, 2006, pp. 87-90.
http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/
http://ca.sketchengine.co.uk/auth/corpora/
Il corpus di Repubblica
PdE LM - Chiari, Scrittura accademica 2010
16
Corpus di Repubblica (SSLMIT, Baroni)
Corpus delle 10 annate pubblicate fino al 1999
Annotato con Treetagger
Circa 380 milioni di occorrenze
http://dev.sslmit.unibo.it/corpora/
16/04/2010
9
Tipologie testuali
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
17
La Repubblica
news
church, culture, economics,
education, news, politics,
commento
science, society, sport, weather
Risultati in concordanza
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
18
16/04/2010
10
LA REPUBBLICA in sintesi
• Lemmatizzato e analizzato morfologicamente (in modo automatico, Treetagger)
Trattamento
• Sintassi di interrogazione molto ricca (un po‟ complessa)
Interrogazione
• 380 milioni (grande per gli standard attuali)
Estensione
• Online gratuita
Distribuzione
• Non è un corpus di riferimento
Disegno
• Senza esportazione delle concordanze
• Nessun accesso al testo integrale
• Liste di frequenza non esportabili nella totalità
Accesso corpus
19
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
Pregi Difetti
Corpora di parlato
PdE LM - Chiari, Scrittura accademica 2010
20
LIP Lessico di frequenza dell'italiano parlato
Lessico di frequenza dell'italiano parlato (LIP), curato da De Mauro, Mancini, Vedovelli e Voghera (1993) costituisce la controparte del lifper l'italiano parlato. Il corpus da cui è tratto è costituito da circa 500.000 parole grafiche, trascrizioni di registrazioni effettuate a Milano, Firenze, Roma e Napoli, pari a quasi 57 ore di parlato. Le tipologie del parlato rappresentate sono dialoghi faccia a faccia e non, a presa di parola libera e non, monologhi faccia a faccia e non. I lemmi sono consultabili secondo frequenza e secondo ordine alfabetico, vi è anche una lista di frequenza dei fonosimboli e delle polirematiche. Il volume del lessico è corredato da due dischetti che contengono le trascrizioni di tutti i testi del corpus, permettendo dunque a chi voglia svolgere ulteriori analisi l'accesso diretto ai materiali.
http://languageserver.uni-graz.at/badip/badip/20_corpusLip.php
16/04/2010
11
Il lessico di frequenza del LIP
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
21
Esempio: il testo RA1 (formato grezzo)
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
22
16/04/2010
12
Interrogazione BADIP
Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza,
Roma-Bari.
Interrogazione BADIP
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
24
16/04/2010
13
Risultati
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
25
Osservare le concordanze
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
26
16/04/2010
14
Usare i testi integrali
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
27
Corpora di parlato (2)
PdE LM - Chiari, Scrittura accademica 2010
28
API/AVIP/IPar
API/AVIP/IPar sono progetti di raccolta di materiale fonico spontaneo di lingua italiana, cui hanno partecipato variamente il laboratorio di linguistica della Scuola Normale di Pisa, il CIRASS e l‟Orientale di Napoli, il Politecnico di Bari e l‟Università del Piemonte Orientale. I progetti sono conformi alle specifiche di codifica e annotazione di Eagles. Il materiale dei corpora (files e software) è disponibile su cd-rom, distribuiti dal CIRASS e via ftp sempre dal sito del CIRASS.
Corpus LIPS – Italiano di stranieri
"Il corpus LIPS raccoglie le trascrizioni dei testi tratti dall‟archivio delle prove d‟esame CILS - Certificazione di Italiano come Lingua Straniera dell‟Università per Stranieri di Siena. Dall‟archivio, che comprende tutte le prove dei candidati agli esami CILS a partire dalla prima sessione del 1993, sono state estratte circa 2000 prove di diversi candidati accomunati dal fatto di avere svolto almeno due prove in successione delle sei prove CILS. Al momento attuale, il corpus selezionato comprende circa 70 ore di parlato, che, una volta trascritto, ha raggiunto le 530.000 occorrenze di forme di unità lessicali."
16/04/2010
15
Corpora di parlato (3)
PdE LM - Chiari, Scrittura accademica 2010
29
CLIPS - Corpora Linguistici per l'Italiano Parlato e Scritto
Corpora Linguistici per l'Italiano Parlato e Scritto (CLIPS) (audio, etichettatura e documentazione) è pubblico, l‟accesso e il download completo del materiale per finalità scientifiche sono gratuiti.
CLIPS consiste di circa 100 ore di parlato, equamente ripartito tra voci maschili e voci femminili, in parte trascritto ortograficamente e etichettato foneticamente. Le registrazioni sono state effettuate in 15 località italiane scelte in base a criteri di rappresentatività linguistica e socioeconomica: Bari, Bergamo, Bologna, Cagliari, Catanzaro, Firenze, Genova, Lecce, Milano, Napoli, Palermo, Parma, Perugia, Roma, Venezia.
La documentazione, i protocolli di raccolta e di annotazione del materiale tengono conto delle direttive del progetto EAGLES.
CLIPS
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
30
Progetto
• diretto da Federico Albano Leoni
• 1999-2004
• voci maschili e voci femminili, in parte trascritto ortograficamente e etichettato foneticamente
Struttura
• 100 ore di parlato
• Distribuzione sia dell‟audio sia delle trascrizioni
Località
• 15 località italiane
• Bari, Bergamo, Bologna, Cagliari, Catanzaro, Firenze, Genova, Lecce, Milano, Napoli, Palermo, Parma, Perugia, Roma, Venezia
16/04/2010
16
Tipologie testuali
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
31
a) parlato radiotelevisivo
• (notiziari, interviste, talk shows);
b) parlato dialogico
• (240 dialoghi raccolti secondo le modalità del map task e del „gioco delle differenze‟, dei quali 30 etichettati foneticamente, 90 trascritti ortograficamente, studenti universitari);
c) parlato letto da parlanti non professionisti
• (20 frasi atte a garantire la copertura delle frequenze medio-alte del lessico italiano);
d) parlato telefonico
• (conversazioni tra circa 300 parlatori e un portiere d‟albergo simulato)
e) parlato letto da 20 parlanti professionisti
www.clips.unina.it
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
32
16/04/2010
17
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari33
<inspiration> in realtà la
cultura svedese , è come se
in qualche modo un po' ha
sempre un po<oo>'
<inspiration> <eh> subito
una<aa> <inspiration>
una un po' una mancanza
di fiducia in se stessa e
quindi si è sempre nutrita di
modelli , che in negli anni
sessanta principalmente
erano fondamentalmente
l'America <inspiration>
CLIPS in sintesi
• Ortografica, fonetica e fonologica
• Standardizzata Eagles
Trascrizione e Annotazione
• Online gratuita
• Accesso al corpus integrale (scaricabile)
• Accesso anche all‟audio
• Software per le analisi gratuiti online
• Documentazione dettagliata
Distribuzione
• Grande per indagini fonetiche, ma piccolo per gli altri livelli
Estensione
• Nessuna annotazione grammaticale (attualmente)
Interrogazione e annotazione
• Mediante Ftp (un po‟ lento)
Accesso corpus
34
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
Pregi Difetti
16/04/2010
18
Corpora di parlato (4)
PdE LM - Chiari, Scrittura accademica 2010
35
Lessico di frequenza dell'italiano radiofonico (LIR)
Lessico di frequenza dell'italiano radiofonico (LIR) è un progetto di analisi del lessico e del corpus del parlato radiofonico, diretto da Nicoletta Maraschio, in 2 DVD ed è pubblicato dall'Accademia della Crusca."I due DVD contengono due corpora di italiano radiofonico raccolti a quasi dieci anni di di-stanza, una prima volta nel 1995 e poi nel 2003. Il corpus del LIR1 (1995) raccoglie circa 64 ore di parlato radiofonico, trascritto e in voce, registrato da nove radio a diffusione nazionale [...] può essere interrogato grazie a un potente motore di ricerca come il DBT di Eugenio Picchi" (Maraschio, Stefanelli)
Corpora di parlato (5)
PdE LM - Chiari, Scrittura accademica 2010
36
Corpora di LABLITA
LABLITA dal 1973 si occupa della raccolta e gestione di corpora con lo standard di trascrizione chat (cfr. Childes). Si tratta di un insieme di corpora composto da: 1) un corpus di italiano parlato spontaneo adulto che raccoglie circa 120 testi che riguardano situazioni comunicative diafasiche diverse per un totale di 60 ore; 2) un corpus della lingua dei media (cinema, radio e televisione); 3) un corpus di 100 ore di italiano registrato nella fase del primo apprendimento (in bambini di 18-36 mesi). In questo corpus i testi sono trascritti, ma l'audio è disponibile in formato digitalizzato (wav). Indicazioni e materiali si trovano nei due volumi accompagnati da cd-rom multimediale: Emanuela Cresti (2000), Corpus di italiano Parlato , Accademia della Crusca.
http://lablita.dit.unifi.it/
16/04/2010
19
Annotazioni e distribuzione
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
37
Audio
• In questi corpora i testi sono trascritti, ma l‟audio è disponibile in formato digitalizzato (.wav).
Trascrizioni
• Le trascrizioni sono in formato CHAT (cfr. Childes)
Distribuzione
• A richiesta
• Non interrogabili online
E. Cresti - M. Moneglia
2005
comparable set of corpora of spontaneous spoken language for the main romance languages, namely French, Italian, Portuguese and
Spanish
300,000 words for each language
C-ORAL-ROM
Integrated reference corpora for spoken
romance languages
38
Fakulteta za humanistične študije Koper, Univerza na Primorskem, Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
16/04/2010
20
Caratteristiche C-ORAL-ROM
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
39
Comparabilità tra le quattro lingue romanze
Distribuzione di Audio e trascrizione
Allineamento di audio e trascrizione con software (WinPitch)
tagging prosodico & grammaticale
C-ORAL-ROM design
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
40
16/04/2010
21
Che in C-ORAL-ROM
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
41
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari42
16/04/2010
22
C-ORAL-ROM in sintesi
• Ortografica
• Annotazione prosodica e grammaticale
• Standardizzata CHAT
• Esportazione di concordanze e liste selezionate
Trascrizione e Annotazione
• Accesso al corpus integrale
• Accesso anche all‟audio
• Software per le analisi gratuiti online
• Documentazione dettagliata
Distribuzione
• Piccola per indagini diverse da fonetica e prosodica
Estensione
• Non si possono interrogare sequenze
Interrogazione
• A pagamento su cd-rom
Accesso corpus
43
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
Pregi Difetti
Corpora di parlato (6)
PdE LM - Chiari, Scrittura accademica 2010
44
Corpus di italiano televisivo
Corpus di italiano televisivo (CIT) sarà composto da 250.000 parole, e successivamente è programmato un ampliamento del corpus a 500.000 parole per una maggiore omogeneità con altri corpora italiani di lingua scritta (LIF) e parlata (LIP).
I testi prescelti sono tratti da trasmissioni originali non di fiction, tratte da diverse categorie di attualità, intrattenimento, pubblicità, sport e telegiornali. Il Cit è annotato secondo gli standard della Text EncodingInitiative (TEI).
http://www.sspina.it/cit/cit.htm
16/04/2010
23
Il portale ParlarItaliano
PdE LM - Chiari, Scrittura accademica 2010
45
PARLARITALIANO.IT è un portale di riferimento per lo studio su corpora parlati, coordinato da Miriam Voghera. Dalla presentazione: "è il primo osservatorio nazionale sul parlato italiano costituito nel 2004 da dieci gruppi di ricerca di otto diversi Atenei italiani
Parlare italiano ha lo scopo di offrire strumenti teorici e applicativi per la diffusione e migliore conoscenza della lingua italiana, con particolare attenzione alla didattica dell‟italiano come lingua straniera.
Nel sito Parlare italiano potrete trovare un ampio spettro di ricerche sul parlato che garantiscono la massima pubblicità dei corpora sui cui si lavora, dei metodi e delle tecniche di analisi"
http://www.parlaritaliano.it/parlare/
nella ricerca linguistica
Piccola “guida” all‟uso dei corpora46
16/04/2010
24
Analisi comparativa47
LIP CLIPS CORIS/CODIS COLFIS LA
REPUBBLICA
C-ORAL-
ROM
Analisi fonetiche ()
Analisi
morfosintattiche
()
Analisi lessicali ()
Accesso al testo
integrale
Accesso ai
sottocorpora
Gratuito
Accesso online
Le interrogazioni sui quotidiani
PdE LM - Chiari, Scrittura accademica 2010
48
La Repubblica
http://www.repubblica.it/
Corriere della sera
http://archiviostorico.corriere.it/
La Stampa
http://archivio.lastampa.it/
16/04/2010
25
PdE LM - Chiari, Scrittura accademica 201049
PdE LM - Chiari, Scrittura accademica 201050
16/04/2010
26
PdE LM - Chiari, Scrittura accademica 201051
Le biblioteche digitali52
PdE LM - Chiari, Scrittura accademica 2010
16/04/2010
27
Biblioteche digitali
PdE LM - Chiari, Scrittura accademica 2010
53
Liber Liber, progetto Manuzio
http://www.liberliber.it/
L'associazione Liber Liber promuove il progetto Manuzio, che ha per scopo la
fondazione di una biblioteca telematica ad accesso gratuito. I libri sono
prelevabili direttamente via Internet, oppure si possono ottenere su CDROM (i
CDROM vengono spediti ai sostenitori di Liber Liber). Disponibili anche alcuni
atti pubblici (come i verbali della Commissione Parlamentare Antimafia), tesi di
laurea, riviste (Studi storici, Spolia), ecc.
Biblioteca della Letteratura Italiana
http://www.letteraturaitaliana.net/
Realizzato da Pianetascuola in collaborazione con l'editore Einaudi, questo sito
Internet si pone come obiettivo quello di rispondere ai bisogni di una scuola che
sta sperimentando nuove tecnologie e nuovi contenuti. Le caratteristiche salienti
sono: materiali forniti gratuitamente; qualità dei testi; semplicità di utilizzo. Ben
fatte le schede sugli autori. Il formato degli e-book è PDF, che - se pure facile
da usare - è un formato proprietario (non standard e non evoluto come l'XML).
PdE LM - Chiari, Scrittura accademica 2010
54
Biblioteca Italiana
http://www.bibliotecaitaliana.it/
Una biblioteca digitale di testi della tradizione
culturale e letteraria italiana, promossa e gestita dal
“Centro interuniversitario Biblioteca italiana telematica”
(CIBIT), per opera della sua unità attiva presso
l‟Università di Roma La Sapienza, e da “Testi Italiani in
Linea”. Si candida a divenire il principale progetto di
biblioteca telematica finanziata pubblicamente.
16/04/2010
28
PdE LM - Chiari, Scrittura accademica 201055
TLIO, LIZ, ecc.
Cd-rom e risorse online di tipo
letterario56
PdE LM - Chiari, Scrittura accademica 2010
16/04/2010
29
TLIO Tesoro della lingua italiana delle
origini
PdE LM - Chiari, Scrittura accademica 2010
57
Tesoro della lingua italiana delle origini (TLIO) è un database testuale (nato nel 1995 e inaugurato nel 1998) composto da circa 1.780 testi per circa 20 milioni di parole, tratte da scritti in lingua italiana prima del 1375, in prosa e in poesia.
Una prima versione della banca dati fu implementata in dbt di Eugenio Picchi. Il database è interrogabile online con registrazione gratuita al sito dell'Istituto Opera del Vocabolario Italiano (OVI):
È pubblicato qui in corso di redazione il Tesoro della Lingua Italiana delle Origini (TLIO), prima sezione cronologica del vocabolario storico italiano.Una selezione delle stesse voci viene stampata nel Bollettino dell'OVI; la versione in rete può essere aggiornata rispetto alla versione a stampa.
Nuove voci vengono aggiunte periodicamente, col procedere della redazione. Alla fine del 2009 è stato raggiunto un totale di circa 20.500 voci
http://tlio.ovi.cnr.it/TLIO/
PdE LM - Chiari, Scrittura accademica 201058
16/04/2010
30
Le Banche Dati dell'Opera del
Vocabolario Italiano
PdE LM - Chiari, Scrittura accademica 2010
59
Le Banche Dati sono consultabili con accesso libero e gratuito.
Corpus OVI dell'Italiano antico: è il corpus sul quale si redige
il Tesoro della Lingua Italiana delle Origini. Si può consultare
anche per lemmi.
TLIO
Corpus TLIO aggiuntivo: contiene testi destinati ad entrare
nel Corpus OVI dell'Italiano antico, provvisoriamente non
lemmatizzati.
Aggiuntivo
PdE LM - Chiari, Scrittura accademica 201060
16/04/2010
31
LIZ Letteratura Italiana Zanichelli
PdE LM - Chiari, Scrittura accademica 2010
61
LIZ 4.0. LETTERATURA ITALIANA ZANICHELLI CD-
ROM dei testi della letteratura italiana. Quarta
edizione per Windows. A cura di Pasquale
Stoppelli ed Eugenio Picchi.
Sistema di interrogazione DBT in collaborazione con
il Consiglio Nazionale delle Ricerche. Con il volume
Schede di letteratura italiana; 1000 opere, 245
autori, 2001
http://www.zanichelli.it/index.asp