La linguistica dei corpora - mobilab.unina.it MSTD-Mazzeo/Slide Lezione... · La linguistica dei...
Transcript of La linguistica dei corpora - mobilab.unina.it MSTD-Mazzeo/Slide Lezione... · La linguistica dei...
La linguistica dei corpora
1
D E F I N I Z I O N E
Argomenti trattati nella lezione:D E F I N I Z I O N EE S E M P I O D I U T I L I Z Z OC O S T R U Z I O N EC O D I F I C A E A N N O T A Z I O N EC O D I F I C A E A N N O T A Z I O N ES T A N D A R D D I C O D I F I C A E A N N O T A Z I O N EA N A L I S I D I U N C O R P U SA N A L I S I D I U N C O R P U SL E A P P L I C A Z I O N I
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
La codifica digitale del testog
h ti diche tipo di rappresentazione di it l d l t t ?digitale del testo?
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Il testo e la sua organizzazioneIl testo e la sua organizzazione
intestazione
titolo
capitolo
testotesto
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Il testo e la sua struttura linguisticaIl testo e la sua struttura linguistica
sintagma nominale
frase relativa
V andare
pass. rem. 3 sing.
articolo indefinito femminile singolarefemminile singolare
stanza come luogostanze =
oggetto di
tutti = soggetto
stanza come luogo oggetto di riscaldare
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
il testo come sequenza di caratteriil testo come sequenza di caratteri
Le avventure di PinocchioCapitolo ICome andò che Maestro Ciliegia, falegname, trovò un pezzo di legno, che piangeva e rideva come un bambinorideva come un bambino.C'era una volta...- Un re! - diranno subito i miei piccolilettori.- No, ragazzi, avete sbagliato. C'era unavolta un pezzo di legno.Non era un legno di lusso, ma un semplicepezzo da catasta, di quelli che d'invernosi mettono nelle stufe e nei caminetti per accendere il fuoco e per riscaldare le stanze.Non so come andasse, ma il fatto gli è cheun bel giorno questo pezzo di legno capitònella bottega di un vecchio falegname, ilquale aveva nome mastr'Antonio se non chequale aveva nome mastr Antonio, se non chetutti lo chiamavano maestro Ciliegia, per via della punta del suo naso, che era sempre lustra e paonazza, come una ciliegiamatura.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
corpus, testo e unità testualip ,
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Definizione
Corpus indica una qualiasi raccolta, completa ed ordinata,di scritti di uno o più autori riguardanti una determinatadi scritti, di uno o più autori, riguardanti una determinatamateria, oppure un campione di una lingua preso inesame nella descrizione della lingua.
Una popolazione è un insieme di tutte le possibili osservazioni di una lingua suun dato campo invece un campione è una sezione della popolazione che neun dato campo, invece, un campione, è una sezione della popolazione, che neingloba solo alcune possibili osservazioni.
Un campione deve essere rappresentativo per essere utile e significativo.Esistono vari metodo per valutare la rappresentatività di un campione, ma lamaggior parte delle valutazioni più accurate si basano sulla ricchezza del
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
gg p pvocabolario, misurata come numero di parole diverse presenti nel corpus.
Definizione
L’estensione di un corpus è la sua ampiezza, che influenza il grado dirappresentatività di un campione testuale. L’estenzione di un corpus può essere:
• Analisi condotte una sola volta e ripetibili• Facilmente distribuito
U t i i t d di tStatica • Usato in maniera standardizzata• Comparabilità dei risultati
• Analisi di tipo diacronistico• Lavoro continuativo
Maggiore difficoltà di distribuzione e trattamentoDinamica • Maggiore difficoltà di distribuzione e trattamento• Necessità di un corpus monitor
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Definizione
Il world wide web può essere considerato un corpus:• enorme, • facilmente accessibile,
i • gratuito, • vario negli stili, nelle tipologie e nei contenuti.
Mancanza di varietà
Accesso ai dati filtrato
Forte tasso di errore
Rappresentazione sbilanciata elementi linguistici
Dinamicità incontrollata
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Dinamicità incontrollata
Tipologia ed usoTipologia ed uso
Principali usi dei corpora
applicativotipico dell’ingegneria del linguaggio, per progettare strumenti:
dotati di conoscenze linguistiche direttamente ricavate da dati rappresentativi di un certo dominio o varietà di linguaggio“robusti” e ben adattati al linguaggio reale
analiticoper fondare analisi e descrizioni linguistiche sull’effettiva distribuzione delle costruzioni e fenomeni all’interno di un linguaggio al fine di valutare ipotesi teoriche sulla sua forma linguaggio, al fine di valutare ipotesi teoriche sulla sua forma ed organizzazione
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Esempio d’usop
Il Corpus di Italiano Televisivo (CiT) sipropone di effettuare analisi linguistichedell'italiano contemporaneo, su datiquantitativi strutturati e affidabili. Più inparticolare, ha come obiettivo l'analisi e lad d ll l à l ldescrizione delle peculiarità lessicali egrammaticali della varietà trasmessadell'italiano contemporaneo.
Tale corpus annotato è stato realizzato con trascrizioni di alcune trasmissioniandate in onda sulle televisioni italiane, selezionate secondo un apposito criterio.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Esempio d’usop
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Esempio d’usop
Esempio di interrogazione: tecnicismi nelle trasmissioni sportive, con POS attivo
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Esempio d’usop
Esempio di interrogazione: ricerca verbi al gerundio (TOS a colori)
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Esempio d’usop
Esempio di interrogazione: lista di distribuzione dei verbi al gerundio
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Tipi di corporaTipi di corpora
i li ticorpus specialisticoorientato alla descrizione di una particolare varietà del linguaggio (sublanguage) o ad un ristretto dominio applicativo
analisi della terminologia biomedica, ecc.linguaggio infantilelinguaggio sportivo, economico, ecc.g gg p , ,linguaggio patologico
corpus generale o di riferimento (reference corpus)trasversale rispetto alle diverse varietà di un linguaggio Lplurifunzionaleorientato a rappresentare tutti gli aspetti caratteristici di L orientato a rappresentare tutti gli aspetti caratteristici di L, proponendosi come risorsa di riferimento per la descrizione di Lpuò essere organizzato in vari sottocorpora specializzati per varietà di Ldi L
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Tipi di corpora
corpus sincronico
Tipi di corpora
corpus sincronicodescrive un particolare stadio del linguaggio (i testi appartengono tutti ad una stessa finestra temporale)
corpus diacronicodescrive il mutamento linguistico (i testi appartengono a diverse finestre temporali)
corpus monolinguecontiene testi di una sola lingua
corpus bi/plurilinguecorpus parallelo – lo stesso testo è rappresentato (in traduzione) in più di una lingua
lli i f ( l ) d ll li è li icorpus allineato – ciascuna frase (parola) della lingua L1 è esplicitamente collegata col suo traducente nella lingua L2
corpus comparabile – testi in più lingue (non in traduzione) appartenenti alle stesse tipologie (ciascuna lingua è rappresentata da testi diversi)p g ( g pp )
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Tipi di corporaTipi di corpora
corpus di scrittosolo testi di linguaggio scritto
corpus di parlatosolo trascrizioni di linguaggio parlato
i tcorpus mistotesti scritti e trascrizioni di parlato (in proporzioni variabili)
speech databasespeech databasecampioni di linguaggio parlato in forma di segnale acustico (più eventualmente la trascrizione ortografica)
lti di lcorpus multimedialetesti scritti, video, parlato in forma di segnato acustico, ecc.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Corpora parallelip p
Canadian Hansard Corpus (2001)1 3 milioni di frasi francesi inglesi allineate a livello di frase tratte dagli 1,3 milioni di frasi francesi-inglesi allineate a livello di frase, tratte dagli atti del Parlamento Canadese
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Corpora parallelip p
MULTEXT (1996)5 milioni di parole dal Journal of European Community (francese, italiano, spagnolo, tedesco, inglese)g800.000 parole allineate a livello di frase (inglese come lingua “pivot”)
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Quante parole compongono un’unità di testo?Qua te pa o e co po go o u u tà d testo
Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, p ,posti di blocco e perquisizioni.
ma cos’è una “parola”?ma cos è una parola ?
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Il “bestiario” del testo
L'art. 1, par. 3, del reg. (CE) n. 1257/ 1999 del Consiglio, del 17 maggio 1999, sulsostegno allo sviluppo rurale da parte del Fondo europeo agricolo di orientamentoe garanzia (FEAOG), che modifica e abroga taluni regolamenti (GU L 161 del26.6.1999, pag. 1), …
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Ambiguità nel tokeng
Tipicamente un elemento di punteggiatura (virgola, punto e virgola, punto fermo) è considerato un separatore di token (e un token essopunto fermo) è considerato un separatore di token (e un token essostesso)Ci sono casi però in cui questo non è vero
numeri con la virgola: 13,05date: 18.3.2003sigle e abbreviazioni: O N U sig ra S Sirosigle e abbreviazioni: O.N.U., sig.ra, S. Siroecc.
Tokenizzare un testo significa segmentarlo in token (parole unità) attraverso regole che risolvono i casi ambigui
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Come contare? (unità e tipo)( p )
il numero di unità (o frequenza) della parola giornale in un testo è uguale a quante volte la stringa giornale appare in quel testoil numero totale di unità in un testo è la lunghezza del testo misurata in paroleil numero di tipi (o cardinalità dell‘insieme) di parole in un testo è uguale a quante parole diverse si trovano nel testoq pil numero totale di tipi di parole in un testo è la grandezza del suo vocabolario
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Esempiop
L i h di G b i ll itLe ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni.
numero di unità di preposizioni:di 2di 2per 1con 1
d i ti i di i i i 3numero dei tipi di preposizioni 3numero totale di unità di preposizioni 4
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Esempio (II)p ( )
TESTO freq
Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni.
di 2, 1. 1bl 1blocco 1con 1e 1elicotteri 1
il testo contiene19 “parole unità” (inclusa la punteggiatura)
elicotteri 1gabriella 1la 1le 1p ( p gg )
1 parola tipo con 2 occorrenze17 parole tipo con 1 occorrenza ciascuna
per 1perquisizio 1posti 1
it 1proseguite 1ricerche 1serata 1sono 1sono 1tutta 1
Il vocabolario di “esempio”p
TESTO freq
Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni.
di 2, 1. 1bl 1blocco 1con 1e 1elicotteri 1elicotteri 1gabriella 1la 1le 1
il vocabolario V consiste di 18 “parole” diverse|V| = 18
per 1perquisizio 1posti 1
it 1
| |chiamiamo Vi la classe di parole che appaiono con frequenza i volte ciascuna nel testoll |V | |V | + |V | + + |V | proseguite 1
ricerche 1serata 1sono 1
allora |V |= |V1| + |V2| +...+ |Vmax|, dove max è la frequenza massima con cui una
parola appare nel nostro testo sono 1tutta 1
p pp
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Lunghezza di una parola e di un testog p
la lunghezza di una parola in caratteri è data dal numero di caratteri che la compongonop gla lunghezza di un testo in caratteri è data dal numero totale di occorrenze di caratteri nel testola lunghezza media di una parola dato un testo è uguale alla lunghezza totalela lunghezza media di una parola dato un testo è uguale alla lunghezza totale del testo in caratteri divisa per la lunghezza dello stesso testo in paroledeviazione standard
lli∑ − 2)(
Ni
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Lunghezza di una parola e di un testog pTESTO lunghezza token
le 2 1ricerche 8 1ricerche 8 1di 2 1gabriella 9 1sono 4 1proseguite 10 1p gper 3 1tutta 5 1la 2 1serata 6 1
4 1con 4 1elicotteri 10 1, 1 1posti 5 1di 2 1di 2 1blocco 6 1e 1 1perquisizioni 13 1. 1 1
lunghezza testo in caratteri 94numero di occorrenze di token 19
lunghezza media per token 4.947368
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Quant’è ricco il vocabolario di un testo?il rapporto “tipo/unità”il rapporto tipo/unità
Le ricerche di Gabriella sono proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie.
“ t ti / ità” t t di lità d l“rapporto tipo/unità”: rapporto tra cardinalità del vocabolario e frequenza globale del testo
|V| / N| |40/44 = 0.910 < ( |V| / N ) ≤ 1
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Quant’è ricco il vocabolario di un testo?il di “h l ”il numero di “hapax legomena”
Le ricerche di Gabriella sono proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' statae perquisizioni. Una prima segnalazione e stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie.
h l è l f 1un hapax legomenon è una parola con frequenza 1, cioè un membro della classe di frequenza V1
|V1|/ N| 1|37/44 = 0.84
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Costruzione
Acquisizione AnalisiScelta dellastruttura in ba- Concreto Eliminazione
A li i d i
Pi ifi i C i
se alla volutarappresentatività
Concreto reperimento del materiale
errori presenti Analisi dei termini
costituentiPianificazione Correzione
Fasi della costruzione di un corpus
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
p
Costruzione
Segmentazione Stabilire regole di analisi
Segmentazione dei confini delle
paroleDistinzione di lessemi e types
Individuazione delle occorrenze
Passi di analisi del materiale iniziale di un corpus
Valutazione di un corpus: Il rapporto tra i tipi di parole e le occorrenze testuali(type/token ratio) ci dà un’approssimazione della ricchezza del vocabolario deltesto esaminato. Esiste anche un’altra definizione di questa misura, che non tiene
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
q ,conto dei types, ma dei lessemi.
Codifica e annotazione
L’annotazione è una forma di codifica di un corpus, e consistenell’associazione di un’etichetta a una porzione specifica e bend li it t di t tdelimitata di testo.
Il linguaggio usato per la specifica delle etichette è detto linguaggio di markup.Il metalinguaggio di markup è un ulteriore livello di astrazione, e stabilisce laforma sintattica delle etichette Costituisce la base per il processo di validazioneforma sintattica delle etichette. Costituisce la base per il processo di validazionedelle etichette.
Il processo di annotazione può essere:p p
Semi-automatico
ManualeAutomatico
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Standard di codifica e annotazione
Requisiti di uno standard di annotazione
Indipendenza di f i idi fruizione
Specificadelle operazionidelle operazioni
Esplicitazione dei criteri di annotazione
Forma standard di codifica
Esplicazione fasi di annotazione
Separazione e autonomia f
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
tra materiale grezzo e quello della codifica
Standard di codifica e annotazione
TEI ha definito delle linee guida per l’annotazione di corpora:TEI ha definito delle linee guida per l annotazione di corpora:• Uso del formato di marcatura SGML o XML;• Codifica dei caratteri ISO 646 e Unicode;• Annotazione di tipo strutturale/semantico;Annotazione di tipo strutturale/semantico;• Ontologia di annotazione comune;• Definizione di un insieme standard di etichette;• Diversificazione del livello di annotazione in:
1. Etichettatura obbligatoria;2. Etichettatura raccomandata;3. Etichettatura opzionale.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
p
Standard di codifica e annotazione
La creazione di documenti TEI è fatta in conformità ad un set di DTD XML.
Set Addizionali • Elementi specialiSet Addizionali
Set Base
p• Header speciali
• Tipizzazione dei testiSet Base
Set Core
p• Elementi specifici
• Elementi comuniSet Core • Struttura dell’header
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Standard di codifica e annotazione
Esempio di annotazione di unEsempio di annotazione di uncorpus con TEI e di header diun corpus annotato.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Standard di codifica e annotazione
ATLAS è un’architettura e un insieme di strumenti per l’analisi di risorse linguistiche lineari.Consente di segmentare il materiale e di tipizzare le annotazioniConsente di segmentare il materiale e di tipizzare le annotazioni,comprendendo un set di metainformazioni basato su Dublin Core.È caratterizzato da un modello di annotazione molto astratto, chelascia spazio all’adattamento a specifiche esigenze.p p g
AIF API Ontologia MAIA
A T L A SA T L A S
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
A T L A SA T L A S
Standard di codifica e annotazione
Segnale
AAnnota
Ontologia
AncoraAnnotazione
RegioneContenuto
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Standard di codifica e annotazione
L’architettura di annotazione è relativamente generale, con pochi vincolipochi vincoli.
L’API permette la connes-sione delle ontologie di basesione delle ontologie di basecon le applicazioni, la defi-nizione di tipi (MAIA) ed unlinguaggio di interrogazionelinguaggio di interrogazione(AQL).
ATLAS fornisce anche serviziS o sce a c e se vsi Input/Output, collegati alleontologie e ai segnali d’ori-gine.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
g
Standard di codifica e annotazione
Mentre ATLAS e TEI si occupano soprattutto di Mentre ATLAS e TEI si occupano soprattutto di norme generali per la codifica di qualunque tipo di testo esistono altri standard che si focalizzano testo…. esistono altri standard che si focalizzano sulle annotazioni linguisticheIl Corpus Encoding Standard (CES) è un progetto di Il Corpus Encoding Standard (CES) è un progetto di codifica dei corpora ideato per applicazioni di ingegneria linguisticaingegneria linguistica
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Standard di codifica e annotazione
CES è uno strumento per la codifica basato su annotazioni strutturali egrammaticali. È conforme alle TEI Guidelines, e utilizza SGML e XML.C d d’ d l li i di l i di d i dComprende note d’uso del metalinguaggio, set di elementi di documentazione, edetichette.
L difi d i d ti i i i d t bitiLa codifica dei dati primari riguarda tre ambiti:• Divisione del testo in frasi e parole;• Descrizione morfosintattica delle parole;• Allineamento e collegamento di testi
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
• Allineamento e collegamento di testi.
Analisi di un corpusp
Analisif
L’analisi di un corpus si componefondamentalmente di tre taskdistinti.
frequenzaUn’analisi di frequenza èlo studio del numero dioccorrenze per ogni forma
Lemmatizzazione
occorrenze per ogni formache compare nel corpus.
La lemmatizzazione è la
Analisi concordanze
oriduzione della formaflessa di uno stesso lesse-ma a un solo lemma.
L’analisi delle concordanzeè l’individuazione del
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
cotesto di ogni parola.
Analisi di un corpusp
L’analisi di frequenza genera una lista di frequenza, ovvero una tabella, in cuisono inserite le varie forme che compaiono nel corpus, congiuntamente a duemisure:
di l di i i l f l• Numero di occorrenze assoluto di ogni singola forma nel corpus;• Frequenza relativa delle occorrenze per ogni forma nel corpus.
Frequenza relativa = (Fw/N)
Il risultato di un’analisi di fre-quenza è detta formario del corpus.Questa operazione può esserecondotta anche a valle di una lem-matizzazione, ottenendo un formariol
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturaleTecnologie per il trattamento e la comprensione automatica del linguaggio naturale
lemmatizzato.
Analisi di un corpusp
L f (f) i di l b l t il di di ifi La frequenza (f) indica globalmente il numero di occcorrenze di una specifica parola.
La dispersione (D) evidenzia se sono presenti delle concentrazioni di occorrenze
Suddivisione corpus in parti
Frequenze relative
Misura dispersione
Misura della dispersione:p
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
La stima d’uso (U) di un particolare elemento linguistico è dato da U = Df
Analisi di un corpusp
P t l l lPer poter svolgere la lemma-tizzazione in maniera automatica,un software deve:
• disporre di tutte le possibile• disporre di tutte le possibileforme flesse di un lessema;
• saperle riconoscere nel cor-pus in analisi;pus in analisi;
• poterle sostituire con il lemmagiusto.
Il risultato del processo di lemmatizzazione è una lista lemmata, con le formeflesse del corpus, il relativo inquadramento sintattico e lemma.
Per realizzare una lista lemmata, è doveroso essere in grado di risolvere ladisambiguazione degli omografi: forme flesse con la stessa scrittura, ma che siriferiscono a lemmi differentiriferiscono a lemmi differenti.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Analisi di un corpusp
Il cotesto di una parola è l’insieme delle parole che si accompagnano a quella inesame all’interno di un corpus. Fornisce informazioni d’uso della specifica parola,e aiuta ad individuare i casi d’uso più frequenti.p q
La concordanza è lo stru-mento per estrarre da un cormento per estrarre da un cor-pus le parole e i relativi co-testi.
La concordanza presenta leparole del corpus, indican-done la frequenza di occor-done la frequenza di occorrenza e il cotesto, che vieneindicato in forma KWIC.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Le applicazioni dello studio dei corporapp p
• Individuazione accezioni delle parole• Incidenza termini nell’uso corrente• Definizione casi d’uso delle parole
Dizionarip
• Maggiore aderenza agli usi correnti della linguaGrammatiche g
• Individuazione regole d’uso della linguaGrammatiche
• Realizzazione parser tagger e lemmatiz-Trattamento • Realizzazione parser, tagger e lemmatizzatori statistici
• Traduzione automatica più accurata
Trattamento automatico
• Realizzazione testi adeguabili alle esigenze degli studenti
• Organizzazione insegnamento della linguaDidattica
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
g g g