Linguistica Italiana 2 – Mod. B Relazione di fine corso Stefano Costanzo
ANALISI PROPOSTA
Analisi sull’utilizzo della costruzione: verbo modale (o servile) + infinito su un corpus di apprendenti con L1 Polacca
2
1. Proposta di analisi e introduzione L’analisi proposta riguarda l’utilizzo di un tratto linguistico dell’italiano da parte di apprendenti con L1 polacca. La costruzione d’interesse è il seguente sintagma verbale: verbo modale (o servile) combinato con l’infinito.
1.1. Specifiche grammaticali sull’analisi I verbi modali (detti anche verbi servili) potere, volere, dovere, appartengono alla più ampia classe dei verbi ausiliari, i quali collegandosi direttamente a un verbo danno luogo a forme composte che conferiscono all’azione espressa dal predicato una specifica modalità. La stessa denominazione di “servili” pone l’accento sulla funzione di servizio che essi assolvono nei confronti del verbo all’infinito, dove il modale costituisce l’elemento reggente mentre l’infinito – pur esprimendo il significato principale del predicato verbale – costituisce l’elemento retto. Si utilizzano in composizione con l’infinito, ad esempio: posso venire, voglio uscire, devo lavorare. Tali verbi prendono solitamente l’ausiliare avere (es. ho dovuto uscire), anche se tradizionalmente è considerata buona norma utilizzare l’ausiliare proprio dell’infinito retto dal verbo modale (es. sono dovuto uscire).
Importante precisare che sul numero dei verbi modali esistenti, anche a proposito dei risultati ottenuti dal Treetagger discussi in §3.1, non vi è pieno accordo. Prenderemo quindi come riferimento quanto affermato nella grammatica consultata, fissando l’insieme dei verbi in esame a tre: potere, per quel che riguarda la modalità della possibilità; volere, per quel che riguarda la modalità della volontà e dovere per quel che riguarda la modalità della necessità. Con quest’affermazione, giustifichiamo l’esclusione di alcune occorrenze identificate come appartenenti alla categoria dei verbi modali dal tagger.
Per contestualizzare al meglio la situazione, è possibile fare un’osservazione riguardo al sistema verbale Polacco. Confrontato con quello germanico e romanzo, si distingue per una categoria dell’aspetto più sviluppata dal punto di vista morfologico che flessivo, compensando una struttura di tempi verbali abbastanza modesta. L’utilizzo di prefissi e suffissi che modificano l’aspetto del verbo, caratteristici di questa lingua, è una caratteristica importante che può influenzare la competenza degli apprendenti di Italiano riguardo l’utilizzo dei verbi.
1.2. Indicazioni sulla competenza degli apprendenti Secondo gli studi di Giacalone Ramat, i verbi modali, e in generale la modalizzazione, compaiono molto presto all’interno delle produzioni di apprendenti; al tempo stesso è sviluppata precocemente anche la competenza di far reggere l’infinito da un verbo modale. Questo avviene perché tali mezzi sono importati per avere successo in una conversazione. Sempre lo stesso studio, fornisce informazioni sull’ordine in cui i tre verbi sono appresi:
Volere ! Potere ! Dovere
Analogamente ai bambini di madrelingua italiana, gli apprendenti utilizzano potere e dovere con valore deontico, che riguarda l’obbligo o il permesso per compiere qualcosa da parte di un terzo agente (posso uscire stasera?). Più avanti nell’apprendimento riescono a utilizzarli anche in maniera più complessa dal valore epistemico, riguardante: opinioni, conoscenze dirette o supposizioni (stasera potrei uscire). Almeno nelle fasi iniziali dell’apprendimento e specie per questa seconda modalità, il costrutto è accompagnato da avverbi (forse) o verbi di opinione (penso, mi sembra) che esprimono giudizio su una determinata situazione.
3
1.3. Materiali utilizzati Per l’analisi proposta, sono stati analizzati 19 elaborati tratti da prove d’esame del consorzio ICoN (Italian Culture on the Net, http://www.italicon.it/) con apprendenti, anonimi, di L1 polacca; sono state svolte tra il 2008 e il 2014. Ogni elaborato è composto da 30 domande (non prese in considerazione ai fini dell’analisi) e da una prova scritta di 2200 caratteri su una traccia attinente ai moduli studiati che costituisce il vero e proprio testo da analizzare. I materiali a disposizione, riassumendo, sono:
• 19 file (.txt) contenenti i testi da analizzare prodotti dagli apprendenti; • 1 file (.ods) contente informazioni riguardo gli elaborati; • 1 file (.xhtml) contenente le tracce degli elaborati e il relativo codice;
1.4. Considerazioni e obiettivi iniziali Secondo le indicazioni viste in §1.2, la costruzione indicata è appresa facilmente dagli apprendenti stranieri. L’analisi che seguirà, ha quindi l’obiettivo di confermare questa tesi nell’ambito degli apprendenti di lingua polacca e analizzare eventuali tratti discordanti da essa. Possono, inoltre, essere integrate delle osservazioni riguardanti la distribuzione del tipo di verbo (essendo questi appresi in ordine diverso), sul tipo di ausiliare eventualmente utilizzato (“avere” o quello retto dall’infinito) e sull’eventuale utilizzo di avverbi o verbi d’opinione che accompagnano la modalità epistemica.
2. Analisi computazionale Il primo passo per l’analisi del testo è quello computazionale, in altre parole: elaborare i materiali di studio per renderli analizzabili con le risorse software a disposizione. Il punto cruciale di questa fase è l’elaborazione del testo attraverso il tagger, che permette di tokenizzare il testo, di POS-‐taggarlo e lemmatizzarlo del tutto automaticamente.
2.1. Il TreeTagger Un tagger è uno strumento software che si occupa di arricchire il testo del corpus (input) con dei metadati. Per il nostro tipo di analisi, questi metadati, saranno di tipo linguistico. Il TreeTagger (http://www.cis.uni-‐muenchen.de/~schmid/tools/TreeTagger/) è un tipo di tagger molto noto e ampiamente utilizzato anche per l’analisi di corpora molto importanti; soprattutto: diffuso in ambiente linguistico. Il prodotto finale del software (output), dato l’input, è un file contenente informazioni riguardanti la parte del discorso ed il lemma appartenenti ad ogni token. Per funzionare, il TreeTagger richiede un file di parametri cui far riferimento. Per quanto riguarda l’analisi proposta e, più in generale, la lingua italiana, il file di parametri scelto – e la relativa documentazione – è quello sviluppato da Marco Baroni, reperibile dallo stesso sito web del TreeTagger. Occorre precisare che non vi sono software direttamente addestrati su corpora d’italiano L2, di conseguenza: il margine di errore caratteristico di questo tipo di strumenti per l’analisi automatica aumenta notevolmente. Questa considerazione impone un maggiore controllo dei risultati e, come vedremo in §3.1, si presentano casi di ambiguità influenti per l’analisi.
4
2.2. Il procedimento Attraverso il terminale del sistema operativo utilizzato sul quale il TreeTagger opera, è stato possibile passare in input ogni singolo file txt, contenente gli elaborati, ottenendo in output un nuovo file txt ma tokenizzato, POS-‐taggato e lemmatizzato. Il processo è del tutto automatico e si svolge attraverso un semplice comando (sistema Unix su Mac OS X 10.9.3):
cmd/tree-tagger-italian [nome-origine].txt > [nome-destinazione].txt
L’analisi è stata eseguita su ogni singolo file, il nome di destinazione è la copia di quello di origine con l’aggiunta del suffisso “_POS.txt”. Particolarità di questa fase è la difficoltà del TreeTagger – almeno per quanto riguarda il sistema sul quale è stato utilizzato – a gestire il primo token presente all’interno dei file: in prevalenza non è riconosciuto, ma trattandosi di articoli, sostantivi e verbi che non interessano la costruzione in analisi non è stato necessario correggere questo errore, poiché non influente per l’analisi.
In seguito, i risultati sono stati importati in dei fogli di lavoro di un file Excel per praticità di visualizzazione e utilizzo. Di fatto, in ogni singolo foglio, è possibile eseguire metodi di selezione delle occorrenze attraverso i filtri. Nel particolare sono due gli elementi che compongono la costituzione a interessarci, più uno generale per il conteggio dei verbi. Sono identificabili attraverso il relativo POS-‐tag indicato nella documentazione di Baroni:
• VER2:* -‐ identifica i verbi modali nelle varie forme, non interessandoci una forma in particolare l’operatore di Kleene è utilizzato per identificare tutte le occorrenze indipendentemente dal modo e dal tempo;
• VER:infi* -‐ identifica i verbi di forma infinita, in questo caso l’operatore di Kleene è utile per identificare anche i clitici, annotati in maniera differente;
• VER* -‐ identifica tutti i verbi presenti;
I risultati numerici sono riportati nella sezione successiva. Essendovi pochi testi da analizzare, è stato possibile gestirli singolarmente per poi sommare semplicemente i risultati. In tal modo, si è potuto tener traccia dell’analisi per ogni singolo testo a fini statistici.
3. Analisi del tratto linguistico Ottenuti i file tokenizzati, POS-‐taggati e lemmatizzati è possibile procedere con l’analisi. Attraverso i filtri di Excel possiamo isolare le occorrenze d’interesse e valutare se formano la coppia ricercata. Su un totale di 5218 sono stati identificati 479 verbi, mentre sono 22 i casi in cui è presente un verbo di tipo modale. Importante precisare che, in questa fase, il conteggio riguarda tutti i verbi identificati come modali dal tagger, compresi gli eventuali errori. In tutti i casi in cui è presente un verbo modale vengono a formarsi costruzioni con l’infinito, tuttavia vi sono casi particolari che andranno presi in considerazione.
I risultati dell’analisi computazionale – completi, senza scarti di analisi che saranno eventualmente effettuati in seguito – sono riportati in forma tabellare, per semplicità di consultazione e per esprimere i dettagli di conteggio rispetto ai singoli elaborati e il totale risultante dell’intero corpus in analisi.
5
Elaborato Token Verbi 1 mod+inf 2 Potere Volere Dovere Note 058695-01 218 20 2 2 0 0 Infinito utilizzato come ausiliare
058695-02 260 22 1 0 1 0 -‐ 058695-03 311 24 0 0 0 0 -‐
058695-04 337 33 2 1 0 1 -‐
058695-05 181 11 0 0 0 0 -‐
058695-06 196 22 2 0 0 2 -‐ 058695-07 100 16 1 1 0 0 -‐
058695-08 218 21 0 0 0 0 -‐
063704-01 177 20 0 0 0 0 -‐
063704-02 361 32 1 1 0 0 -‐ 063704-03 352 38 1 1 0 0 -‐
063704-04 310 25 0 0 0 0 -‐
063704-05 295 26 1 0 0 0 “fare” identificato come VER2:fin 063704-06 358 34 6 3 3 0 -‐
063704-07 353 26 0 0 0 0 -‐
063704-08 261 25 0 0 0 0 -‐
063704-09 324 28 0 0 0 0 -‐ 063704-10 418 40 2 1 0 0 “fare” identificato come VER2:fin
089568-01 188 16 3 3 0 0 Infinito utilizzato come ausiliare
Totale 5218
Totale 479
Totale 22
Totale 13
Totale 4
Totale 3
Essendo soltanto 22 i casi di studio riguardanti la costruzione modale+infinito, è stato possibile analizzarli uno ad uno per ricavare i dati finali. Sono presenti 2 costruzioni estranee all’analisi, che saranno analizzate in §3.1, il che fa scendere il numero dei casi effettivi a 20. Ognuno di questi casi rimanenti non presenta errori. Il conteggio è stato anche del tipo di verbo modale utilizzato, identificando un maggiore uso di potere, rispetto a volere e dovere.
3.1. Casi particolari Si sono verificati tre tipi di casi particolari che hanno, in parte, influenzato l’analisi finale: a) la presenza di forme del verbo “fare” identificate come VER2 dal software, b) il modale seguito da forme dell’ausiliare “essere” che a sua volta è seguito da un verbo e c) l’accentazione di verbi che non sono stati identificati come modali.
a) Il Treetagger ha identificato 2 casi in cui le forme del verbo “fare” sono identificate con il tag VER2:fin, lo stesso che distingue i verbi modali. In entrambi i casi, sono accompagnate da un verbo all’infinito ma sono estranee all’analisi per le ragioni grammaticali discusse in §1.1, le due occorrenze sono:
• “L’immagine stessa del dittatore, il quale si faceva nominare Duce, …” [063704-‐05]; • “…le difficoltà nel trovare un relatore della sua tesi, a fargli affrontare il tema della
propria appartenenza culturale…” [063704-‐10];
b) In 2 casi il modale è correttamente identificato ma seguito da forme dell’ausiliare essere, tuttavia consideriamo questa forma come appartenente al costrutto di base, quindi, pur essendo un caso particolare verrà incluso nell’analisi. Nello specifico:
1 Per il conteggio dei verbi, sono stati escluse molte delle occorrenze il cui lemma è identificato come <unknown> dal Treetagger. L’associazione errata a forme verbali è causata da errori di battitura (typos) nel testo. In alcuni casi vi è un’effettiva corrispondenza a un verbo per cui la verifica è stata fatta manualmente. 2 La costruzione occorre in tutti i casi dove è presente un verbo modale, per cui il numero di costruzioni corrisponde alla totalità dei verbi modali presenti.
6
• “…in cui entrambe le varieta’ possono essere impiegate nella conversazione quotidiana…” [058695-‐01];
• “Anche programmi di alfabetizzazione possono essere considerati.” [089568-‐10];
c) Gli ultimi casi particolari sono 6 e riguardano soprattutto l’accentazione dei verbi, nel particolare: le forme del verbo “potere”. Per forme come “può” o “potrà” è realizzato l’accento attraverso l’apice, di conseguenza il verbo è identificato, ma non come modale. Questi sei casi, hanno richiesto attenzione, poiché non risultanti modali dall’analisi computazionale. Ecco quali sono i casi:
• “…di sicuro solo una pratica costante potra’ portare lo studente a comprenderlo bene.” [058095-‐07];
• “se "gestita" bene dall'insegnante, può facilitare l'apprendimento di vari aspetti della lingua d'arrivo.” [063704-‐06];
• “ma se non guidato da un'insegnante esperto nell'insegnamento dell'italiano come L2, può diventare più un'ostacolo che un aiuto.” [063704-‐06];
• “…l'autore sottolinea la ciecità della sorte che puo annientare un uomo…” [063704-‐10]; • “Si puo' esplicare in provvedimenti vertenti sui caratteri…” [089568-‐01]; • “Puo' andare dalla scelta e imposizione di una lingua nazionle…” [089568-‐01];
3.2. Considerazioni e confronti Le costruzioni risultanti, da 22 in cui sono presenti verbi modali, si riducono a 20 escludendo i casi particolari di tipo a. I risultati possono essere confrontati con quelli di un corpus nazionale come CORIS (CORpus di Italiano Scritto, 130 Milioni di parole), su un campione ridotto di occorrenze (il numero dei risultati è limitato dall’interfaccia), naturalmente in percentuale visto l’enorme differenza tra le grandezze dei due corpus.
Le occorrenze totali subiscono quindi la seguente variazione di conteggio totale:
Token Verbi mod+inf Potere Volere Dovere 5218 479 20 13 4 3
La prima osservazione ci conferma direttamente la tesi iniziale: la costruzione è utilizzata in maniera corretta dagli apprendenti e non sono presenti errori. Escludendo i typos presenti, che pure hanno influito nelle metodologie di raccolta dei dati, il sintagma verbale è utilizzato all’interno delle frasi senza alterazioni grammaticali evidenti e con regolarità: in media quasi una volta per elaborato.
Gli stessi apprendenti dimostrano anche di aver compreso l’utilizzo della costruzione dalle alte varietà di verbi all’infinito che accompagnano i modali: su 20 casi, vengono utilizzati 18 verbi infiniti diversi. In un singolo elaborato (063704-‐06) vi è una doppia ripetizione dei verbi all’infinito, sono utilizzati due volte i verbi “imparare” e “dire”, questo costituisce anche il caso in cui è utilizzato il maggior numero di costruzioni modale+infinito in un singolo elaborato: quattro. Di fatto, l’utilizzo dei verbi modali (20 effettivi) costituisce il 4,2% rispetto al totale dei verbi presenti (479) nel corpus in analisi. In CORIS la percentuale di modali (circa 830.000) presenti rispetto al totale dei verbi (circa 16 milioni) è del 5,2%, non molto distante dai risultati ottenuti sul piccolo corpus di apprendenti in analisi.
“Potere” rimane il verbo modale più utilizzato all’interno dei testi analizzati, e si tratta di un risultato interessante. Secondo quanto espresso in §1.2. i modali sono appresi dagli apprendenti nell’ordine volere>potere>dovere, ci si sarebbe aspettato che anche le proporzioni di utilizzo rispecchiassero questa tendenza. Invece, il 65% dei modali corrisponde alle forme di “potere”, il 20% a quelle di “volere”, mentre il 15% utilizzano il
7
verbo “dovere”. Volendo mettere questi risultati a confronto con un campione del corpus CORIS di 30 occorrenze, sono utilizzate: 46,4% forme di “potere”, 32,1% forme di “dovere”, mentre il rimanente 21,5% sono le forme di “volere”. Confermiamo quindi l’alto utilizzo del verbo “potere” per questo tipo di costruzione, mentre per gli altri due vi è un utilizzo più distribuito e paritario.
Seppur il modale venga utilizzato sia in modalità deontica che epistemica, non è molto presente l’utilizzo degli avverbi o dei verbi di opinione da parte degli apprendenti, è presente un unico caso di avverbio – e nessuno di verbo – che accompagna il sintagma verbale (058095-‐04). Questo perché, come affermato in §1.2, il loro utilizzo concerne una prima fase di apprendimento che gli autori dei testi in analisi hanno già superato.
I modali sono utilizzati in maniera abbastanza omogenea all’interno dei testi, sono quasi totalmente nella forma finita, non sono utilizzate altre forme particolari come quelle del gerundio o del participio passato (che sarebbero state comunque identificate dal Treetagger); si presenta solo un caso di verbo modale all’infinito. Nel dettaglio, i verbi modali sono stati taggati come:
• VER2:fin 17 casi su 20 – rappresentano la maggioranza delle forme utilizzate (ad esempio: possono, vorrei, devono);
• VER2:infi 1 caso su 20 – (ad esempio: poter);
• VER:fin 2 casi su 20 – corrispondenti a due casi particolari del gruppo c indicati in §3.1;
In conclusione, l’analisi ha confermato la tendenza degli apprendenti – in questo caso di lingua Polacca – nell’utilizzare correttamente la costruzione modale+infinito, non sono inoltre presenti tratti devianti da essa. L’utilizzo del tipo di modale è in linea con quello risultante da un corpus come CORIS e rispecchia un uso comune, seppur non lineare con l’ordine nel quale i tre verbi sono appresi. Altra osservazione importante è il mancato utilizzo dell’ausiliare davanti alla costruzione, per cui risulta impossibile analizzare se il suo eventuale utilizzo sarebbe stato come forma di “avere” o come verbo retto dall’infinito.
4. Bibliografia Andorno, C. (2003). La grammatica italiana. Milano: Paravia Bruno Mondadori Editori.
Bonomi, I., Masini, A., Morgana, S., & Piotti, M. (2003). Elementi di linguistica italiana. Roma: Carocci Editore S.p.A.
Giacalone Ramat, A. (2003). Verso l’Italiano. Percorsi e strategie di acquisizione. Roma: Carocci Editore.
Graffi, G., & Scalise, S. (2002). Le lingue e il linguaggio, introduzione alla linguistica. Bologna: Il Mulino.
Pisarek, W. (2007). La lingua polacca. (M. Jaskot, Trad.) Varsavia: The Council for the Polish Language .
Top Related