Tecniche_testing linguistico

42
La valutazione linguistica Tecniche per il testing linguistico 1. Le prove oggettive Le prove scolastiche tradizionali avevano il limite di imporre sia allo studente che al docente una mediazione troppo soggettiva, e talora arbitraria, nella interpretazione del compito e delle domande e nella valutazione delle risposte. Capitava (e capita ancora) che una stessa prestazione venisse valutata diversamente da docenti diversi o anche dallo stesso docente in momenti diversi. Per superare i limiti delle prove soggettive si è sviluppata la docimologia e, in ambito linguistico, il language testing. Il test cosiddetto oggettivo è, infatti, un tipo di prova che presenta degli stimoli chiusi e soprattutto permette di predeterminare la risposta esatta di ogni quesito e, di conseguenza, la possibilità di prestabilire il punteggio da assegnare a seconda che la risposta sia esatta, omessa o sbagliata. In tal modo chiunque corregga quel test non potrà che assegnare sempre e solo un dato punteggio. È chiaro che qui oggettività si applica esclusivamente al modo in cui una prova viene corretta, perché per quanto riguarda gli altri aspetti della prova, come i contenuti e le stesse tecniche di esecuzione sono scelti dall'insegnante o dall'autore della prova. In relazione ai modi in cui il quesito viene proposto o del formato della prova o del tipo di compito richiesto al candidato, nel testing linguistico si hanno diversi tipi di prove oggettive; tra i principali ricordiamo la scelta binaria, la scelta multipla, i completamenti, le corrispondenze (o matching), gli incastri (o riordino di elementi linguistici), la sostituzione, l'editing. 1.a Scelta binaria A scelta binaria sono quei quesiti che richiedono di scegliere tra due semplici ed opposte alternative, come sì/no, vero/falso, giusto/sbagliato e simili. All'allievo si chiede semplicemente di segnalare l'alternativa che giudica esatta. 1

description

tecniche didattiche per la valutazione linguistica. vari tipi di tecniche con la spiegazione e esempi

Transcript of Tecniche_testing linguistico

Page 1: Tecniche_testing linguistico

La valutazione linguistica

Tecniche per il testing linguistico

1. Le prove oggettive

Le prove scolastiche tradizionali avevano il limite di imporre sia allo studente che al docente una mediazione troppo soggettiva, e talora arbitraria, nella interpretazione del compito e delle domande e nella valutazione delle risposte. Capitava (e capita ancora) che una stessa prestazione venisse valutata diversamente da docenti diversi o anche dallo stesso docente in momenti diversi. Per superare i limiti delle prove soggettive si è sviluppata la docimologia e, in ambito linguistico, il language testing. Il test cosiddetto oggettivo è, infatti, un tipo di prova che presenta degli stimoli chiusi e soprattutto permette di predeterminare la risposta esatta di ogni quesito e, di conseguenza, la possibilità di prestabilire il punteggio da assegnare a seconda che la risposta sia esatta, omessa o sbagliata. In tal modo chiunque corregga quel test non potrà che assegnare sempre e solo un dato punteggio.

È chiaro che qui oggettività si applica esclusivamente al modo in cui una prova viene corretta, perché per quanto riguarda gli altri aspetti della prova, come i contenuti e le stesse tecniche di esecuzione sono scelti dall'insegnante o dall'autore della prova.

In relazione ai modi in cui il quesito viene proposto o del formato della prova o del tipo di compito richiesto al candidato, nel testing linguistico si hanno diversi tipi di prove oggettive; tra i principali ricordiamo la scelta binaria, la scelta multipla, i completamenti, le corrispondenze (o matching), gli incastri (o riordino di elementi linguistici), la sostituzione, l'editing.

1.a Scelta binaria

A scelta binaria sono quei quesiti che richiedono di scegliere tra due semplici ed opposte alternative, come sì/no, vero/falso, giusto/sbagliato e simili. All'allievo si chiede semplicemente di segnalare l'alternativa che giudica esatta.

Con questo tipo di test si possono rilevare solo conoscenze molto semplici, di tipo riproduttivo che non vanno oltre il semplice riconoscimento di informazioni lette o ascoltate o apprese. La probabilità di risposta corretta data casualmente è molto alta, statisticamente è pari al 50 per cento, per cui non si può essere sicuri che gli esiti derivanti dalle risposte scelte rispecchino le reali competenze possedute.

Quando si usano test a scelta binaria all'interno di una prova complessiva che prevede più test vari per formato e lunghezza, è bene usarli nella parte iniziale sia per dare all'intera prova una progressione dal più semplice al più complesso, sia per disporre l'allievo in una situazione più serena cominciando con una prova più semplice.

1.b Scelta multipla

Si tratta di una tecnica che nel formato standard prevede un quesito (stem) seguito da tre o più risposte delle quali una sola è quella corretta. Tuttavia diversi possono essere i formati, ma tutti devono consentire la possibilità di scelta tra più alternative (dette anche varianti o uscite). Maggiore è il numero delle uscite, maggiore è l'attendibilità della tecnica usata come prova, in quanto costringe lo studente a riflettere di più prima di scegliere, e sul piano statistico diminuisce la percentuale di probabilità di rispondere correttamente scegliendo a caso.

1

Page 2: Tecniche_testing linguistico

La valutazione linguistica

Il multiple choice è una prova di rapida esecuzione (l'allievo indica semplicemente l'elemento o gli elementi linguistici corretti scegliendoli fra quelli suggeriti) e semplice e veloce da correggere. I dati ottenuti sono facilmente comparabili. E’ più efficace come tecnica di riflessione e di apprendimento che come strumento di verifica, in quanto più difficilmente lo studente bara contro se stesso.

La scelta multipla può interessare elementi linguistici discreti (singole parole o singole informazioni) o conoscenze ed informazioni generali o globali. Può riferirsi a strutture linguistiche determinate come a informazioni contenute in testi, o costituire una sorta di ricapitolazione di quanto è stato presentato in un certo numero di lezioni o unità didattiche.

Insomma, la scelta multipla si può utilizzare per verificare la comprensione di testi orali o scritti, la competenza linguistica, pragmatica, lessicale o testuale.

Se l'esecuzione e la correzione è facile ed immediata, non altrettanto semplice e rapida è sempre la costruzione di un test a scelta multipla. Perché, infatti, questo sia didatticamente utile ed efficace richiede un'attenta selezione delle alternative (o distrattori) che accompagnano l'item corretto. Queste devono essere tali da far riflettere l'allievo; perciò non devono essere ovvie o banali o, peggio ancora, assurde, ma dovranno presentare dei tratti di somiglianza con la risposta corretta.

Uno dei limiti del test a scelta multipla è dato dalla possibilità che l'allievo possa rispondere "a caso". Altro limite è rappresentato dalla possibilità di indurre artatamente in errore o di far fissare una forma erronea in chi non è troppo sicuro delle conoscenze apprese o in chi per carattere tende a problematizzare tutto e a interrogarsi continuamente. Per questo è importante che lo studente non lo consideri semplicemente uno strumento di valutazione ma lo veda, invece, come un'occasione di ampliamento delle conoscenze, come uno strumento di analisi più approfondita ed un'occasione di confronto di ipotesi. Per rendere meno aleatorie e casuali le risposte, si potrebbe, magari nel colloquio orale successivo alla prova scritta, invitare gli allievi a motivare la scelta operata esprimendo le ragioni che li hanno guidati a scegliere una particolare variante e ad escludere le altre.

Il test a scelta multipla può variare nel formato, in base al numero delle alternative proposte, o dell'item o degli item da individuare o come corretti o come errati, può prevedere l'individuazione degli elementi che completano in modo appropriato enunciati o testi, o che siano risposte appropriate a specifiche domande.

1. Numero delle alternative (o distrattori). Le alternative tra le quali individuare quella/e corretta/e possono essere tre o quattro o cinque. Più alto è il numero delle alternative più bassa diventa la probabilità della risposta esatta casuale. D'altro canto, tuttavia, più difficile diviene per l'estensore del test trovare alternative didatticamente e linguisticamente congrue ed efficaci.

Esempi:Marco è andato negli Stati Uniti con la sua moglie. [a]Marco è andato negli Stati Uniti con le sue moglie. [b]Marco è andato negli Stati Uniti con sua moglie. [c] Non sono riuscito a chiudere occhio.

Ho passato la notte in casa. [a]Ho passato la notte in bianco. [b]Ho passato la notte al verde. [c]Ho passato la notte in camicia. [d]

2. Individuazione dell'alternativa errata. L'allievo deve riconoscere tra i distrattori proposti quello errato o meno appropriato al particolare contesto. In questo tipo di formato le forme corrette potranno essere due o tre ed una è quella errata.

Esempi:

2

Page 3: Tecniche_testing linguistico

La valutazione linguistica

[a] subito.1. E' difficile decidere, qui[b] in piedi.

[c] su due piedi. (risp. errata [b])2. Prendi un caffè?

Volentieri! [a]Meno male! [b]Sì, grazie! [c]No, non bevo caffè! [d] (risp. errata [b])

3. Completamento e scelta multipla. Si propongono agli allievi delle frasi che andranno completate con le parole più appropriate, scegliendole tra le tre o quattro suggerite. Oltre che su singole frasi non collegate fra loro, questo esercizio può essere condotto anche su testi. In questo secondo caso per ogni lacuna si suggeriranno tre o più elementi dei quali uno solo è quello appropriato.

Esempi:

1. Durante il mio viaggio in Italia ........ molte foto.[a] ho preso [b] ho dato [c] ho fatto (risp.giusta [c])

2. Vai al concerto anche tu? Sì, ........ molto a sentirlo.[a] mi interessa [b] ci tengo [c] mi piacerebbe (risp.giusta [b])

4. Scelta fra più risposte. Lo studente dovrà indicare tra quelle suggerite la risposta esatta alla domanda formulata. Questo esercizio è frequentemente usato per verificare le conoscenze acquisite in uno specifico ambito disciplinare. Nei corsi di lingua straniera è spesso usato per verificare o rinforzare la comprensione di un testo precedentemente letto o ascoltato.

1.b.1. La valutazione dei test a scelta multipla

Nella correzione e successiva valutazione delle prove a scelta multipla si pone il problema del guessing, vale a dire della risposta data a caso. Le probabilità di azzeccare la risposta giusta in test di riconoscimento a scelta multipla dipende dal numero delle alternative proposte per ogni quesito: così in un test a scelta binaria c’è una probabilità su due, pari al 50%, in un test a tre alternative ce n’è una su tre (il 33% ), mentre con quattro alternative ce n’è una su quattro, vale a dire il 25%. Ed allora per diminuire l’effetto del guessing e per differenziare il punteggio di chi, non sapendo rispondere, si astiene dal rispondere rispetto a chi invece tenta comunque di indovinare, si applica una penalizzazione. Al punteggio ottenuto sommando le risposte esatte si sottrae una frazione di punto pari alla probabilità di azzeccare la risposta giusta rispondendo a caso, secondo la formula seguente:

In cui,P = Punteggio corretto ottenutoE = Numero delle risposte esatteS = Numero delle risposte sbagliaten = numero delle alternative per ogni item.

3

Page 4: Tecniche_testing linguistico

La valutazione linguistica

Se, ad esempio, in un test a scelta multipla con 100 quesiti e quattro varianti per ogni item, uno studente risponde correttamente a 69 domande otterrà un punteggio di 57,3, così ottenuto:

32P = 68 - ─── = 68 – 10,7 = 57,3.

(4-1)Se invece le varianti fossero 3 , per un ugual numero di soluzioni esatte si avrebbe il punteggio di 52.Per evitare i numeri decimali determinati da frazioni di unità, si può attribuire ad ogni item un peso pari alla probabilità di indovinare rispondendo a caso, quindi uguale ad n-1. In tal modo si elimina il denominatore della frazione e si può operare con numeri interi. La formula sarà, allora, la seguente:

Così operando il punteggio massimo teorico della prova sarà due, o tre o quattro volte il numero

totale degli item che compongono la prova stessa e l’intervallo della scala sarà pari al numero delle varianti proposte per ogni quesito.Per l'esempio sopra indicato avremo il seguente risultato:

In questo caso il punteggio massimo teorico è pari a 300 (100 * 3). Non applicando nessuna penalizzazione, il punteggio sarebbe stato pari al numero delle risposte esatte, vale a dire 68.

La penalizzazione ha come scopo quello di spingere gli allievi a non dare una risposta comunque, anche quando non sono molto sicuri della sua esattezza.

Il punteggio assegnato, con o senza penalizzazione, è detto anche punteggio grezzo: con tale termine si vuole intendere che è il punteggio di partenza per elaborazioni e confronti con esiti conseguiti in altre prove o in altri test della stessa sessione d'esame. Ad esempio, se un test a scelta multipla concorre per il 40 % al punteggio complessivo di una prova di comprensione della lettura per la quale si assegna un punteggio massimo teorico di 50 punti, il punteggio grezzo ottenuto da un soggetto sarà rapportato al peso che la scelta multipla ha nella prova globale.

1.b.2 Suggerimenti per la redazione di una prova a scelta multipla

La scelta multipla deve essere coerente con

gli obiettivi che si prefigge il tipo di abilità che intende misurare o rinforzare il livello di competenza linguistica degli allievi

Per questo è bene 1. evitare che l’allievo arrivi per esclusione alla risposta esatta;2. evitare di usare parole od espressioni nuove o sconosciute agli allievi;3. nella formulazione delle varianti, usare termini di significato preciso e non generico o

ambiguo;4. evitare di dare indizi sull'item esatto;5. che, tra la variante giusta e i distrattori, ci sia possibilmente non più di uno o due tratti di

differenza;6. evitare che i distrattori siano tra loro pressoché sinonimi;

4

Page 5: Tecniche_testing linguistico

La valutazione linguistica

7. evitare, quando la risposta esatta è una sola, che ci siano distrattori accettabili o corretti;8. evitare nella formulazione delle varianti le duplicazioni superflue;9. evitare una successione di negazioni;10. evitare proposizioni del problema e item molto lunghi11. che le alternative siano omogenee per impostazione concettuale, lunghezza e tipo di

linguaggio12. che ci sia contiguità logica, grammaticale e sintattica tra il problema o domanda e le

soluzioni o risposte.Molti di questi suggerimenti valgono per i formati di test oggettivi di seguito descritti.

5

Page 6: Tecniche_testing linguistico

La valutazione linguistica

LA MISURAZIONE

1. La misurazione in didattica

In ambito didattico i rapporti tra dimensioni qualitative e quantitative sono stati visti spesso come antitetici o come inconciliabili. E questo atteggiamento è ancora presente in molti docenti che guardano con sospetto qualsiasi operazione di quantificazione e misurazione di comportamenti e prestazioni che sono espressione di capacità cognitive e manifestazioni della personalità di un individuo. Eppure anche quando apparentemente si rifugge da forme di misurazione di tipo numerico per valutare qualcuno o qualcosa e si ricorre ad aggettivi o descrizioni si fanno delle operazioni di confronto, si fanno delle graduatorie, e quindi indirettamente si esprimono delle misure.

I termini misurazione, test e valutazione sono spesso usati nella scuola in maniera intercambiabile come se fossero sinonimi, dato che in pratica fanno riferimento alla stessa attività. Quando si vuole valutare un allievo gli si assegna un compito, una prova, gli si fa fare un test e il punteggio del test diventa il metro di misurazione della competenza che si vuole valutare. Questa attenzione agli aspetti superficiali fa trascurare i significati diversi che questi termini hanno.

Misurare, nelle scienze sociali, è un processo di quantificazione delle caratteristiche delle persone sulla base di procedimenti e regole. La quantificazione consiste nell’associare un simbolo, o un numero, ad un oggetto ben definito o ad una sua particolare proprietà secondo regole precise in modo che a quella stessa proprietà si possano attribuire alcune caratteristiche dei numeri che così vengono a rappresentarla. In altri termini, significa servirsi di un insieme di domande standardizzate relative ad un argomento o ambito disciplinare e, attribuendo a ciascuna delle risposte un punteggio, ottenere per mezzo di una regola una misura. Operare poi sui numeri significa operare sulle qualità che quei numeri rappresentano. Diventa così più semplice operare confronti tra l’oggetto (o una sua proprietà) da misurare e un altro oggetto analogo scelto come riferimento.

All’interno del concetto di “misura” è implicita l’idea che non si misurano gli oggetti o le persone ma una loro caratteristica e qualità come la lunghezza, il peso, l’apprendimento l’intelligenza, vale dire caratteristiche o qualità fisiche o mentali. Mentre le caratteristiche fisiche come l’altezza e il peso possono essere osservate direttamente, con il testing si mira a quantificare attributi, tratti e abilità di natura cognitiva o mentale che possono essere osservati solo indirettamente. Le caratteristiche mentali includono tratti come l’attitudine, l’intelligenza, la motivazione, la dipendenza/indipendenza di campo, la predisposizione, la lingua materna, la fluenza nel parlare, il profitto nella comprensione della lettura ecc. Qualsiasi qualità o abilità venga misurata, è importante comprendere che sono le qualità e le abilità che vengono misurate e non le persone. Qualsiasi test o batteria di test non potrà mai misurare adeguatamente un essere umano nella sua complessità.

Nella misurazione la quantificazione deve essere fatta secondo regole e procedimenti espliciti. Assegnare a caso o alla cieca dei numeri alle qualità di una persona non può essere una misurazione. Perché una misurazione sia tale occorre che l’osservazione di una qualità sia replicabile da parte di altri osservatori, in altri contesti e con altri individui. Ad esempio, chiunque può valutare l’abilità nel parlare di una persona, ma se un esaminatore focalizza la sua attenzione sull’accuratezza della pronuncia ed un altro sull’ampiezza del lessico usato, oppure se uno assegna i punti con un sistema percentuale ed un altro in base ad una scala a cinque punti non si può dire che

6

Page 7: Tecniche_testing linguistico

La valutazione linguistica

abbiano adottato regole e procedimenti omogenei, e quindi le singole misurazioni non sono fra loro comparabili.

Per misurare occorre, allora, a) definire, preliminarmente e univocamente, le caratteristiche o qualità dell’oggetto che si

vuole misurare;b) determinare le regole di associazione e di relazione di tali qualità con un numero;c) definire le procedure da seguire per classificare eventi, oggetti, qualità, in modo univoco, al

fine di rendere riproducibile l’operazione e i suoi esiti. Una delle più importanti funzioni della misurazione è quella di rappresentare nella maniera

meno ambigua possibile e in modo univoco una certa realtà o un’idea concettuale di essa.La misurazione può essere considerata quindi un procedimento di facilitazione della

conoscenza e di interpretazione di alcuni fenomeni anche complessi come può essere quello di apprendimento/insegnamento linguistico.

Il problema vero e più importante della misurazione è, non tanto quello della riduzione a quantità, quanto quello della rappresentatività della qualità scelta da misurare. Per assicurarla è necessario saper scegliere e usare criteri, scale e strumenti di misura congruenti con la qualità, con lo scopo della misurazione e con il contesto in cui la misurazione viene svolta. Può succedere, ad esempio, che l’uso di scale e procedure improprie alteri la rappresentatività e la significatività dei dati cui si è giunti. In tal caso la misurazione fallisce i propri obiettivi e diviene inutile, se non dannosa.

Saper fare delle misurazioni valide, attendibili e precise, saper costruire e usare strumenti adeguati alla misurazione, saper trattare i dati rilevati costituiscono le precondizioni necessarie per guidare con piena consapevolezza i processi formativi e rappresentano momenti decisivi e imprescindibili di qualsiasi valutazione, e soprattutto di quelle sulla base delle quali si prendono poi decisioni che incidono significativamente nella vita di altre persone.

2. Il confronto fra i dati

La procedura principe di ogni misurazione in ambito pedagogico è il confronto. Questo più che un metodo può essere inteso come il fondamento di tutti i metodi di misurazione: esso mira, infatti, a stabilire in maniera semplice e diretta la somiglianza o la differenza tra due o più elementi. In senso statistico il confronto mira a scoprire ciò che vi è di simile in fenomeni diversi e ciò che c'è di diverso in fenomeni simili.

Come si è detto all'inizio di questo lavoro, preliminare ad ogni confronto è la raccolta o rilevazione dei dati grezzi, alla quale segue lo spoglio e la raccolta in tabelle e rappresentazioni grafiche. In una classe di lingua i dati grezzi sono rappresentati dai punteggi o voti assegnati alle diverse prove che gli allievi hanno sostenuto in un dato momento o in momenti successivi del corso.

I dati qualitativi sono raccolti per categorie, vale a dire in serie temporali continue o discontinue, mentre i dati quantitativi sono presentati in "seriazioni" che evidenziano le frequenze crescenti o decrescenti del tratto preso in esame.

Le modalità in cui sono distribuiti i dati quantitativi sono indicate come classi di frequenza, per cui si considerano appartenenti ad una stessa classe le unità con una misura compresa fra il limite inferiore e il limite superiore precedentemente fissati. Se il limite superiore di una classe coincide con il limite inferiore della successiva, se non stabilito diversamente, si intende per convenzione incluso il limite inferiore ed escluso quello superiore. Se ad esempio si assegnano a degli allievi che hanno sostenuto una prova dei giudizi espressi con lettere (es.: A, B, C, D), e B è attribuito a quanti hanno conseguito un punteggio compreso fra 70 e 90 ed A a quanti hanno conseguito un punteggio

7

Page 8: Tecniche_testing linguistico

La valutazione linguistica

fra 90 e 100, chi ottiene il punteggio di 90 otterrà il giudizio A in quanto 90 è il limite inferiore della classe successiva.

La differenza fra i due limiti di una classe si dice ampiezza (nell'esempio precedente l'ampiezza di B è 19) mentre viene indicato con intervallo di classe la differenza tra i valori centrali di due classi contigue. Tornando all'esempio portato sopra, visto che 95 è il valore centrale della classe A ed 80 il valore centrale della classe B, l'intervallo tra le due classi è pari a 15.

Un primo passo nel confronto dei dati è rappresentato dal calcolo delle frequenze all'interno del campione di dati preso in esame. Si dice frequenza assoluta il numero dei casi che rientrano nella classe, frequenza cumulata quella che si ottiene sommando tutte le frequenze semplici al disotto di un limite superiore, frequenza retrocumulata quella che somma le frequenze semplici al di sopra di un limite inferiore, frequenza relativa quella data dal rapporto tra le frequenze considerate e il totale dei casi. La frequenza relativa può essere espressa anche in termini percentuali.

Si veda la tabella seguente1:

Giudizio Fasce risultati Frequenze % % cumulata

A (ottimo) 157-182 43 4,67% 4,67%

B (buono) 131-156 239 25,98% 30,65%

C (sufficiente) 104-130 386 41,96% 72,61%

D (insufficiente) 78-103 188 20,43% 93,04%

E (grav. insuf.) da 1 a 77 64 6,96% 100,00%Tabella 1

Il modo in cui le frequenze sono riportate nella tabella 1 è di tipo univariato, cioè vengono riportati i valori di una sola variabile per una data lista: nel caso specifico la competenza linguistica generale in italiano L2. Se invece si vogliono mettere in rapporto due variabili alla volta, occorre costruire una tabella a doppia entrata divisa in righe e colonne; in questa forma vengono dati i valori delle bivariate. Questo tipo di tabella è detto anche matrice ed è indicata attraverso il prodotto del numero delle righe per le colonne. Una matrice 6x5 indica una tabella costituita da sei righe e cinque colonne.

Per i dati quantitativi si ricorre anche ai grafici costruiti su un piano cartesiano.Nelle scienze pedagogiche l'osservazione dei dati può interessare non solo gruppi o vasti insiemi

di soggetti ma anche un singolo soggetto. In tal caso si ha un approccio individuale: si prende in esame un soggetto alla volta e si cerca di descriverne, nel modo più esauriente possibile, la situazione in rapporto allo stesso soggetto e all'ambiente. Tale tipo di approccio è detto anche "clinico". Benché spesso connesso a psicoterapie o ad interventi di sostegno o di aiuto tale approccio prescinde dalla nozione di malattia, ma evidenzia il senso di un'attenzione e di una guida individualizzata. Il metodo principale dell'approccio clinico è il colloquio, che deve essere sì prestrutturato, ma deve essere allo stesso tempo flessibile ed aperto. Se l'osservazione di un soggetto riguarda il presente, allora si ha, rimanendo nella terminologia medica, una diagnosi, se invece l'osservazione vede la raccolta di dati retrospettivi si ha un'anamnesi, se l'osservazione mira a fare previsioni per il futuro si ha una prognosi. Le tre forme di osservazione danno luogo ad una osservazione longitudinale o diacronica.

Nell'osservazione del singolo caso si guadagna in termini di profondità e in precisione ma si perde in comparabilità in quanto che il caso singolo non può essere generalizzato.

1 La tabella si riferisce ai punteggi conseguiti dai candidati al certificato di conoscenza della lingua italiana al terzo livello (CELI 3) nella sessione di giugno 1999. La distribuzione nelle classi è stata fatta in base al calcolo della media e della deviazione standard.

8

Page 9: Tecniche_testing linguistico

La valutazione linguistica

Per poter fare confronti occorre seguire un approccio collettivo, vale a dire raccogliere parecchi dati di soggetti diversi e confrontarli su alcune variabili ritenute importanti. Questo tipo di osservazione è detta trasversale o sincronica. Una ricerca longitudinale effettua confronti tra dati iniziali e dati finali degli stessi soggetti, mentre una ricerca trasversale effettua confronti simultanei tra soggetti diversi.

In ambito scolastico l'osservazione è solitamente condotta attraverso test. La somministrazione collettiva dei test permette i confronti e quindi l'elaborazione statistica dei dati. Una tale procedura è detta nomotetica, in quanto tende a stabilire leggi di carattere generale.

3. Le scale di misurazione

In relazione alle proprietà dei numeri che si associano all’oggetto o ad una sua qualità, si possono avere quattro modi fondamentali di misurazione ai quali corrispondono altrettante scale: la scala nominale, la scala ordinale, la scala ad intervalli e la scala di rapporti.

Queste scale vengono proposte in questo ordine perché hanno caratteristiche formali cumulative, nel senso che ognuna possiede tutte le proprietà possedute dalle precedenti, più altre che sono specifiche di quella scala.

La scala nominale: consiste nell’identificare tutto ciò che possiede una determinata caratteristica e nel separarlo da ciò che non la possiede. È come attribuire un nome a determinate qualità che vengono presentate come criterio di riferimento per formare classi omogenee distinte per la presenza o assenza di quella qualità. Un nome può essere sia una singola parola (per esempio alfabeta: identifica tutti coloro che sanno leggere e scrivere, non importa a quale livello) come un gruppo di parole, ossia una definizione (ad esempio, studente straniero laureato in fisica). Se, ad esempio, si vuole quantificare l’attributo “lingua nativa”, ci si servirà di una scala nominale. La caratteristica distintiva di una scala nominale è che i suoi elementi non sono ordinati gli uni rispetto agli altri. L’aver diviso un gruppo di allievi secondo la lingua materna non significa aver fatto una graduatoria, ma aver semplicemente assegnato ciascun individuo al proprio gruppo linguistico. In ambito didattico la scala nominale può essere utilizzata per distinguere le prestazioni degli allievi che presentano una predeterminata qualità dalle altre che non la presentano. Ciò comporta che preliminarmente alla somministrazione di una prova o test si definiscano gli standard di accettabilità sulla base dei quali si distingueranno gli allievi che superano la prova da quelli che non la superano.

Rispetto, quindi, alla classe identificata, si possono avere solo due casi: l’inclusione o l’esclusione. Possiamo dire che la scala nominale è una scala binaria, o a due posizioni, sì o no. Ognuna delle classi identificate conterrà elementi dello stesso tipo, cioè omogenei rispetto alla qualità scelta come criterio di classificazione. Per questo la scala nominale gode delle proprietà della simmetria e della transitività. La prima indica che se fra due elementi A e B compresi nella classe esiste una data relazione, la stessa relazione esiste fra B e A. La proprietà transitiva ci dice che se A=B e B=C anche A=C.

Le operazioni consentite a livello si scala nominale sono il calcolo della frequenza (o numero) dei casi che cadono in ciascuna classe, il calcolo della moda, vale a dire della frequenza più alta tra le classi, e il calcolo delle percentuali e delle proporzioni (quando il numero degli elementi presi in esame è sufficiente). Questi ultimi valori sono utili per confronti tra classificazioni che si riferiscono a popolazioni di diversa consistenza numerica. Si possono inoltre calcolare indici di relazioni tra le variabili come la distribuzione binomiale, quella del chi quadro (χ2) che permette di verificare se siano significative le differenze di frequenza registrate in due o più campioni, e in particolare molti test statistici non parametrici, che presuppongono che il campione dei dati di riferimento non appartenga ad una popolazione casuale (come quasi sempre capita con gli allievi di

9

Page 10: Tecniche_testing linguistico

La valutazione linguistica

una scuola). Sono, tuttavia, calcoli che non è necessario compiere per la verifica dell’apprendimento durante i processi di formazione quotidiani.

Una scala nominale consente di fare una prima generale classificazione, e può essere vista come preliminare a misurazioni più complesse che prevedono l’individuazione delle possibili gradazioni di una data qualità. Infatti, per quanto accurata sia una descrizione nella maggior parte dei casi ci rendiamo conto che non è sufficiente sapere che un oggetto possiede una data caratteristica, ma ci occorre sapere anche in quale misura la possiede. Ad esempio, la classe indicata con la parola “alfabeta” include sia chi a stento riesce a fare la propria firma come il grande scrittore vincitore del premio Nobel per la letteratura. Diventano allora importanti altri tipi di scale che ci indicano in quale misura una data qualità è posseduta.

La scala ordinale: distingue i soggetti secondo il grado o livello in cui possiedono una data qualità o caratteristica, determinando così una graduatoria in cui si distingue il primo, il secondo, il terzo, …l’ennesimo nel grado di possesso del carattere rilevato. Come in un gara podistica diciamo che chi si è piazzato al terzo posto è meno veloce del primo e del secondo ma più veloce del quarto o del settimo, così in un test di comprensione di un testo orale possiamo dire che chi in base al punteggio si colloca al terzo posto comprende quel testo con quelle caratteristiche meglio di chi si è collocato al quarto o al settimo posto.

Le classi che definiscono un certo grado di intensità della qualità presa in considerazione, solitamente indicate con numeri, sono dette “ranghi”, e la scala rating scale o scala di ranghi. Con questa si possono definire relazioni di maggioranza, minoranza o uguaglianza tra le variabili o qualità misurate. La distanza fra i diversi punti della graduatoria non è costante ed è determinabile solo facendo ricorso ad altre scale:

I voti che si impiegano nelle scuole superiori o nelle università come pure i punteggi che nei test linguistici si assegnano alle prove soggettive sono un tipico esempio di scala ordinale. Essi indicano dei valori di posizione la cui distanza non è univocamente determinabile, dato che questa dipende spesso dalla valutazione di chi li impiega. La distanza che intercorre, ad esempio, tra un cinque e un sei dipende dal concetto di sufficienza del docente o da quello che lui definisce come tale2. Per questo, al di fuori del contesto specifico, un sei di un docente può corrispondere ad un quattro di un altro docente o addirittura ad un otto di un altro ancora. Il significato corretto di un voto espresso con un numero è solo quello di una graduatoria, per la quale chi ha avuto un 7 ha ricevuto più di chi ha preso un 6 o un 5. La scala ordinale, insomma, non consente di fare confronti decontestualizzati.

Oltre che con numeri ordinali, la posizione di graduatoria può essere espressa anche con aggettivi o avverbi che esprimono il diverso grado di possesso di una data qualità o abilità: moltissimo, abbastanza, poco, per niente; ottimo, buono, discreto, sufficiente, insufficiente ecc. Circa la questione tanto dibattuta se a scuola è meglio dare "voti" o "giudizi", si può dire che si tratta di una falsa questione, perché, ripetiamo, i numeri, in decimi o in trentesimi, che si assegnano corrispondono a dei giudizi che dispongono in una graduatoria gli allievi.

2 Nell’esperienza scolastica di un allievo di una scuola italiana c’è l’ampia gamma di voti intermedi tra il 5 e il 6: il5, 5+, 5++, 5½, 5¾, 6--, 6-, 6 e altri secondo la fantasia del docente. Cosa che si verifica generalmente solo per questi voti limitrofi alla sufficienza, e non per altri. Insomma, la distanza tra il 5 e il 6 è percepita come diversa tra il 3 e il 4 o il 7 e l’8, proprio perché i voti scolastici non sono una scala ad intervalli. “Tale distanza – osserva Porcelli – non è l’esito di interpolazioni arbitrarie in un sistema che per legge, prevede solo voti interi; essa riflette invece l’ineguale distribuzione delle frequenze dei dati antropometrici e psicometrici. Intendiamo dire che quando ci riferiamo a parametri relativi alla persona umana i casi più vicini alla media sono molto più numerosi dei casi che si allontano da essa.” (Porcelli, 1992: p.35)

10

1 2 3 4 5 6 7 8 9 10 11 12

Page 11: Tecniche_testing linguistico

La valutazione linguistica

La scala ordinale, come quella nominale gode della proprietà transitiva, per cui se A > B e B > C allora A > C.

Per la scala ordinale si possono fare molte operazioni che non sono possibili su quelle nominali. Sono infatti possibili diversi calcoli di natura statistica, anche piuttosto complessi, come la correlazione tra due variabili poste in graduatoria, ed altri più semplici ma anche utili all’analisi dei dati raccolti, come la gamma o campo di variazione, la mediana, la media e gli indici del valore di posizione dei punteggi quali i centili, i decili e i quartili, che vedremo più avanti.

La scala a intervalli: è quella che presenta una distanza costante fra due qualsiasi punti

consecutivi. L’intervallo viene così a rappresentare un indicatore quantitativo e qualitativo della differenza tra due punti. Oltre alla caratteristica di graduare in modo ordinato gli elementi come nella scala ordinale, la scala ad intervalli presenta distanze o intervalli uguali tra livelli ordinati.

Nelle scale a intervalli lo zero assume valore convenzionale, come nelle scale termometriche, e non già assenza della qualità o abilità misurata.

Le scale in cui lo zero indica invece assenza di misura sono le scale a rapporti, le uniche che permettano il calcolo dei rapporti proporzionali tra misure diverse e che quindi consentano di considerare di ugual valore gli esiti di due rapporti. Ad esempio se io ho due etti di caffè e tu quattro etti, posso dire che tu hai una quantità di caffè doppia rispetto alla mia, così se una fontana in un quarto d’ora versa 100 litri di acqua in un’ora ne verserà il quadruplo, quattrocento litri. Tali tipi di scale, che hanno lo zero assoluto, sono usate per misurare le caratteristiche fisiche e non sono utilizzabili nelle scienze umane, tranne le scale temporali trattate come assolute come avviene in un cronometraggio e i tempi sono allora doppi o tripli ecc.

La scala ad intervalli è quella che viene solitamente impiegata nelle misurazioni effettuate con la somministrazione di prove oggettive di verifica, ad esempio con le scelte multiple. In tali prove, infatti, il peso o valore espresso in termini di punteggio assegnato a ciascun item permette di determinare a priori il punteggio massimo conseguibile nel caso in cui si risponda correttamente a tutti gli item. Tale punteggio massimo rappresenta l’ampiezza della scala che viene impiegata per misurare le prestazioni rilevate con le specifiche sezioni di quel test o con l’intera prova.

Se in un test a scelta multipla, costituito da 10 item si assegnano 3 punti per ogni risposta esatta e si penalizza con un punto in meno ogni errore od omissione, la scala sarà costituita da intervalli regolari distanti tra loro 4 punti; il punteggio più basso, per la penalizzazione sarà pari a –10:

-10 -6 -2 2 6 10 14 18 22 26 30Una scala di questo tipo consente di determinare con esattezza la quantità di possesso della

abilità rilevata, la differenza di intensità del possesso della abilità o caratteristica misurata tra due diversi elementi o punteggi e la misura del rapporto di quelle intensità.

Con la scala ad intervalli sono possibili diversi calcoli: oltre quelli previsti per le due scale precedenti, è possibile il calcolo della media aritmetica, gli indici di variabilità o dispersione dei punteggi come la deviazione standard e il coefficiente di variazione e diverse correlazioni. Si possono, inoltre, impiegare numerosi altri test statistici, anche parametrici, di analisi e interpretazione dei dati rilevati.

Ognuna delle quattro scale sopra descritte fornisce un diverso tipo di informazione e le quattro

scale di misurazione sono ordinate, l’una rispetto all’altra, in base alla quantità di informazione che possono fornire. Spieghiamo con degli esempi. Io posso indicare la temperatura ambientale con “afosa”, molto calda, calda, fresca, fredda, molto fredda, rigida, vale a dire suddivido i miei apprezzamenti sulla temperatura in sette fasce, a ciascuna delle quali faccio corrispondere una descrizione. Al posto degli aggettivi potrei usare delle lettere o dei numeri, ciascuno dei quali

11

Page 12: Tecniche_testing linguistico

La valutazione linguistica

corrisponderebbe ad un aggettivo, ma non cambierebbe nulla. Ma se invece di usare questi aggettivi uso il termometro posso dire non solo che la temperatura di oggi è maggiore o minore rispetto a quella di ieri ma anche di quanto è maggiore e minore. Da una scala ordinale passo ad una scala ad intervalli che dà maggiori informazioni.

Le diverse scale si riferiscono a diversi livelli di misurazione. La scala nominale rappresenta il livello più basso, dato che consente di distinguere solo sulla base di categorie diverse, mentre la scala di rapporti rappresenta il livello più alto in quanto possiede oltre alle proprietà delle altre tre anche quella di indicare i rapporti esistenti tra gli elementi presi in considerazione.

Nella tabella che segue sono indicate progressivamente le caratteristiche proprie di ognuna delle scale:

Tipo di scala / Proprietà Distinguere Ordinare Intervallare ProporzionareNominale + - - -Ordinale + + - -Ad intervalli + + + -Di rapporti + + + +

La distinzione fra le scale è utile per rendersi conto del tipo di misure da utilizzare in classe. Escluso, come si è detto, il ricorso alla scala di rapporti (è inesatto, ad esempio, dire che la comprensione di un testo scritto da parte dell’allievo A è il doppio di quella dell’allievo B), le altre tre scale possono soddisfare le esigenze di misurazione delle competenze acquisite dagli allievi. Così:

- quando facciamo solo delle descrizioni che non contengano elementi comparativi usiamo una scala nominale (per esempio: l’allievo, quando parla in lingua 2, riesce ad esprimersi in modo corretto e puntuale su temi di carattere quotidiano);

- quando si esprimono apprezzamenti implicitamente o esplicitamente comparativi facciamo ricorso alla scala ordinale;

- quando le prestazioni sono riconducibili ad unità sulla base della quale possiamo esprimere delle quantità (ad esempio, le risposte esatte a quesiti a scelta multipla) allora usiamo la scala ad intervalli.

4. L’analisi statistica dei dati valutativi

Quando si somministra un test lo si fa perché si vuole conoscere l’andamento dell’apprendimento da parte di un gruppo di allievi, magari anche in rapporto a quelle che sono le aspettative dell’insegnante, e conoscere anche il livello di apprendimento di ciascun allievo. Una conoscenza è sicuramente fornita dai punteggi che vengono assegnati a ciascun allievo, ma una conoscenza più precisa si può avere se i vari punteggi vengono confrontati tra loro e analizzati, magari, servendosi di operatori statistici. Soprattutto se si opera con scale a intervalli l’analisi statistica dei dati è particolarmente utile.

La prima operazione da fare, una volta che sono stati assegnati i punteggi ai vari elaborati, è quella di sistemarli in ordine crescente, dal più basso al più alto o viceversa. A questo punto si può procedere alla determinazione delle misure di tendenza centrale, misure che ci consentono di conoscere la tendenza complessiva degli apprendimenti del gruppo preso nel suo insieme. Queste misure ci indicano, infatti, dove tendono a concentrarsi i dati, quali sono i più significativi, a quale livello in genere si situano e qual è la loro fisionomia. Le misura di tendenza centrale calcolabili con la scala a intervalli sono la media aritmetica, la mediana e la moda.

12

Page 13: Tecniche_testing linguistico

La valutazione linguistica

La media aritmetica (X) è la somma di tutti i punteggi divisa per il numero dei punteggi:

(dove Σ è il simbolo della somma, e Xi indica i singoli punteggi, ed N il numero dei punteggi)

La mediana è quel valore che, in una distribuzione di elementi ordinata in modo crescente o decrescente, occupa la posizione centrale. Il calcolo del valore assunto dalla mediana cambia a seconda che il numero dei dati della distribuzione sia dispari o pari. Nel primo caso coinciderà con il dato o punteggio che ha alla sua destra e alla sua sinistra un uguale numero di punteggi. Dati, ad esempio i seguenti punteggi:

12, 13, 15, 16, 18, 22, 23, 25, 26la mediana (Md) coincide con il valore 18, che ha quattro punteggi alla sua sinistra e quattro alla sua destra. Quando i punteggi sono molto numerosi la posizione della mediana può essere individuata con la seguente formula:

(n+1)Md = ---------

2Quando il numero dei dati è pari la posizione della mediana cadrà tra i due punteggi centrali, e il suo valore sarà dato dalla media aritmetica di quei due punteggi, e può non corrispondere ad un punteggio realmente assegnato. Dati, ad esempio, i seguenti punteggi:

12, 13, 15, 16, 18, 22, 23, 24, 25, 26la mediana si collocherà tra il 5 e il 6 punteggio, sarà infatti:

(18 + 22)Md = ------------- = 20

2La caratteristica peculiare della mediana di esprimere il valore centrale di una distribuzione permette di conoscere immediatamente, tra due o più distribuzioni, qual è quella in cui la maggioranza dei punteggi è al di sopra o al disotto del punteggio ritenuto come accettabile. Così se, ad esempio, nella classe A la mediana è 15 e nella classe B è 19, e la prestazione considerata sufficiente è pari a 18, allora nel primo gruppo almeno la metà più uno dei punteggi è insufficiente mentre nel secondo gruppo la metà più uno ha conoscenze superiori alla sufficienza.

La mediana si applica sia a scale ordinali che a scale ad intervalli.

La moda (Mo) rappresenta quel punteggio della distribuzione che si ripete con maggior frequenza. Così nella seguente serie di punteggi:

12, 12, 16,16, 18, 18, 18, 20, 21, 22, 22, 22, 22, 23, 25, 25, 26, 26,la moda sarà 22 dal momento che questo è il valore più ricorrente. Se in una serie di punteggi ce ne sono due con frequenza sensibilmente più alta rispetto agli altri punteggi a bassa frequenza, possiamo dire che la distribuzione è bimodale (cioè ha due mode).

Anche se, per certi versi la moda, tra le misure di tendenza centrale, è quella meno rappresentativa, è anche vero che in certe circostanze può offrire informazioni preziose. Infatti, sia quando il numero dei punteggi più ricorrenti è molto alto rispetto ai punteggi complessivi, sia quando si registrano due o più mode consistenti con valori tra essi relativamente distanti, è evidente che ci sono forti differenze di preparazione o di apprendimento all’interno del gruppo classe.

13

Page 14: Tecniche_testing linguistico

La valutazione linguistica

In una scala ad intervalli è possibile fissare il punteggio massimo teorico conseguibile in una specifica prova. Ad esempio in un test a scelta multipla costituito da 20 item o quesiti per i quali si assegnano tre punti in caso di risposta corretta, avrà un punteggio massimo teorico di 60 (20x3).

Le singole misure da sole dicono poco, messe in relazione diventano fonti di nuove informazioni. Per esempio un confronto tra la media e il punteggio massimo teorico ci dà la misura dell’ampiezza dello scarto tra i risultati attesi e quelli effettivamente registrati. Un docente che, ad esempio, mette a punto un test a scelta multipla sui tempi passati per verificare l’apprendimento da parte di allievi d’italiano come L2 di questo aspetto della grammatica italiana dopo una serie di lezioni, valuterà come soddisfacenti i risultati della classe se il punteggio medio si avvicina al massimo teorico, mentre riterrà scadente un risultato medio di molto lontano dal punteggio massimo teorico.

Il confronto tra media e mediana, invece, potrà indicare al docente se la maggior parte degli allievi ha conseguito punteggi più alti, più bassi o coincidenti con la media, se cioè la maggioranza degli allievi è al di sopra o al di sotto della media complessiva delle prestazioni del gruppo. Se la mediana è superiore alla media vorrà dire che almeno la metà più uno degli allievi ha conseguito punteggi più alti di quelli medi del gruppo; se viceversa la mediana è inferiore alla media, la situazione sarà opposta.Dati i seguenti punteggi:

2, 5, 8, 11, 12, 14, 14, 15, 16, 16, 16, 16, 18, 19, 21, 22, 22, 23, 24, 24, 24, 26, 29la media è pari a 17 e la mediana pari a 16, di conseguenza la maggioranza dei punteggi è inferiore alla media (12 contro 11).

Quando media, mediana e moda coincidono, i punteggi si distribuiscono in modo casuale o normale, rappresentando una vera propria curva gaussiana. La distribuzione dei punteggi è simmetrica nella parte superiore e in quella inferiore.

Questo andamento caratterizza i fenomeni casuali e molti di quelli naturali in cui appunto le tre misure di tendenza centrale tendono a coincidere.

Le misure di tendenza centrale non ci forniscono informazioni circa la posizione e la variabilità, rispetto alla media dei singoli punteggi, ovvero le conoscenze specifiche di ciascuno rispetto a quelle che caratterizzano l’intero gruppo. Per avere tali informazioni occorre procedere ad ulteriori e diverse modalità di trattamento dei punteggi grezzi.

4.1. Gamma e dispersione dei punteggi

Come si è detto le misure della tendenza centrale non ci dicono molto circa l’omogeneità o la dispersione dei punteggi, vale a dire se i livelli di competenza e apprendimento degli allievi sono simili o molto diversi. I punteggi, infatti, potrebbero essere tra loro molto vicini oppure essere distribuiti su una gamma molto ampia. Si osservino le seguenti distribuzioni:

14

MediaMediana

Page 15: Tecniche_testing linguistico

La valutazione linguistica

a. 9, 16, 18, 18, 18, 18, 18, 22, 25b. 10, 13, 15, 18, 18, 19, 21, 22, 26

in entrambe media, moda e mediana coincidono (è pari a 18), tuttavia, pur nell’esiguità del campione, si coglie che mentre nel primo gruppo quasi tutti i punteggi si concentrano attorno al valore centrale, nel secondo gruppo i punti sono distribuiti su un ventaglio più ampio e sono tra loro diversi. Le misure di tendenza centrale da sole non ci danno un’idea di come si distribuiscono i punteggi, ed allora un primo, generico, indicatore della variabilità dei punteggi è dato dalla distanza che intercorre tra il punteggio massimo e il punteggio minimo, vale a dire la gamma (G):

G = P.max – P. min.La gamma rappresenta quindi la distanza che intercorre tra la prestazione migliore e la

peggiore in una prova.Per quanto importante la gamma è una misura abbastanza grossolana e non sempre

significativa. Le due serie di punteggi sopra riportati hanno la stessa gamma, e tuttavia la dispersione dei punteggi è molto diversa.

Una misura affidabile per la dispersione dei punteggi in una scala ad intervalli attorno ai valori medi è la deviazione standard ( o scarto quadratico medio). La deviazione standard oltre a dare indicazioni più analitiche sulla reale distribuzione dei dati , rappresenta la più importante misura di variabilità su cui si fondano molti dei criteri di standardizzazione dei punteggi grezzi.

La deviazione standard è solitamente indicata con un sigma (σ), e per calcolarla si estrae la radice quadrata dalla media dei quadrati degli scostamenti dei punteggi dal valore medio della distribuzione:

dove Σ è il simbolo di somma, Xi indica i singoli punteggi; è la media aritmetica dei punteggi ed n è il numero dei punteggi della distribuzione.

Pur essendo oggi molto semplice mediante un computer calcolare la deviazione standard, tuttavia, anche per comprendere meglio il meccanismo di funzionamento della formula, si può provare a calcolarla con carta e penna. Ecco le operazioni da seguire:

1. nella prima colonna di un foglio di carta millimetrata (o a quadretti) si riportano i punteggi in ordine crescente

2. si calcola la media e la si trascrive in fondo alla prima colonna3. in una seconda colonna si scrivono le differenze algebriche tra il punteggio e la media4. in una terza colonna si trascrivono i quadrati degli scarti indicati nella seconda colonna.

Questi saranno naturalmente tutti positivi anche se lo scarto era negativo. In fondo alla colonna si riporta la somma di questi quadrati;

5. si divide questa somma per il numero dei punteggi e si estrae la radice quadrata, che sarà, appunto, il valore della deviazione standard.

Le procedure sopra descritte sono quelle seguite nella tabella che segue, in cui sono riportati i punteggi sopra descritti relativi al secondo gruppo di allievi:

Numero progressivo

Punteggi ordinati

Scarto punteggio /

Quadrato dello scarto dalla

15

Page 16: Tecniche_testing linguistico

La valutazione linguistica

media media1 10 -8 642 13 -5 253 15 -3 94 18 0 05 18 0 06 19 1 17 21 3 98 22 4 169 26 8 64

N= 9 Media = 18

Σ = 188

188 σ = ----------- = 20,888 = 4,57.

9

Quando la deviazione standard è compresa entro il 10-15 per cento del valore assunto dalla media, si ha che gli esiti di una prova sono tra loro molto omogenei: i singoli punteggi non si discostano molto dalla media delle prestazioni. Quanto più la sigma si allontana da questa soglia, tanto maggiore sarà la differenza tra i risultati, o se si vuole, la dispersione sarà maggiore. Nell’esempio di cui alla tabella precedente (anche se il campione è piuttosto esiguo) la deviazione standard è relativamente alta rispetto alla media (18), il che sta a significare una dispersione dei punteggi relativamente accentuata.

1.2 La standardizzazione dei punteggi

Oltre ai confronti tra le misure di tendenza centrale e di dispersione, altre comparazioni possono essere condotte per rendere più affidabili i punteggi grezzi. Con opportune procedure, infatti, i punteggi possono essere standardizzati impiegando come unità di misura la deviazione standard. Tra i più importanti punteggi standardizzati vi sono: la distribuzione penteneria, i punti Z e i punti T.

Distribuzione penteneria. È un sistema di classificazione dei punteggi, assai diffuso in area anglosassone, che consiste nel distinguere le posizioni relative delle diverse prestazioni (misure o punteggi) in 5 fasce in ordine decrescente, A, B, C, D ed E, ciascuna dell’ampiezza di una deviazione standard. Le prime tre fasce individuano le prestazioni ritenute accettabili, mentre le ultime due si riferiscono alle prestazioni insufficienti. La fascia centrale è costituita dai punteggi che si collocano a cavallo della media aritmetica, vale a dire i punteggi che vanno da X- σ/2 a X+ σ/2 (da meno mezza deviazione standard dalla media a più mezza deviazione standard dalla media ). Aggiungendo all’estremo superiore di C una deviazione standard si fissa l’estremo superiore di B, e tutti i punteggi superiori a questo estremo saranno classificati come appartenenti ad A. Operando alo stesso modo a sinistra della fascia C si determinano i punteggi di D ed E. Dati ad esempio i seguenti punteggi grezzi conseguiti da un campione di 38 candidati stranieri in una prova tipo cloze per il conseguimento di un certificato di conoscenza della lingua italiana come lingua straniera: 26, 26, 25, 25, 25, 25, 23, 23, 22, 22, 22, 22, 22, 22, 21, 21, 21, 20, 20, 19, 19, 19, 18, 18, 18, 17, 17, 16, 16, 14, 14, 13, 12, 12, 10, 8, 5, 2;

16

Page 17: Tecniche_testing linguistico

La valutazione linguistica

essendo la media pari a 18,42 e la deviazione standard del valore di 5,68, le 5 fasce sono così distinte:

- la fascia C, compresa fra 15,58 e 21,26, include approssimativamente 16 punteggi;- la fascia B, compresa fra 21,26 e 26,95, include 11 punteggi;- la fascia A, con punti superiori a 26, 95, non registra nessun punteggio;- la fascia D, compresa fra 9,88 e 15,57, include 7 punteggi;- la fascia E, con punti inferiori a 9,88, include 4 punteggi.

La distribuzione dei punteggi nelle cinque fasce può essere graficamente rappresentata con la nota curva di Gauss. Nel caso di una distribuzione teoricamente normale dei diversi punteggi, nella fascia centrale si collocherebbe la maggioranza dei punteggi, mentre nelle fasce intermedie ed estreme si collocherebbero percentuali simmetricamente più basse, come si può vedere nel grafico seguente:

E D C B A7% 24% 38% 24% 7%

Le cinque fasce così individuate corrispondono ad una scala di giudizi espressi con aggettivi, ottimo, buono, sufficiente, insufficiente, assai insufficiente.

La curva normale teorica è difficilmente riscontrabile nelle rappresentazioni dei risultati di una prova scolastica, perché il campione non può essere costituito da un numero elevato di dati e i fenomeni che vengono misurati non sono caratteristiche fisiche e naturali della persona come il peso o l’altezza per stabilire l’altezza media di una classe della popolazione di un paese. Tuttavia il modello della distribuzione penteneria è stato utilizzato anche in ambito scolastico, partendo dal presupposto che, come per i fenomeni di ordine naturale, in una prova somministrata ad un gran numero di allievi la maggior parte dei punteggi si addensa attorno ai valori centrali, mentre si registreranno frequenze progressivamente più basse per i valori intermedi e per quelli più alti e più bassi. In altri termini è come se si affermasse che i risultati dell’apprendimento rispecchiano la distribuzione di caratteristiche naturali come l’intelligenza, la predisposizione ecc.. Se la distribuzione normale teorica è impossibile ritrovarla nelle prestazioni di una singola classe o anche di un’intera scuola, è invece possibile registrarla in quei test generali e aspecifici che sono le prove che vengono sostenute per il conseguimento di un certificato di conoscenza di una lingua straniera. Qui l’alto numero dei candidati, l’eterogeneità culturale, sociale linguistica dei candidati, il tipo di prove che riflettono un modello di competenza d’uso della lingua astratto, nel senso che non tiene conto della specifica formazione o conoscenza linguistica dei candidati, rendono il campione molto simile ai campioni che gli statistici prendono in considerazione per misurare un fenomeno “naturale”. Una conferma di ciò viene, ad esempio, dai dati sulla certificazione dell’italiano come L2 rilasciata dall’Università per stranieri di Perugia. Dall’analisi emerge chiaramente che, per i livelli in cui si concentra il maggior numero di candidati, la distribuzione dei valori degli esiti finali si avvicina di molto alla distribuzione normale teorica.

17

Page 18: Tecniche_testing linguistico

La valutazione linguistica

La distribuzione penteneria è solo un modello per organizzare e analizzare dei dati e non già il rispecchiamento fedele di una realtà o di un fenomeno. Accettare acriticamente come ineluttabile che i punteggi di una classe o di una scuola si distribuiscano secondo la curva a campana di Gauss può essere pericoloso in quanto vizia la valutazione serena degli esiti di una prova. Questo atteggiamento produce quello che viene indicato come “effetto della distribuzione forzata dei risultati”, secondo cui gli esiti della formazioni rispecchiano l’andamento della curva normale di molti fenomeni naturali, o degli errori accidentali delle misurazioni. In base a ciò, ad esempio, al termine di un anno scolastico, solo il 20 per cento circa degli allievi raggiunge il livello ottimale fissato per quel corso, il 20 per cento si situa ai livelli più bassi di insufficienza mentre il restante 60 per cento si situa attorno alla media della sufficienza. L’accettare una simile distribuzione come ineluttabile finisce per condizionare il giudizio dell’insegnante, rappresenta una forma di costrizione dei risultati dovuta alla mancata valorizzazione delle funzioni specialistiche della didattica e della verifica.

La ricerca didattica più aggiornata (ad esempio, quella che si riconosce nell’ipotesi del mastery learning) rifiuta questa interpretazione naturalistica e sostiene invece che la distribuzione dei risultati scolastici deve corrispondere ad un raggiungimento ampio e generalizzato degli obiettivi di apprendimento fissati. L’intervento formativo scolastico ha come obiettivo quello di produrre un cambiamento significativo negli allievi e non può accettare fatalisticamente che una percentuale fissa di allievi fallisca il proprio obiettivo. L’intervento formativo deve anzi far sì che i punteggi di prove oggettive capaci di rilevare con buona attendibilità il conseguimento degli obiettivi cognitivi di un corso, si distribuiscano secondo quella che i teorici del Mastery learning chiamano la curva a “J”. Si tratta di una curva che rappresenta il raggiungimento da parte di quasi tutti gli allievi di quelle conoscenze che negli insegnamenti tradizionali raggiungeva solo il 10-20 per cento.

Queste osservazioni non annullano il valore docimologico della distribuzione penteneria. Si

vuole solo sottolineare che ogni strumento di misurazione aiuta a conoscere meglio un fenomeno, ma ci sono fenomeni, come quelli dell’apprendimento, alla conoscenza dei quali ci si arriva sempre con una certa approssimazione, e i vari strumenti di natura statistica che vengono utilizzati hanno lo scopo di facilitare la conoscenza. Quando, infatti, si vuole conoscere la posizione relativa di una prestazione di un allievo in confronto con gli altri o con se stesso, allora il ricorso alla distribuzione penteneria, proprio per la sua caratteristica di evidenziare le differenze di posizione, risulta sufficientemente utile.

Punti Z e punti T. La distribuzione penteneria assegnando i vari punteggi a fasce relativamente ampie non evidenzia le differenze all’interno della stessa fascia e magari evidenzia due punteggi grezzi fra loro vicini ma appartenenti a fasce diverse: la distanza tra il punto più alto e quello più basso di una fascia è ovviamente maggiore di quella che intercorre tra i punteggi di confine di due fasce contigue. Per ovviare a questi limiti della distribuzione penteneria, che appunto non ci dice molto sul valore e significato di un singolo punteggio si ricorre ai punteggi standardizzati. Quelli ritenuti standard per antonomasia sono i “punti Z” e i “punti T”.

I punti standardizzati permettono di fare confronti precisi fra punteggi riportati in tempi diversi o in prove diverse o con diverso punteggio massimo teorico da uno stesso allievo o da allievi diversi. Questi punteggi, infatti, individuano la posizione relativa di ciascun punteggio grezzo in rapporto alla media e all’ampiezza della deviazione standard della serie cui ciascun punteggio appartiene. Così, se un allievo in una prova con un massimo teorico di 50 punti ha preso 40 punti ed in un’altra prova con un massimo di 100 ha preso 80 punti, non possiamo dire che in entrambe le prove ha ottenuto lo stesso risultato, pari all’80 per cento del massimo teorico, se non conosciamo l’andamento dell’intero gruppo sottoposto alla stessa prova. Magari, 40 punti nella prima prova è il punteggio più alto conseguito dall’intera classe mentre gli 80 punti della seconda prova sono il punteggio più basso conseguito dagli allievi che si sono collocati in quella fascia di punteggi. Per

18

Page 19: Tecniche_testing linguistico

La valutazione linguistica

avere un’informazione più precisa sul valore relativo di un punteggio e quindi per poterlo confrontare con il punteggio conseguito in un'altra prova o in un altro momento dobbiamo far riferimento a punti standard.

Per sapere se il primo punteggio dell’esempio sopra riportato è superiore o uguale o inferiore al secondo, dobbiamo prendere in considerazione le medie e le deviazioni standard delle distribuzioni cui i due punteggi appartengono, poiché dalla loro grandezza dipendono le posizioni relative dei singoli punteggi. Quanto più alta è la media e più bassa è la deviazione standard, maggiore è il valore relativo dei punteggi che superano la media.

I punti Z segnalano a quale distanza dalla media si situano i singoli punteggi grezzi, e questa distanza è misurata utilizzando come unità di misura la deviazione standard. In altri termini il punto Z ci dice di quante deviazioni standard un punteggio grezzo si discosta dalla media.

I punti Z si ottengono quindi misurando in deviazioni standard la differenza tra il punteggio grezzo e la media. La formula è la seguente:

In una distribuzione normale, sei punti Z comprendono la quasi totalità dei dati in essa racchiusi. Si osservi la tabella della pagina seguente: per la prima prova, quella relativa ad un test di completamento tipo cloze, con una deviazione standard pari a 5,69 ed una media pari a 18,42, il punteggio del candidato n.10 è pari a 25 su 30 e il valore del punto Z è 1,16, così ottenuto:

25 – 18,42Z = -------------- = 1,16

5,69I punti Z permettono di fare confronti immediati tra punteggi conseguiti in diverse prove da

uno più soggetti di uno stesso gruppo o di gruppi diversi, proprio perché calcolati su una base omogenea (media e deviazione standard). Dal confronto tra due o più punti Z risulterà migliore quello con valore relativo più alto. Facendo riferimento alla tabella della pagina seguente si può vedere come il candidato n. 30, che nella prova tipo cloze ha conseguito un punteggio di 25 su 30 e nella prova di comprensione di testi scritti ha ottenuto 23 punti su 27, ha un punteggio Z migliore nella prima prova rispetto alla seconda: 1,16 rispetto a 0,99: eppure i punteggi grezzi sono percentualmente molto simili. Le differenze tra i due punti Z si spiegano perché le deviazioni standard delle due distribuzioni sono diverse, a fronte di medie pressoché simili tra i due gruppi.

I punti Z, come si nota anche dalla citata tabella della pagina seguente, prevedono anche valori negativi, che pur rispecchiando una prestazione non eccellente, non hanno certo una positiva valenza motivazionale. Ottenere un punteggio negativo, anche se vicinissimo alla media non aiuta l’autostima dell’allievo o del candidato. Per ovviare a questa connotazione negativa del punto Z si sono impiegati i punti T, che sono quindi una variazione dei punti Z. con questi si pone, convenzionalmente, la media come pari a 50 e il sigma uguale a dieci. In questo modo si hanno solo punteggi con segno positivo. I punti T visualizzano la posizione relativa delle singole prestazioni attraverso la misura dello scarto superiore o inferiore a 50: sopra il 50 individua una prestazione soddisfacente, sotto il 50 insoddisfacente o comunque inferiore alla media.

La formula dei punti T è la seguente: 10 (Xi – X)

T = 50 + ───────σ

Se si vuole trasformare immediatamente un punto Z in punto T basta fare la seguente operazione: T = 50 + 10 (Z). Così un punteggio Z uguale a 0,28, applicando la formula precedente, diventa 52,78.

19

Page 20: Tecniche_testing linguistico

La valutazione linguistica

Completamento tipo cloze Scelta multipla

N° d'ordine

Punteggi punti Z punti T N. d’ordine

Punteggi punti Z punti T

1 14 -0,78 42,23 1 19 0,19 51,902 21 0,45 54,53 2 11 -1,42 35,83

3 19 0,10 51,02 3 23 0,99 59,94

4 10 -1,48 35,19 4 19 0,19 51,90

5 2 -2,89 21,13 5 23 0,99 59,94

6 13 -0,95 40,47 6 7 -2,22 27,80

7 14 -0,78 42,23 7 23 0,99 59,94

8 12 -1,13 38,71 8 15 -0,61 43,87

9 22 0,63 56,29 9 23 0,99 59,94

10 25 1,16 61,57 10 19 0,19 51,90

11 16 -0,43 45,74 11 15 -0,61 43,87

12 23 0,81 58,05 12 15 -0,61 43,87

13 18 -0,07 49,26 13 19 0,19 51,90

14 22 0,63 56,29 14 23 0,99 59,94

15 21 0,45 54,53 15 15 -0,61 43,87

16 26 1,33 63,33 16 27 1,80 67,97

17 22 0,63 56,29 17 19 0,19 51,90

18 22 0,63 56,29 18 27 1,80 67,97

19 25 1,16 61,57 19 11 -1,42 35,83

20 22 0,63 56,29 20 19 0,19 51,90

21 5 -2,36 26,40 21 15 -0,61 43,87

22 16 -0,43 45,74 22 15 -0,61 43,87

23 20 0,28 52,78 23 11 -1,42 35,83

24 19 0,10 51,02 24 15 -0,61 43,87

25 25 1,16 61,57 25 7 -2,22 27,80

26 26 1,33 63,33 26 19 0,19 51,90

27 20 0,28 52,78 27 23 0,99 59,94

28 8 -1,83 31,68 28 19 0,19 51,90

29 12 -1,13 38,71 29 23 0,99 59,94

30 25 1,16 61,57 30 23 0,99 59,94

31 17 -0,25 47,50 31 15 -0,61 43,87

32 19 0,10 51,02 32 19 0,19 51,90

33 22 0,63 56,29 33 23 0,99 59,94

34 17 -0,25 47,50 34 23 0,99 59,94

35 23 0,81 58,05 35 19 0,19 51,90

36 18 -0,07 49,26 36 11 -1,42 35,83

37 18 -0,07 49,26 37 15 -0,61 43,87

38 21 0,45 54,53 38 19 0,19 51,90

Dev. Stand. 5,69 4,98Media 18,42 18,05

Mediana 19,5 19

Moda 22 19

Tabella 2

20

Page 21: Tecniche_testing linguistico

La valutazione linguistica

5. L’analisi degli item

La somministrazione di un test, la sua correzione e attribuzione dei punteggi sono operazioni necessarie ai fini della valutazione. In base ai punteggi assegnati si stabilisce chi e come ha superato una data prova. Tuttavia queste operazioni non ci dicono se il test abbia funzionato correttamente nel suo complesso e nelle sue singole parti, se il test sia stato adeguato alle capacità effettive degli allievi, se, ad esempio, i distrattori siano stati troppo o scarsamente distraenti o le domande siano state ambigue o imprecise. Una valutazione completa implica una riflessione sulle caratteristiche strutturali e sul funzionamento della prova somministrata, altrimenti si rimarrebbe sempre nel campo dell’empirismo e dell’accettazione acritica di dati aprioristicamente considerati attendibili.

Un modo per valutare l’appropriatezza di un test è offerta dall’analisi degli item. Questa parte dal presupposto che, anche se tutti gli item concorrono a costituire il punteggio complessivo del test, alcuni vi contribuiscono in modo più significativo e determinante di altri. Lo scopo dell’analisi degli item è allora quello di identificare quali item e in quale misura contribuiscono a determinare il punteggio di ciascun allievo ma soprattutto se la loro formulazione è stata congruente con l’obiettivo. L’analisi degli item ci dà le misure di tre importanti caratteristiche degli item stessi: la difficoltà, la discriminatività o discriminazione e la distrattività.

La difficoltà di un item può essere intesa come la resistenza che un quesito pone alla sua corretta risoluzione; la discriminatività indica la capacità di un quesito di distinguere gli allievi che forniscono una prestazione complessivamente migliore da quelli che forniscono una prova più scarsa; la distrattività, invece, si riferisce alla capacità dei singoli distrattori di far deviare dalla risposta corretta. Per ciascuna di queste caratteristiche è possibile calcolare il relativo indice.

a. L’indice di difficoltà3 si misura stabilendo il rapporto fra il numero degli allievi che hanno fornito una risposta errata e il numero degli allievi che si sono sottoposti al test. Si avrà quindi un valore massimo di difficoltà pari a 1, quando tutti rispondono in modo errato, ed uno minimo pari a 0 quanto tutti rispondono correttamente.

La formula per calcolare l’indice di difficoltà è:

TEDf = -------

NIn cui TE indica il totale degli allievi che hanno dato una risposta errata a quel singolo item e N

è pari al numero degli allievi.Esempio: se in una classe di 20 allievi al primo item di un test a scelta multipla rispondono

correttamente 20, l’indice di difficoltà sarà: 5/20 = 0,25.

b. L’indice di discriminatività (o di discriminazione) si fonda sull’assunto che gli allievi che fanno meglio l’intero test dovrebbero fornire una prestazione migliore su ogni singolo item. Per calcolare tale indice occorre preliminarmente individuare il gruppo che ha conseguito i punteggi più

3 Tale indice può essere indicato anche come indice di facilità; in tal caso si prende come punto di riferimento il totale delle soluzioni corrette, per cui 1 indica il massimo di facilità, quando tutti rispondono correttamente al quesito e 0 il minimo di facilità, quando nessuno risponde correttamente.

21

Page 22: Tecniche_testing linguistico

La valutazione linguistica

elevati e quello che ha ottenuto i punteggi più bassi. Se il test è stato somministrato ad un numero di allievi molto elevato, ciascuno di questi gruppi sarà pari ad un quarto dell’intero campione, se invece il test riguarda una singola classe o un numero più ridotto di allievi allora i punteggi possono esser suddivisi in tre gruppi e tener conto solo del più alto e del più basso. Si conta poi per ciascun item il numero di quanti della fascia superiore hanno risposto correttamente e ad esso si sottrae il numero delle risposte corrette date dalla fascia inferiore. Si divide la differenza così ottenuta per il numero degli allievi di ciascuno dei gruppi presi in considerazione, secondo la seguente formula di Johnson:

ES - EI

D = ------------ N

dove: “ES” è il numero delle risposte esatte registrate nella fascia superiore, “EI” è il numero delle risposte esatte registrate nella fascia inferiore, ed “N” è il numero dei punteggi che costituiscono ciascun gruppo preso in considerazione.

Esempio: se in una classe di 20 allievi abbiamo isolato i 7 risultati migliori e i 7 peggiori e abbiamo calcolato che tra i primi 7 hanno risposto correttamente in 5 mentre tra i secondi hanno risposto correttamente in 2, l’indice di discriminazione sarà: (5-2)/7 = 0,42.

Un determinato item ha il massimo valore di discriminazione positiva (+1) se ad esso rispondono correttamente tutti i soggetti del gruppo superiore e nessuno del gruppo inferiore; ha il massimo valore di discriminazione negativa (-1) se si verifica esattamente il contrario. Se l’indice è 0 vuol dire che gli allievi dei due gruppi non si sono differenziati nella risposta ad un dato item.

Come si può constatare l’indice di discriminazione oscilla tra +1 e –1. Quanto più l’indice si avvicina a +1 tanto più l’item svolge una funzione discriminante, cioè separa le conoscenze reali da quelle fittizie e ciò ha grande rilievo soprattutto nelle prove di verifica formativa con le quali si vogliono identificare univocamente le lacune per poter intervenire sulle loro cause con specificità, sistematicità e tempestività.

Un criterio diverso per cogliere in maniera, sia pure più approssimativa, l'indice di discriminazione di un item è rappresentato dall'uso di un abaco. E l'abaco di Flanagan è stato studiato per determinare in un test i quesiti più discriminanti . Per far ciò occorre dividere i soggetti in due gruppi: quelli superiori alla mediana e quelli inferiori alla mediana. Per ognuno dei due gruppi si calcola la percentuale di quanti hanno risolto correttamente un dato item. Una volta calcolate queste due percentuali, si situa quella ottenuta nel gruppo dei migliori sull'ordinata, mentre la seconda, quella dei peggiori, sull'ascissa. Alzando due perpendicolari dai punti così fissati si potrà leggere sul grafico, nel punto d'incrocio, il coefficiente voluto. Se

questo è alto si concluderà che quel quesito riescono a risolverlo i bravi e gli altri no, e quindi quel quesito seleziona gli alunni preparati dagli altri. Tale operazione ripetuta per tutti gli item di una prova ci darà un'idea sulla discriminatività complessiva del test.

22

Page 23: Tecniche_testing linguistico

La valutazione linguistica

Va notato che nei piccoli campioni un leggero spostamento nelle frequenze produce sensibili differenze nelle percentuali e quindi nei coefficienti. Per questo il numero dei soggetti dovrebbe essere piuttosto elevato (almeno 300) per avere coefficienti stabili e affidabili.

Dopo aver identificato gli item poco discriminativi, conviene cercarne le ragioni. Ed allora si potrebbe riscontrare che la ragione è riconducibile alla presenza di uno o due o più distrattori forti che hanno una plausibilità tanto elevata da ingannare anche i migliori allievi, oppure che l'item è formulato in maniera ambigua e tale da ingenerare risposte a caso. Un item risultato in una prova-pilota poco discriminativo andrà modificato o migliorato, se invece il tempo di farlo dovesse mancare allora è meglio eliminarlo nella stesura finale.

c. La distrattività (valida solo per le scelte multiple) misura la percentuale degli errori per ciascun item riconducibili a ciascun distrattore. I distrattori non efficaci saranno scelti da pochissimi allievi e non contribuiscono all’attendibilità del test. Nel caso in cui lo stesso test venga riproposto ad altri allievi i distrattori inefficaci andrebbero sostituiti. È ovvio che la misura della distrattività assume rilevanza quando il test è stato somministrato ad un numero abbastanza elevato di allievi; diversamente, ci si dovrà accontentare di una stima approssimativa dei distrattori che si sono mostrati inefficaci.

In linea di massima, un buon test non dovrebbe essere troppo difficile, ma presentare una accettabile discriminatività. Tutti i distrattori dovrebbero essere efficaci. Possiamo considerare come accettabili indici di difficoltà e di discriminazione che si attestano tra lo 0,30 e lo 0,60. Tra i due parametri c’è una certa correlazione: un item molto facile o troppo difficile sarà poco discriminativo perché i punteggi dei due gruppi, essendo uguali, si annullano.

Vediamo ora in concreto come si potrebbe procedere al calcolo degli indici di difficoltà e di discriminatività dei singoli item.

Si costruisca una tabella con tante colonne quanti sono gli item del test e tante righe quanti sono gli allievi del campione preso in esame. Sulla riga di intestazione vanno riportati i numeri che individuano i singoli item e rispettivamente sulla prima e sulla seconda colonna il numero d’ordine che individua i singoli allievi (potrebbe essere il numero o la posizione che occupano nel registro di classe) e in ordine crescente i punteggi conseguiti dagli allievi.

All’intersezione fra ciascuna riga e ciascuna colonna si annoti l’eventuale errore scrivendo la lettera o il numero che li identificano nel test.

Nelle ultime due righe si riportino gli indici di difficoltà e di discriminazione calcolati secondo le formule sopra descritte.

Un esempio concreto è quello proposto nella tabella 3, che si riferisce ad un test di completamento tipo cloze somministrato nella sessione d’esame per il conseguimento del certificato di conoscenza della lingua italiana al livello terzo rilasciato dall’Università per stranieri di Perugia. In particolare il campione è costituito da 38 candidati della sede di Atene scelti casualmente tra gli oltre 600 che hanno sostenuto la prova del terzo livello. Nella prima colonna compare il numero d’ordine assegnato ai candidati, nella seconda colonna i punteggi conseguiti attribuiti con due criteri, il primo tiene conto semplicemente delle lacune completate in modo appropriato, il secondo tiene conto anche dell’indice di

23

Page 24: Tecniche_testing linguistico

La valutazione linguistica

difficoltà delle diverse lacune in rapporto al gruppo preso in esame, per cui il peso di ciascun item da completare oscilla da un minimo di 1 ad un massimo di 5 in relazione all’indice di difficoltà. La tabella è ordinata secondo l’ordine decrescente dei punteggi. Nelle colonne successive è indicata con le lettere “g” ed “e” i completamenti corretti e quelli errati. Nelle due ultime righe sono indicati per ogni item l’indice di difficoltà e l’indice di discriminatività.

24

Page 25: Tecniche_testing linguistico

La valutazione linguistica

N° ord

.

Punteg.

item 1

item 2

item 3

item 4

Item 5

item 6

item 7

item 8

Item 9

item

10

item

11

item

12

item

13

item

14

item

15

item

16

item

17

item

18

item

19

item

20

item

21

item

22

item

23

item

24

item

25

item

26

item

27

item

28

item

29

item

30

16 26

24g g g g g g g g e g g g g g g g e g g e g g g e g g g g g g

26 26

24g g g g g g g g e g g g g g g g g g g e g g g e g g g g e g

10 25

24g g e g g g g g g g g g g g g e g g g g g g g e g g e g g e

30 25

24g g g g g g g g e g g g g g g e g g g g g g e e g g g g e g

19 25

23g g g g g g g g e g g g g g g g e g g e g g g e g g g g g e

25 25

23g g e g g g g g e e g g g g g g g g g g g g g e g g g g g e

12 23

23g g e e g g g g e g g g e g g g g g g e g g g g g g e g g e

35 23

22g e g g g g g g e e g g g g g g g g e e g g g g g g g e e g

14 22

21g g g g e g g e e g e g g g g g g g g e g g g e g g e g g e

18 22

21g e g g g g g e e g g g g g g g e g e g g e g e g e g g g g

20 22

21g e g g g g e g e g g g g g g g e g g g g g g e g g e g g e

9 22

20g g g g g g e g e g g g g g g g g g e e g g g e e g e e g g

17 22

20g e g g g g e g e g g g g g g g g g g e g g g e g e g g g e

33 22

20g g g g g g g g e g g g e g g g g g e e g g e e g e g g g e

38 21

20g e g g g g g g e g g g g g g e e e g g g g g e g g g e e e

2 21

20g g e g g g g g e g g g g g g e g g g e e g g e g e e g e g

15 21

20e g g g g g g g e e g g g g g g e g g e g e g e g g e g g e

23 20

20g g e g g g g g e g g g g e g e g e e g g g g e e g e g e g

26

Page 26: Tecniche_testing linguistico

La valutazione linguistica

27 20

19g e g g g g e g e e g g g g g g g e e e g e e e g g g g g g

3 19

18g g g g g g e g e g g g e g g e g g g g g e e e g g e e e e

24 19

18g g e g e g e g e g g g g g g e g g g e g g e e g g e g e e

32 19

18g e e g g g g g e e g g e g g e g g g g g g g e g e g e e e

13 18

19g e g g e g g g e g g g e g e g g g e e g g g g e g e e e e

37 18

18g g g e g g g e e g g g g g g g e g e e e g e e e g e g g e

36 18

17g e e g g g e g e e g g g e g g e g e g g g g e e e g g g e

34 17

18e g g g g g e g e g e g g e e e g g e e e e g e g g g e g g

31 17

17g g e g e g e g e g g g g g g e g g e g g e e e e g e g e e

22 16

16g e g g g g e g e g g g g g e g e g e e g e e g e g e e e e

11 16

15g g g g g g e g e e g g g g g e e g e e e g g e g e e e e e

1 14

14g e e g e g e g e g g g g e e e g e e e g e g e e g e g g e

7 14

14g e e g e g g e e e g g g e g g e g e e g e e e g e g g e e

6 13

13g e g e g g e g e e g g g e e e e g e e g g g e e g e e e e

29 12

15e e e e e g e g e e g e e e g g e g g e e e g g g g e g e e

8 12

14e e e e g g g g e e e g g e g e e g g g e e e e g e g e e e

4 10

12g e e e e g e g e e e g g e g e e e e e g g g e e e e e e g

28 08

12e e e e g g e e e g g g e e e e e e e e e e e g e e g e g e

21 05 8 e e e e e e e g e e g g e e g e e e g e e e e e e e e e e e

5 02 7 e e e e e e e g e e e g e e e e e e e e e e e e e e e e e e

Indice difficoltà

0,18

0,50

0,45

0,24

0,26

0,05

0,47

0,13

0,97

0,37

0,13

0,03

0,24

0,32

0,18

0,47

0,47

0,21

0,50

0,68

0,24

0,37

0,34

0,84

0,34

0,34

0,55

0,39

0,53

0,71

0,38

27

Page 27: Tecniche_testing linguistico

La valutazione linguistica

Ind. Discrimin.

0,46

0,46

0,46

0,46

0,46

0,15

0,62

0,00

0,08

0,46

0,23

0,08

0,23

0,77

0,46

0,62

0,46

0,38

0,54

0,23

0,54

0,69

0,46

-0,0

8

0,54

0,38

0,31

0,54

0,54

0,31

0,39

Tabella 3.

28

Page 28: Tecniche_testing linguistico

La valutazione linguistica

Dall’analisi della tabella in questione si può aver una conferma di quanto si è affermato sopra: gli item con un indice di difficoltà intorno allo 0,30 hanno un più alto indice discriminativo (ad esempio gli item n. 7, 14, 16 e 22), mentre gli item molto facili o molto difficili sono anche meno discriminanti: ad esempio gli item n.8 e 9 che hanno l’uno un indice di difficoltà molto basso (0,13) e l’altro molto alto (0,97) hanno un indice di discriminatività pressoché uguale: 0 e 0,08. Il particolare rapporto tra difficoltà e discriminatività, per cui i due parametri entro una certa fascia di valori sono tra loro inversamente proporzionali, è confermato dall’indice di correlazione, che per il campione preso in esame è lievemente negativo, è pari infatti a –0,11. Se a questo dato statistico aggiungiamo che la media dell’indice di difficoltà e di discriminazione per il campione in oggetto è di 0,38 e 0,39, allora possiamo dire che il test si è rivelato abbastanza appropriato al gruppo cui è stato proposto in quanto non troppo facile né troppo difficile e con un livello di discriminatività accettabile.

Se, come in questo caso, il test aveva lo scopo di verificare il possesso di alcune abilità integrate collegate alla comprensione di un testo (competenza linguistico-grammaticale, competenza testuale e competenza culturale), allora sulla base dell’analisi condotta possiamo dire che esso è stato sufficientemente adeguato, e che i risultati possono considerarsi sufficientemente attendibili. È vero che il campione preso in esame è esiguo, per cui la difficoltà o facilità di alcune lacune può essere collegabile al campione stesso, tuttavia l’equilibrio dei valori medi ottenuti conferma l’appropriatezza della prova per il particolare gruppo al quale è stata proposta.

Un attento esame delle risposte date alle varie scelte multiple va sempre fatto. Ci può sempre essere un distrattore che appare più efficace o comunque è più preferito rispetto alla risposta corretta. L'item analysis diventa allora uno strumento efficace che permette di partire da prove mediocri e di arrivare, attraverso fasi successive di affinamento, a prove soddisfacenti. Individuando, infatti, i tipi di errore di costruzione che si fanno si tenderà sempre più a evitarli, in tal modo l'autore dei test raffinerà sempre più, con il tempo e l'esperienza, le tecniche di costruzione di test.

d. Coefficiente di correlazione del punto biseriale. Il punto biseriale è un coefficiente di correlazione ottenuto confrontando i risultati di tutti gli studenti su un singolo item con i risultati di tutti gli studenti nell'intera prova. (meno quell'item) Il punto biseriale viene generalmente calcolato con specifici programmi di statistica su computer. La correlazione biseriale di punto, rpb, è data dalla seguente formula:

in cuixp è il punteggio medio totale di tutti i candidati che hanno risposto correttamente a quell'itemxq è il punteggio medio totale di tutti i candidati che non hanno risposto o hanno risposto erroneamente a quell'itemp è la proporzione del numero totale dei candidati che hanno risposto correttamente a quell'itemq è la proporzione del numero totale dei candidati che non hanno saputo rispondere a quell'itemσ è lo scarto standard dei punteggi del test per tutti i candidati.

In genere, gli item il cui coefficiente di correlazione biseriale di punto è uguale o superiore a 0.30 sono considerati accettabili. Quando la correlazione biseriale di punto ha valore negativo, significa che i candidati migliori non hanno saputo scegliere la risposta giusta a quell'item. Questo potrebbe far pensare che c'era un'altra opzione diversa da quella corretta plausibile, tale da sembrare legittimamente giusta. Un'opzione di questo tipo è detta distrattore positivo. In un test è bene non utilizzare un item simile, ma occorre togliere il distrattore positivo e pre-testarlo di nuovo.

29