VALUTAZIONE DELL ALLENAMENTO - preparazioneatletica.it · del gioco del calcio, si espongono le...

Un test per essere considerato valido deve soddisfare una serie di criteri di qualità senza i quali non può essere utilizzato. Riferendole all’esempiodel gioco del calcio, si espongono le basi teoriche utili per la validazione di un test mostrando come le tecniche usate per studiare le misure dei costrutti teorici possano, e debbano, essere impiegate per la misuradi variabili oggettive (variabili fisiologiche). Il processo di validazione di un test è un percorso scientifico rigoroso che prevede almeno cinquestep indispensabili e atti a valutare altrettanti attributi che devono esserepresenti nel test. Tali attributi sono rappresentati dal modello teorico, cioè dalla definizione del modello della prestazione di riferimento per l’identificazione delle caratteristiche rilevanti per la performance, allo scopo di verificare se la caratteristica che si vuole misurare è rilevante;dalla validità, cioè la determinazione del grado con cui un test misura ciò

che si suppone debba misurare; la ripetibilità, che decreta la stabilità di una misura ripetuta nelle stesse condizioni e nello stesso soggetto(rumore); la responsività interna, cioè il grado con cui il risultato di un testè sensibile ai cambiamenti indotti da un intervento (segnale), ed esterna,rappresentata dal grado con cui i cambiamenti di un test riflettono i cambiamenti della misura di riferimento; la interpretabilità, che è il grado della possibilità di intepretazione di un test (dati di riferimento,cambiamento minimo significativo da un punto di vista pratico e statistico,rapporto rumore: segnale). Prima di considerare valido un test, vanno rigorosamente verificate le sue proprietà e i risultati devono soddisfare in maniera adeguata ognuno di questi cinque attributi. Si forniscono poi indicazioni di come tecniche statistiche aiutino l’interpretazione dei test, sia a livello di gruppo, sia a livello statistico.

99

I TEST DI VALUTAZIONE:QUELLO CHE NONVIENE MAI DETTOBasi teoriche per la validazionedei test e l’esempio del calcio Sd

S/Sc

uola

del

lo S

port

Ann

o XX

VIII

n.81

Franco M. Impellizzeri, Centro di ricerca interuniversitario in Biomeccanica e scienze motorie,CeBiSM, Rovereto; Dipartimento di ricerca e sviluppo,Schulthess Klinik, Zurigo, Svizzera, Pierluigi Fiorella,Istituto di Medicina e scienza dello Sport, Coni, Roma;Settore Sanitario F.C. Internazionale, MaurizioFanchini, Centro di ricerca interuniversitario in Biomeccanica e scienze motorie, CeBiSM, Rovereto;Duccio Ferrari Bravo, Facoltà di Scienze motorie,Università degli Studi di Verona, Carlo Castagna,Corso di Laurea in Scienze motorie, Facoltà diMedicina e chirurgia di Roma Tor Vergata, Roma.

VALUTAZIONE DELL’ALLENAMENTO

FOTO CALZETTI & MARIUCCI EDITORI

SdS/

Scuo

la d

ello

Spo

rt A

nno

XXVI

II n.

81

1100

Premessa

Quando si parla di test di valutazione tuttipiù o meno pensano di sapere di cosa sitratta. In realtà l’area dei test (e quindi delleproprietà delle misure) è uno degli ambitipiù complessi e spesso sottovalutati dellescienze dello sport e dell’esercizio fisico(Impellizzeri, Marcora 2009, in press). Afronte di un aumento dell’interesse verso lavalutazione funzionale, non si è registrato lostesso aumento di interesse – e quindidivulgazione – per i fondamenti teorici chestanno alla base del loro sviluppo, validazio-ne ed interpretazione. Si è, quindi, assistitonegli ultimi anni a un proliferare incontrol-lato di test. In un momento in cui sembraandare di moda il binomio sport e scienza,non c’è cosa peggiore e più pericolosa dellapseudoscienza. Con questo articolo voglia-mo fornire una introduzione user friendly,ma scientificamente rigorosa, della teoriache sta alla base dello sviluppo dei test chepuò essere utile a coloro che vogliono ideareun nuovo test, validare test già esistenti osemplicemente capire se i test che vengonoproposti sono validi o no. Faremo riferimen-to al calcio perchè tra i vari sport è tra quelliche più soffre di questo proliferare di nuovitest, ma i fondamenti teorici presentati sonoovviamente applicabili a tutti gli sport. Nonapprofondiremo le tecniche statistiche piùavanzate per le quali rimandiamo a testispecifici. Daremo invece indicazioni di comele tecniche statistiche possano aiutare ainterpretare i test sia a livello di gruppo, ma,soprattutto, come richiesto dagli allenatori epreparatori, a livello individuale.

Introduzione

I metodi e le tecniche statistiche necessa-rie per determinare la validità delle provedi valutazione derivano dal dominio dellapsicologia e della sociologia (Ary et al.2006). Purtroppo nella loro applicazionenell’area dello sport si sono spesso persialcuni passaggi fondamentali. Questo hacondotto nel breve volgere di tempo alfacile sorgere di una miriade di test dacampo che risultano spesso non “validi”.Nel presente articolo faremo particolareriferimento alle tecniche clinimetriche(derivate dalla psicometrica), ovvero quel-l’area scientifica che si occupa della qua-lità delle misure cliniche e in particolaredei cosiddetti self-report (strumenti utiliz-zati per quantificare la percezione deipazienti rispetto all’esito di trattamenti oall’impatto di particolari patologie) (de Vetet al. 2003). In pratica un test per essereconsiderato valido deve soddisfare unaserie di criteri di qualità senza i quali il testnon può essere utilizzato. In quanto segueverranno riportate le basi teoriche utili per

la validazione di un test mostrando comele tecniche usate per studiare le misure deicostrutti teorici possano, e debbano, esse-re impiegate per la misura delle variabilioggettive (variabili fisiologiche). Il proces-so di validazione di un test è un percorsoscientifico rigoroso che prevede almenocinque step indispensabili e atti a valutarealtrettanti attributi che devono essere pre-senti nel test. Quindi, prima di considerarevalido un test, vanno rigorosamente verifi-cate le sue proprietà e i risultati devonosoddisfare in maniera adeguata ognunodei seguenti cinque attributi.

Modello teorico

Il modello teorico è il requisito di partenzaessenziale per sviluppare o validare un test(Impellizzeri, Marcora 2009, in press). È benenon identificare esclusivamente il modelloteorico con quello fisiologico dato che nonsempre i fattori limitanti la prestazione sonoascrivibili a fattori di natura fisica. Di fattotale identificazione determinerebbe a prioriuna esclusione di altre componenti impor-tanti. Quali, ad esempio, gli aspetti psico-biologici, psicologici, biomeccanici, e cosìvia. A dimostrazione di ciò possiamo citare ilrecente articolo di Marcora e coll. (Marcoraet al. 2009) nel quale è stato dimostratocome la fatica mentale costituisca un fatto-re limitante la prestazione di endurance.Sicuramente più adeguato risulta il terminemodello prestativo, più generico, ma cheracchiude in sé la finalità principe degli ope-ratori dello sport, ovvero la prestazione. È difatto attraverso la definizione di un modelloteorico della prestazione che si identificanole componenti misurabili del modello stesso.Per chiarire questa importante procedura

faremo riferimento, quale paradigma esem-plificativo, al gioco del calcio (Impellizzeri,Marcora 2009, in press). Innanzitutto occorre definire cosa si intendaper prestazione calcistica. Questa procedura,necessaria, ma non sufficiente per la valida-zione di un test, pur apparentemente sem-plice, presenta le difficoltà tipiche dellasoluzione sistemica semplificata (modello) aproblemi complessi e, di fatto, risulta nellasoluzione tutt’altro che immediata. Difattil’assumere quale paradigma prestativo ilcostrutto più immediato, ovvero l’esito di unincontro” (vittoria-sconfitta-pareggio), ren-derebbe il risultato troppo influenzabile daquei fattori episodici che condizionano l’esi-to della partita. Una soluzione “più stabile”potrebbe essere la classifica finale di unCampionato o un torneo che, che per quan-to influenzabile da episodi, dovrebbe meglioriflettere il valore di una squadra. In questocontesto un’altro indicatore utile per poterdefinire la performance calcistica potrebbeessere quindi il ranking FIFA, che a sua voltaè il risultato dei successi o insuccessi dellesquadre di ogni Nazione. Qualcuno ovvia-mente potrà dissentire da ciò, il che già facomprendere come sia di fatto complicatosviluppare un modello teorico (Taylor et al.2008). È comunque vero che senza una defi-nizione della prestazione non è possibiledefinire le componenti che la influenzano odeterminano, ed è quindi impossibile svilup-pare un test per misurare questi fattori deci-sivi. Occorre ricordare che un modello ècomunque una semplicazione di un feno-meno multifattoriale di vario livello di com-plessità e che come tale va considerato,senza incorrere nell’errore di banalizzare lerisposte da questo afferenti. In ogni caso l’i-dentificazione della performance quale

Step Attributo da verificare Verifica da operare

1 Modello teorico Definire il modello della prestazione di riferimento per l’identificazione delle caratteristiche rilevanti per la performance. Verificare se la caratteristica che si vuole misurare è rilevante.

2 Validità Determinare il grado con cui un test misura ciò che si suppone debba misurare.

3 Ripetibilità Decretare la stabilità di una misura ripetuta nelle stesse condizioni e nello stesso soggetto (rumore).

4 Responsività Interna: Grado con cui il risultato di un test è sensibile ai cambiamenti indotti da un intervento (segnale). Esterna: grado con cui i cambiamenti di un test riflettono i cambiamenti della misura di riferimento.

5 Interpretabilità Grado di interpretabilità di un test (dati di riferimento, cambiamento minimo significativo da un punto di vista pratico e statistico, rapporto rumore: segnale).

Tabella 1 – Attributi che devono essere verificati durante il processo di validazione di un test

SdS/

Scuo

la d

ello

Spo

rt A

nno

XXVI

II n.

81

1111

risultato finale in una classifica risulta labase su cui si muove tutta la ricerca appli-cata al calcio. Partendo da questo assunto ilgruppo danese di Bangsbø (Mohr et al.2003) ha mostrato come i giocatori danesicorressero meno ad alta intensità (>15km/h) dei giocatori Italiani. Appartenendo igiocatori italiani ad un livello competitivosuperiore (più vittoriosi e quindi meglioposizionati nel ranking FIFA), si è conclusoche la capacità di correre ad alta intensitàsia un fattore importante per il calcio.Questa è l’unica evidenza a supporto delmodello oggi più usato nel calcio, ma essen-do una conclusione abbastanza logica efacilmente condivisibile è stata ed è comu-nemente accettata. Quindi, si è affermatoun modello tri-compartimentale che com-prende oltre alla componente fisica quellerelative ai fattori tecnici e tattici. Risulta evi-dente che qualsiasi tentativo operato nel-l’intento di fornire un modello integrato e,quindi, “uni-compartimentale” o pseudo-integrato determinerebbe un aumento dellivello esplicativo del modello stesso. Ilprimo di questi tentativi è stato di recenteeffettuato in uno studio realizzato esami-nando il Campionato italiano e nel quale èstato dimostrato come i giocatori dellemigliori cinque squadre corressero media-mente meno ad alta intensità dei giocatoriche militavano nelle ultime cinque squadredel campionato (Rampinini et al. 2007b). Ladifferenza tra i due gruppi, invece, è statatrovata nell’attività svolta ad alta intensitàin possesso di palla, nella quale i giocatoriappartenenti alle squadre meglio classificateeccellevano. La stessa cosa è stata confer-mata in uno studio successivo svolto sullaPremier League (Di Salvo et al. 2009).Quanto sopra senza dubbi suggerisce che

nella definizione di un modello teorico cal-cistico bisogna tenere conto delle interazio-ni tra i tre fattori e non delle singole com-ponenti. Un ulteriore passo nella definizionedi un modello integrato della prestazionecalcistica è stato compiuto grazie a recentipubblicazioni, le quali hanno dimostratocome una maggiore abilità di svolgere atti-vità intermittenti ad alta intensità possaavere un effetto indiretto, e non diretto,sulla performance. Questo attenuando ildecremento della qualità tecnica causatodall’insorgere della fatica sia temporaneache cumulativa (Impellizzeri et al. 2008b;Rampinini et al. 2008). Questa acquisizionescientifica risulta di rilevante importanzadato che sicuramente qualche preparatorefisico si sarà trovato di fronte all’obiezione,esercitata da allenatori che banalizzando laperformance calcistica e, quindi, il relativomodello, la associano al solo evento tecnico(“giocare al pallone”, “mettere la palla inrete”). Tale obiezione pur lecita, risulta inde-bolita di fatto dalla dimostrazione che i gio-catori che hanno risultati inferiori nello YoYo Intermittent Recovery Test sono anchequelli che sbagliano un maggior numero dipassaggi successivamente a uno sforzointermittente che induce fatica (Impellizzeriet al. 2008b; Rampinini et al. 2008). In prati-ca questa è la dimostrazione attualmentepiù forte del potenziale ruolo determinantedi una buona preparazione fisica nel calcio.In altre parole, forse il giocatore di successonon corre di più, ma sbaglia meno; e se alle-nato, tende a sbagliare ancora meno.Ovviamente sull’interazione tra capacitàtecniche e fisiche occorrono ancora moltistudi, ma l’inizio sembra molto incoraggian-te e utile per raffinare il modello teorico dipartenza.

E la forza? Sicuramente a questo puntoqualcuno si sarà chiesto come entra laforza in questo modello, data la contro-versia esistente tra sostenitori della forzao dell’aerobico. La forza potrebbe rientrarein questo modello nel caso che la si consi-derasse una determinante della capacità dicorrere ad alta intensità (che infatti inclu-de gli sprint). L’allenamento aerobico adalta intensità è stato mostrato da varistudi influenzare la performance fisica etecnica, e le evidenze di questo sonosostanziali e abbastanza forti (Bravo et al.2007; Dupont et al. 2004; Helgerud et al.2001; Impellizzeri et al. 2006; Impellizzeriet al. 2008b; McMillan et al. 2005; Siegleret al. 2003; Stølen et al. 2005). Per la forzanon ci sono queste evidenze. Alcuni studisupportano l’utilità della forza per il fattoche un giocatore possa saltare più in altonei colpi di testa o che possa correre piùveloce uno sprint arrivando prima sullapalla (Hoff, Helgerud 2004; Wisløff et al.2004). Uno studio di Wisløff et al. (1998)ha mostrato come, nel Campionato norve-gese i giocatori della squadra prima classi-ficata nel Campionato avessero prestazio-ni nei test di forza massima più elevate deigiocatori dell’ultima squadra del campio-nato. La stessa cosa non fu invece trovatanei test di salto. Arnason et al. (2004a)hanno mostrato una correlazione tra saltoverticale e classifica finale nel Campionatoislandese. Al contrario, Cometti et al.(2001) mostrarono che i giocatori amatorifrancesi saltavano di più dei giocatori dicategorie élite. Rosh et al. (2000) hannoevidenziato come i giocatori amatori aves-sero valori di salto verticale più basso inconfronto dei top level e di terza divisione.Tuttavia, gli stessi autori trovarono test di

SdS/

Scuo

la d

ello

Spo

rt A

nno

XXVI

II n.

81

1122

salto simili tra top level, terza divisione egiocatori di squadre locali (basso livello).Quindi, anche se la forza esplosiva, misu-rata tramite i salti verticali, appare essereintuitivamente un caratteristica importan-te per i calciatori non ci sono evidenzescientifiche del ruolo determinante di que-sta caratteristica sulla performance calci-stica. Altri ancora suggeriscono che laforza avrebbe un significato in termini diprevenzione degli infortuni. In questoambito esistono certamente più evidenze(Arnason et al. 2004a; Arnason et al.2004b; Croisier 2004; Croisier, Crielaard2001; Croisier et al. 2002; Croisier et al.2003; Dvorak, Junge 2000; Junge, Dvorak2004). Di fatto, se si considera che l’infor-tunio possa influire negativamente sullaprestazione della squadra, la forza andreb-be inserita in un modello che vede l’infor-tunio tra le determinanti delle prestazionecalcistica, così come tutto ciò che ha unruolo nella prevenzione. In pratica, mentremolti si sono adoperati per sviluppare testper la misura della forza nelle sue varieespressioni e metodi più o meno originaliper migliorarla, pochi studi hanno cercatodi verificare la relazione della forza con laperformance (diretta o indiretta), o si sonopreoccupati di definire il costrutto cheinfluenzerebbe la performance calcistica eal quale la forza sarebbe legata.Nell’ottimizzazione del modello, l’allena-mento della forza, e di tutto ciò che ha, opotrebbe avere un ruolo preventivo,potrebbe influenzare l’incidenza degliinfortuni e di conseguenza i tre costruttidi base (performance fisica, tecnica e tat-tica). Infatti, un atleta infortunato nonpuò giocare o se gioca non può esprimereal massimo le tre componenti della perfor-mance. Queste considerazioni fornisconola base teorica per inserire, ad esempio, ilavori propriocettivi tra i fattori da studia-re. Dato che lo scopo nel calcio è vincere, enon avere atleti più forti, fintanto che nonverrà chiarito se e come la forza vadainserita nel modello prestativo calcistico,non è possibile spiegare come misurarlaed allenarla in modo appropriato. Questonon vuol dire che la forza, come altrecapacità non siano rilevanti in assoluto,significa semplicemente che non si saquanto e quale espressione di forza siaimportante. Questo è più rilevante diquanto si pensi. Se, ad esempio, un doma-ni si scoprisse che è la forza esplosiva adavere un ruolo determinante nella presta-zione, i test di salto avrebbero senso men-tre i test di forza massima no, oppureviceversa. Attualmente le evidenze sonodiscordanti. Il modello teorico, quindi, necessiterebbeanch’esso di validazione e possibilmentequesta validazione dovrebbe essere speri-

mentale per non renderci conto tra undecennio di aver perso tempo a misurare eallenare variabili che hanno un minimoimpatto sulla performance. Mentre in altrediscipline si dedica molto tempo allacostruzione del modello teorico, nel calcio,e nello sport in genere, questo aspetto èsottovalutato, rendendo il tipo di test e imetodi di allenamento dettati più damode momentanee (e quindi transitorie ein genere cicliche) che da evidenze scienti-fiche (solide nel tempo). Sempre partendo dal modello teorico, losviluppo di un nuovo test deve esseremotivato. Prima di ideare un nuovo testoccorre spiegare perché i test esistentinon sono adeguati e possibilmente dimo-strarlo. Una motivazione potrebbe essere,ad esempio, che i test a disposizione nonsono validati. Anche in questo caso occor-rerebbe spiegare perché sia necessariocrearne uno nuovo invece di validare, ecapire come usare, un test già esistente.Purtroppo, spesso l’introduzione di unnuovo test costituisce la manifestazionedella ricerca di popolarità e di notorietàdel suo propositore, più che di una realenecessità pratica. Un esempio positivo inquesto senso può essere quello offerto dauna recente ricerca che si è interessatadella repeated sprint ability (RSA) nel cal-cio, ovvero della abilità del giocatore direiterare sprint con brevi pause di recupe-ro e con il minimo deterioramento dellaprestazione. In questo studio infatti, inve-ce di “inventare” un nuovo test per ladeterminazione della RSA, gli Autorihanno ritenuto di importante rilevanzapratica verificare la validità e ripetibilitàdel popolare test a navetta di Capanna, giàdiffuso nel calcio italiano (Impellizzeri etal. 2008a; Rampinini et al. 2007a).

Validità del test

La validità è l’abilità di un test nel misura-re ciò che si suppone debba misurare. Cisono vari modi per verificare la validità diun test e quindi diversi tipi di questa. Lavalidità non è un concetto assoluto. Untest può essere valido per uno scopo e nonper un altro. I più frequenti tipi di validitàutilizzati nelle scienze dello sport sonoquella di facciata (face validity), logica o dicontenuto, di costrutto e di criterio.

Validità di facciata

È la forma più debole di validità perché nondimostrabile in modo oggettivo e, quindi,troppo soggetta ad interpretazioni perso-nali. Purtroppo è anche il tipo di validitàche più viene utilizzato per “dare” validità aitest e viene spesso identificata con la speci-ficità del test. Si dice che un test ha validità

di facciata quando appare misurare quelloche l’ideatore vorrebbe misurare. Ad esem-pio, se voglio misurare nel giocatore lacapacità di effettuare sprint ripetuti e uti-lizzo un test che consiste nel fare 6 sprintda 40 m con 20 secondi di recupero (il testdi Capanna ad esempio), questo test havalidità di facciata perché appare misurarela capacità di ripetere gli sprint (specificitàapparente). In genere si assume, senzadimostrarlo, che un test avente “specificitàapparente” sia sicuramente migliore e diconseguenza valido. In pratica, utilizzandoun test che riproduce movimenti e azionidello sport in questione, assumo che la suaspecificità gli conferisca una validità di fac-ciata, e che questa validità sia sufficienteper validare il test in relazione alla perfor-mance. Purtroppo questo non è il caso.Recentemente è stato pubblicato uno stu-dio che ha verificato la ripetibilità di unaserie di valutazioni funzionali per il calcio,incluso un test per valutare quanto lontanoun giocatore lanci la palla durante unarimessa laterale (Mirkov et al. 2008).Sebbene di fatto la rimessa laterale costi-tuisca un elemento tecnico del gioco delcalcio (specificità apparente), l’introduzionedi un test in grado di valutare l’abilità di ungiocatore in questo gesto risulta giustifica-to solo nel caso che si verifichi la sua rile-vanza nel determinismo prestativo delgioco. Di fatto la validità di facciata nonapporta per definizione nulla rispetto allarilevanza del test stesso per la performance. Ancora una volta il modello teorico allabase dello sviluppo del test risulta essen-ziale. Alla luce di quanto appena esemplifi-cato una erronea interpretazione della vali-

SdS/

Scuo

la d

ello

Spo

rt A

nno

XXVI

II n.

81

1133

dità di facciata, con la conseguente assun-zione di comprovata pertinenza del test(rimessa laterale), potrebbe indurre alcunipreparatori fisici ad allenare la forza degliarti superiori, per esempio, due giorni allasettimana per aumentare di 30 cm la lun-ghezza della rimessa laterale. Questo senzasapere se questi 30 cm in più influenze-ranno veramente la performance. Unacosa risulterebbe certa da questa strategia,ovvero la sottrazione di tempo all’allena-mento di caratteristiche fisiche magari piùrilevanti per la prestazione in oggetto. Unaltro esempio di segno contrario è quellooffertoci dall’applicabilità al calcio delloYo-Yo Intermittent Recovery Test, il qualeconsiste nel completare a velocità crescen-te navette da 20 + 20 m con cambi didirezione di 180° intercalati da 10 secondidi recupero. Qualcuno ne ha contestatolecitamente la specificità dato che, purcontemplando come nel calcio sforzi inter-mittenti (e per questo più specifico di testcontinui a navetta come il Legér), il proto-collo previsto dallo Yo-Yo IntermittentRecovery Test risulta differente dalle atti-vità fatte in partita (intermittenza casuale).Tuttavia numerosi studi ne hanno sancitola validità in modo forte e consistente(Bangsbø et al. 2008). In questo caso,come si può notare, si sarebbe addottauna non validità di facciata (protocollointermittente ad esaurimento controintermittenza casuale) per dimostrare l’in-congruenza dello Yo-Yo IntermittentRecovery Test nel calcio. Le verifiche, tut-tavia, hanno mostrato, come questa appa-rente scarsa validità di facciata non neabbia inficiato la validità.

Uno studio ancora in corso (dati non pub-blicati) ha tentato di modificare il test ren-dendolo più specifico, aggiungendo cambidi direzione di diverse angolazioni, movi-menti tipici del calcio come slalom etc. Ilrisultato ad oggi è che la correlazione traYo Yo tradizionale e la versione modificataè superiore a 0,90. Questo indicherebbe,senza ombre di dubbio, che i due test sonoperfettamente equivalenti e che, di fatto,misurano le stesse variabili. In pratica lamaggiore specificità introdotta complica difatto solo la fattibilità del test. Fare riferi-mento solo alla validità di facciata è unprocesso soggettivo, e pertanto rischia dicondurre lo sviluppatore del test in direzio-ni fuorvianti nella spasmodica ricerca dellaspecificità che, per quanto desiderabile,non sempre è sinonimo di maggior validitào, in ogni caso, questa presunta maggiorvalidità va dimostrata.

Validità di contenuto

Nel caso dell’esempio riferito al test anavetta (6x40 m) dicevamo che esso havalidità di facciata. Abbiamo anche ricor-dato che la validità di facciata è un proce-dimento soggettivo e quindi non oggetti-vabile. Si potrebbe infatti obiettare sullasua validità di facciata con l’osservazioneche in partita i giocatori raramente fannosprint di 40 m, assai di rado effettuanocambi di senso di 180° e che i recuperi trauno sprint e l’altro sono diversi dai 20secondi utilizzati nel test. In pratica stiamomettendo in dubbio la sua validità di con-tenuto. Questo tipo di validità è più ogget-tivabile. Ad esempio, nel caso del test anavetta posso utilizzare i dati misurati inpartita (attraverso analisi video: matchanalysis) per verificare la lunghezza, fre-quenza e durata dei recuperi durante glisprint e in particolare delle fasi più intensedi gioco dato che in genere è bene indaga-re non un andamento medio, ma le situa-zioni più critiche di questo. In realtà pochisono i dati reperibili in questo contesto. Inuno studio datato (Withers et al. 1982) èstato mostrato come nelle fasi più intensei giocatori arrivino a compiere sforzi inten-si come gli sprint con un rapporto tra sfor-zo e recupero di 1 a 3, rapporto che siavvicina al test a navetta. Il test a navettaprevede sprint da 40 m che non sono fre-quenti nel calcio. Tuttavia il test prevedeun’andata e un ritorno, e 40 m è la distan-za totale. Quindi si sta parlando in realtà disprint da 20 metri, i quali sono più fre-quenti durante la partita. Il punto piùdebole è il cambio di senso di 180° cheavviene raramente in partita. Tuttavia percapire se è accettabile questo tipo di cam-bio di direzione occorrerebbe vedere se untest a navetta con cambi di direzione di

180° sia correlato con il risultato di un testa navetta con cambi più specifici rispetto aquelli che avvengono in partita. Studi suquesto sono in corso sia per il test a navet-ta che per altri test come lo Yo-Yo. Perché,quindi, non utilizzare direttamente cambidi direzione più specifici? La rispostapotrebbe essere perché un test con cambidi senso di 180° risulta più facile da ese-guire, e nello sviluppo di un test la sua fat-tibilità è uno degli elementi importanti dicui tenere conto. In ogni caso, come per lavalidità di facciata, diversi studi hannomostrato la validità (vedi sezione successi-va) nonostante gli apparenti problemi divalidità di contenuto. Altro esempio di vali-dità di contenuto è quello fornito dallesimulazioni che vengono in genere svilup-pate per studiare le risposte fisiologichealla partita. Una buona simulazione dellaperformance fisica della partita ovviamen-te deve prendere in considerazione le atti-vità realmente effettuate in partita.Confrontando le proporzioni di ciascunaattività fisica contenuta nel test con i datidisponibili di match-analysis è possibileverificare in modo quantitativo la validitàdi contenuto.

Validità di costrutto

La validità di costrutto si riferisce all’ido-neità di un test nel misurare un concettoteorico che si suppone debba misurare,ovvero il costrutto. Nelle scienze dellosport risulta difficile per motivi culturalipensare alle caratteristiche fisiche e allaprestazione come a costrutti teorici. Ilfatto che nello sport vi siano molte piùvariabili e parametri misurabili in modooggettivo ha fatto spesso dimenticare chemolte performance sportive rappresentanodi fatto costrutti teorici (Atkinson 2002).La performance del calcio è un costrutto:la classifica finale in un Campionato è unsurrogato del costrutto, e non il costruttostesso. Lo stesso ragionamento vale ancheper la performance fisica durante la parti-ta: la distanza corsa ad alta intensità inpartita è un indicatore del costruttoperformance fisica, e non il costrutto stes-so. Altri esempi di costrutti sono la forza ele capacità aerobiche. Da questi esempirisulta edivente, quindi, quanto la validitàdi costrutto sia importante per verificarese il test che abbiamo sviluppato o stiamovalidando misuri effettivamente il costrut-to di interesse. In questo contesto risultadi estrema importanza la oggettiva defini-zione deI modello teorico, la quale ci indi-ca se il costrutto di interesse è rilevanteper la performance. Esistono vari metodiper verificare la validità di costrutto e quidi seguito verranno considerati i più utiliz-zati.

SdS/

Scuo

la d

ello

Spo

rt A

nno

XXVI

II n.

81

1144

Uno dei metodi più diffusi per esaminare la validità di costrutto è quellodi confrontare il risultato di un test tra gruppi che si suppone differirenel costrutto in questione. Un esempio tipico, riportato anche nei libri ditesto (Thomas, Nelson 2001), è quello di un ipotetico nuovo test permisurare la capacità anaerobica. Partendo dall’assunto che i velocistisiano più anaerobici dei mezzofondisti, posso confrontare i risultati neltest dei velocisti con i mezzofondisti. Se il risultato nel test è più altonegli sprinter posso dedurre che effettivamente il test misuri le capacitàanaerobiche. Tornando al calcio, è tipico confrontare gruppi di livellicompetitivi diversi per verificare se la capacità fisica valutata sia un pre-requisito per poter competere a più alto livello. Ad esempio, posso effet-tuare un test su calciatori di Serie A e confrontare il risultato con quellodi test effettuati su giocatori di categorie inferiori come ad esempio laSerie B o la Serie C. Se trovo differenze nel test posso ipotizzare che lacaratteristica valutata è importante per poter giocare ad alto livello.Questo metodo di validazione può però risultare influenzabile da fattorinon controllabili. Ricerche condotte con questo metodo (confronto tragruppi) vengono chiamati ex post facto, termine che indica la condizio-ne in cui si confrontano gruppi per i quali gli avvenimenti che hannodeterminato l’appartenenza sono già accaduti, e non sono controllabili(si dice che c’è poco controllo sulla variabile indipendente) (Ary et al.2006). In pratica quando si mettono a confronto giocatori di Serie A congiocatori di Serie B non sono noti quali siano gli avvenimenti che hannoportato i giocatori a militare in quelle categorie, e pertanto non risultapossibile definire quali fattori possano avere influenzato le caratteristi-che del gruppo che si sta studiando. Negli studi in cui si confrontanogruppi (definiti studi cross-sectional) ci sono altri fattori che possonoinfluenzare il risultato come le abitudini e la quantità dell’allenamento.Prendiamo ad esempio il caso nel quale si voglia confrontare il risultatodei test tra una squadra di Serie A e una di Serie C. Mettiamo in questocaso che il preparatore atletico della squadra di serie A essendo convintoche i lavori di forza siano importanti ponga particolare enfasi allo svilup-po di questa caratteristica dedicandovi quindi molto tempo.Diversamente Il preparatore della squadra di Serie C essendo invece con-vinto che siano più importanti gli allenamenti aerobici svolgerà unagrande mole di allenamento per lo sviluppo di questa caratteristica. Datele premesse risulta assai probabile che nel caso vengano effettuati deitest di forza e per la fitness aerobica sui giocatori delle due squadre i

giocatori di Serie A risultino avere livelli di forza più elevata con livellipossibilmente inferiori o uguali nel comparto aerobico. Seguendo il para-digma della validazione di costrutto secondo la tecnica della differenzatra gruppi, potrei concludere che, per giocare ad alto livello nel calcio siaimportante avere alti livelli di forza. In realtà la differenza riflette sem-plicemente differenti abitudini di allenamento e diverse preferenze deirispettivi preparatori atletici. Lo stesso avviene se confronto amatori conprofessionisti, in quanto eventuali differenze nei test possono semplice-mente riflettere il fatto che i professionisti si allenano il doppio rispettoagli amatori e non a differenze nei prerequisiti fisici necessari per eccel-lere nello sport. Un altro esempio di verifica della validità di costruttocon questa tecnica è il confronto tra giocatori con ruoli differenti.L’assunto di questa tipologia di confronto risiede nel fatto che, data ladocumentata qualità e quantità di attività fisica svolta dai giocatori inpartita, sia possibile che questi siano anche caratterizzati da diversecapacità fisiche. In un recente studio questo ragionamento è stato appli-cato per determinare la validità del test a navetta con l’obiettivo di veri-ficare se questo riflettesse l’abilità di svolgere attività ad alta intensità inpartita (Impellizzeri et al. 2008a). Dato che i difensori centrali risultanotra coloro che corrono meno ad alta intensità nel corso di una partita, sisono confrontati i risultati nel test dei difensori centrali con quelli rileva-ti nei giocatori di altri ruoli. Come ipotizzato questi giocatori hannomostrato valori nel test più bassi rispetto agli altri ruoli. Lo stesso metodo(differenza nota tra gruppi) può essere applicato non a un test, ma adindicatori di costrutto che poi a loro volta vengono utilizzati come crite-rio per validare i test. Ad esempio, per verificare se la distanza percorsaad alta intensità in partita fosse un parametro di performance fisica vali-do, il gruppo di ricerca danese ha confrontato la distanza corsa ad altaintensità in partita da giocatori di Serie A italiani con la prima divisionedanese (di livello certamente più basso rispetto agli italiani) trovando chei nostri giocatori corrono di più ad alta intensità (Mohr et al. 2003). Daquesto si è concluso che l’alta intensità in partita è importante per potergiocare ad alto livello. Questo ha costituito il modello teorico su cui sisono successivamente basate le validazioni dei test sviluppati per dareindicazioni sull’abilità dei giocatori di correre ad alta intensità. Comeabbiamo detto, tuttavia, questo metodo (differenza nota tra gruppi) èinfluenzabile da molti fattori e di conseguenza non è, o non dovrebbeessere, l’unico modo per validare i test.

Tra i vari metodi per fornire evidenze di validità il più usato e metodolo-gicamente più forte è la validità convergente, attraverso la quale si vaalla ricerca di una relazione tra il test e l’indicatore del costrutto in que-stione. Nell’ambito del modello teorico del calcio abbiamo detto che siassume che la performance fisica sia importante per il determinismocompetitivo. In questo contesto l’attività ad alta intensità viene consi-derata un indicatore causale di performance fisica dato che tra questo el’impegno fisico di gioco esiste una proporzionalità diretta. L’attività adalta intensità, inoltre, sembra discriminare i giocatori di livello competi-tivo più alto (italiani vs danesi) rendendo questo parametro sia un vali-do indicatore del costrutto performance fisica della partita, sia unavariabile rilevante per la performance calcistica. Quindi se voglio valida-re un test sviluppato per misurare o riflettere la capacità del giocatoredi svolgere alta intensità in partita, dovrò utilizzare come criterio divalidazione l’alta intensità misurata in partita o in simulazioni, qualorasiano validate. Per determinare l’esistenza di evidenze convergenti divalidità vengono calcolate le cosiddette correlazioni (Pearson oSpearman). Ad esempio, per validare sia il test Yo Yo sia il test a navettasono state esaminate le correlazioni tra i risultati dei test e la distanzacoperta ad alta intensità misurata in partita. Questi due test, infatti,sono stati sviluppati (o validati) come indicatori della capacità del gio-catore di correre ad alta intensità. Le correlazioni significative, e supe-riori a 0,60 per il test a navetta e superiori a 0,70 per lo Yo Yo testhanno fornito evidenze convergenti sulla loro validità di costrutto

(Bangsbø et al. 2008; Krustrup et al. 2003; Rampinini et al. 2007a). Inpratica questi studi ci dicono che i due test sono validi indicatori dell’a-bilità del calciatori di svolgere attività ad alta intensità in partita, e che imeccanismi fisiologici coinvolti durante queste fasi della partita sonocoinvolti in qualche misura anche durante l’esecuzione del test. In lette-ratura, ci sono molti studi che dimostrano che le soglie lattacide (omeglio qualsiasi punto della curva del lattato) sono correlate con laperformance di endurance (dai 5000 m alla maratona) (Tokmakidis et al.1998). A differenza di quanto sopra, in questo caso si parla di validità dicriterio perché il confronto avviene tra il risultato del test e un criteriodi riferimento (gold standard) e non con un indicatore del costrutto. Ilriferimento in questione in questo caso è la performance stessa: tempoper correre una distanza. Purtroppo negli sport di squadra la perfor-mance non è così facilmente quantificabile, ed è per questo che si parladi costrutto e di conseguenza si applicano diversi metodi di validazione(o diverse definizioni). Questi metodi di validazione sono comunque unpassaggio obbligato e vi sono molte altre tecniche di validazione più omeno appropriate secondo lo scopo del test (ad esempio la validità pre-dittiva viene utilizzata quando un test viene sviluppato per predireun’altra misura). Inoltre, i vari tipi di validità spesso si sovrappongono enon sempre è possibile differenziarle. Tuttavia, anche se verificate e irisultati sono soddisfacenti, queste evidenze di validità risultano condi-zioni necessarie ma non sufficienti per validare un test. Come vedremooccorre verificare altri attributi come la ripetibilità e la responsività.

DIFFERENZA NOTA TRA GRUPPI (KNOWN-GROUP DIFFERENCE)

EVIDENZE CONVERGENTI (CONVERGENT EVIDENCE)

SdS/

Scuo

la d

ello

Spo

rt A

nno

XXVI

II n.

81

1155

Ripetibilità

Un altro attributo importante di un test è laripetibilità. Questo attributo dei test è moltocomplesso e ci vorrebbero interi articolidedicati per affrontarlo in modo completo.Ricordiamo tuttavia che un test ripetibilenon è necessariamente valido, ma un testnon ripetibile non può essere valido. Lariproducibilità nelle scienze dello sportviene classificata in due categorie(Atkinson, Nevill 1998): ripetibilità relativa eassoluta. In questo articolo per semplicitàfaremo riferiremo solo a quella assoluta(chiamata anche agreement) la quale risul-ta appropriata per test utilizzati in controllilongitudinali (cioè nel tempo). Quindi,anche se non specificato, il termine ripetibi-lità nel resto dell’articolo farà riferimentoalla ripetibilità assoluta. La ripetibilità indicala consistenza di un test, cioè la sua abilitànel dare risultati simili quando il test vieneripetuto nelle stesse condizioni e sullo stes-so soggetto. La ripetibilità deve essere con-siderata come strumento per valutare ilrumore della misura. Questo rumore risultain pratica determinato da variazioni casualie/o sistematiche prodotte da fattori intrin-seci ed estrinseci al test. Ci sono diversimetodi statistici per calcolare la ripetibilità.I più utilizzati e appropriati sono l’ErroreStandard della Misura (ESM) ed i limiti diconfidenza (95%) di Bland e Altman(Atkinson, Nevill 2000; Atkinson, Nevill1998; Hopkins 2000). Ricordiamo che lacosiddetta e popolare correlazione test-retest è ormai abbandonata e sconsigliatada praticamente tutti gli statistici.Parleremo qui di seguito solo dell’ESM.L’ESM andrebbe calcolato da un altro indicedi ripetibilità chiamato Intraclass Corre-lation Coefficient (ICC). Tuttavia, per sem-plicità spieghiamo un altro metodo di cal-colo dell’ESM, tecnicamente non ottimale,ma che fornisce un’indicazione grezza, mautile della ripetibilità del test, il quale puòessere calcolato facilmente usandoMicrosoft Excel. Assumiamo di avere deigiocatori, e di sottoporli per due volte allostesso test a distanza di due giorni, avendocura di effettuarli alla stessa ora del giornoe con i giocatori non affaticati da allena-menti intensi svolti nei giorni precedenti itest (per evitare che la fatica residua influi-sca sui risultati). La tabella 2 mostra degli ipotetici risultatiper cinque soggetti che effettuano duevolte un test di salto: test 1 e 2. In unacolonna calcoliamo la differenza tra il test 2e 1 (test 2 – test 1). Si calcola poi la devia-zione standard delle differenze e la si divideper la radice quadrata di 2 (ESM=SD/2).Dall’esempio in tabella 2 risulta che l’ESM èdi 0,6 cm. Per comodità si esprime di solitola ripetibilità in percentuale. Nel nostro caso

la media totale dei salti (test 1 e test 2) è 44,8 cm. L’ESM diventa quindi 1,3% (0,6/44,8 x100). In genere con questa formula la ripe-tibilità risulta leggermente migliore di quel-la reale, perché la formula non tiene contodi un eventuale errore sistematico. In ognicaso per vedere se c’è un errore sistematicoè sufficiente applicare il t-test. Anche il t-test è contenuto nelle funzioni di Excel o inaltri software per computer Mac, comeNumbers. Sempre nel nostro esempio leprobabilità che la differenza sia casuale enon reale è di circa 50%; quindi non c’èerrore sistematico.La presenza di un errore sistematico costi-tuisce un problema e una volta che se neverifica la presenza (vedi sopra) è benecapirne l’origine, così da ripetere lo studiocontrollando i fattori che hanno potenzial-mente causato l’errore sistematico. I motivipiù frequenti sono l’errata calibrazione otaratura degli strumenti, la presenza di fati-ca temporanea, ma soprattutto l’effettofamiliarizzazione (o effetto apprendimen-to). Quest’ultimo si verifica soprattuttoquando i soggetti non conoscono il test ealla seconda esecuzione migliorano laperformance attraverso l’ottimizzazione delgesto tecnico. Per capire quanto sia perico-loso un errore sistematico provate a pensa-re di aver effettuato un test di ingresso, unallenamento che in realtà è inefficace a cuifa seguito la somministrazione di un test diuscita, nel quale i soggetti sono miglioratisemplicemente per l’effetto apprendimentoe non perché siano migliorate realmente leloro capacità fisiche. In un caso simile l’alle-natore concluderebbe erroneamente che ilsuo allenamento è efficace.

Dalla ripetibilità si può calcolare qual è ilcambiamento minimo a livello individualeche può essere interpretato come reale enon dovuto all’errore della misura. In gene-re un cambiamento individuale pari all’ESMindica che la probabilità che il test sia cam-biato è di circa l’80%, cioè solo una possibi-lità su cinque che il cambiamento sia dovu-to all’errore della misura. La probabilità dicambiamento dovrebbe essere superioreall’80% (ideale 95%) prima di interpretarecon una certa confidenza che il test siamigliorato realmente. Al di sotto del 75% ilrischio di errore è solitamente consideratonon accettabile.Detto questo, qual è il valore di ripetibilitàaccettabile? Per quanto si tenda a ritenereche la ripetibilità sia accettabile quandol’ESM ha valori bassi (in genere inferiore a5-10%), questo approccio è pericoloso estatisticamente non corretto. La ripetibilitàè accettabile solo in base alla sua responsi-vità (responsiveness) o alla sensitività deltest ai cambiamenti.

Responsività (Responsiveness)

Se si interpreta la ripetibilità come il rumoredi una misura, questo rumore sarà accetta-bile solo se più basso del segnale, dove ilsegnale è il cambiamento che un test ha inconseguenza ad un intervento (nutrizionale,allenamento, etc.). Per fare un esempio sup-poniamo di aver inventato un nuovo test diagilità la cui ripetibilità è del 3%. A primavista la ripetibilità sembrerebbe ottima, maipotizziamo di aver verificato che un allena-mento di due mesi per lo sviluppo dell’agi-lità determini miglioramenti del test pari al

A B C D

1 Test 1 Test 2 Diff. T2 – T1 < Formula in Excel

2 Soggetto 1 40,5 41,5 1,0 =C2-B2

3 Soggetto 2 45,6 44,5 -1,1 =C3-B3

4 Soggetto 3 38,2 39,1 0,9 =C4-B4

5 Soggetto 4 50,4 50,6 0,2 =C5-B5

6 Soggetto 5 48,5 48,9 0,4 =C6-B6

7 Media 44,6 44,9 0,3 =MEDIA(E2:E7)

8 DS 5,2 4,8 0,8 =DEV.ST(E2:E7)

9 ESM= 0,6 =D8/RADQ(2)

Sistematicità errore (t test) 0,49 =TEST.T(B2:B6,C2:C6,2,1)

NB: Ai fini esemplificativi abbiamo presentato solo cinque soggetti. Per verificare la ripetibilità occorrono da venti a trenta soggetti. Tra dieci e venti i risultati sono meno generalizzabili. Sotto i dieci risultati non sono attendibili.

Tabella 2 – Esempio di come calcolare la ripetibilità (Errore standard della misura: ESM) utiliz-zando le formule di Microsoft Excel su due ipotetiche sessioni di test di salto (cm)

SdS/

Scuo

la d

ello

Spo

rt A

nno

XXVI

II n.

81

1166

2%. Dato che in questo caso il rumore (ESM)risulta superiore al segnale (2%), si dice cheil test è troppo rumoroso e quindi poco sen-sibile ai cambiamenti a livello individuale.Questa proprietà del test è chiamata respon-sività interna, ovvero l’abilità del test di rile-vare cambiamenti. Semplificando si puòindicare la responsività interna come il rap-porto rumore : segnale. Questo modo diinterpretare la ripetibilità di un test è moltoimportante. Per anni si è ritenuto che i testad esaurimento non fossero abbastanzaripetibili da poter essere utilizzati, ad esem-pio, nel ciclismo. Infatti la loro ripetibilitàrisulta oscillare tra il 20-25% per test dilunga durata (vicini o superiori all’ora). Alcontrario si riteneva che i cosiddetti timetrial (prove a tempo o distanza fissa) fosseropiù appropriati avendo una ripetibilità infe-riore al 3-5%. Tuttavia è stato dimostrato che i cambia-menti del test di esaurimento a seguito diintervento sono superiori al 30% mentre itime trial cambiano solo del 3-5%. Essendoil rapporto rumore : segnale simile, si evinceche entrambe i test risultano utilizzabili eche, al contrario di quanto prima ritenuto, il20-25% di ripetibilità rilevato nel test adesaurimento risulta quindi accettabile.Ovviamente tanto più un test è ripetibiletanto più sarà in grado di rilevare piccolicambiamenti. Tuttavia è necessario ancheche il test sia in grado di cambiare in conse-

guenza ad un intervento, cioè è necessarioche sia sensibile. Ricordiamo che quantodetto finora si applica all’interpretazione deirisultati dei test a livello individuale, e nonsul gruppo. In quest’ultimo caso il fatto cheil cambiamento sia reale o no è facilmentecalcolabile con i tradizionali metodi statistici. Un altro elemento importante, molto tra-scurato nella validazione dei test, è la cosid-detta responsività esterna, anche chiamatavalidità longitudinale. Questo attributo ciindica l’abilità di un test di riflettere cambia-menti nel costrutto o nel criterio di riferi-mento. Se un preparatore rileva un miglio-ramento nello Yo Yo Test sui suoi giocatori,ma questo cambiamento non riflette unpotenziale cambiamento nell’abilità del gio-catore di svolgere alta intensità in partita,quale utilità avrebbe il test? Probabilmentepoca. È tuttavia sorprendente constatare inquanti pochi test sia stata verificata laresponsività esterna. I test vengono di solitousati per verificare l’effetto dell’allenamentosulle determinanti della prestazione. In pra-tica si misurano i cambiamenti in quei fat-tori fisiologici che si suppone possanoinfluenzare la prestazione. Ci si aspettaquindi che i miglioramenti delle caratteristi-che misurate con i test influenzino in modopositivo la prestazione: in altre parole ci siaspetta che la prestazione migliori. Dato cheè questo ciò che giustamente si aspettano ipreparatori ed allenatori, ne consegue che

questa abilità del test debba venire verificatae che questo attributo sia essenziale neldeterminare la validità di un test per con-trolli nel tempo.

Interpretabilità

Per poter utilizzare un test occorre essere ingrado di interpretarne i risultati. Come sipuò già intuire per interpretare correttamen-te i risultati di un test occorre che gli attri-buti finora esposti siano stati esaminati. Ilprimo elemento da considerare è la ripetibi-lità. Questo ci permette di capire se i cam-biamento nel test che rileviamo sul nostroatleta siano dovuti all’errore o che ci sia unaaccettabile probabilità che il cambiamentosia reale. In una revisione della letteraturascritta dal famoso statistico Will Hopkins(Hopkins et al. 2001) sono presentati i dati diripetibilità dei test più comuni utilizzati nellosport, e per questo ne suggeriamo la lettura.Questi dati di ripetibilità possono inoltreessere confrontati con i risultati degli studiin cui i test sono stati usati per verificare ilrisultato di particolari interventi. Se il valoredi ripetibilità è inferiore al cambiamento rile-vabile a seguito di un allenamento, o qual-siasi altro intervento (cioè rumore < segna-le), il test possiede abbastanza sensitività perpoter essere utilizzato. Per il test a navetta,ad esempio, i cambiamenti che si rilevanosulla squadra, per quello che riguarda il

SdS/

Scuo

la d

ello

Spo

rt A

nno

XXVI

II n.

81

1177

tempo medio impiegato per correre i 6sprint, è dell’ordine del 3% a fronte di unaripetibilità dell’1% (Bravo et al. 2007;Impellizzeri et al. 2008a). Data la sua portata applicativa vale la penadi introdurre il concetto di cambiamentominimo importante (o cambiamento signifi-cativo da un punto di vista pratico). Questosi può tradurre con la domanda: qual è ilcambiamento minimo che può essere consi-derato significativo non da un punto di vistastatistico, ma pratico/fisiologico? Nell’ambito dello sport il modo migliore perdeterminare questo cambiamento minimosarebbe attraverso la responsività esterna,cioè verificando qual è il cambiamento neltest che si traduce in un’accettabile probabi-lità di un cambiamento del costrutto omisura di riferimento. In altre parole, qualedeve essere il cambiamento minimo nello YoYo o nel test a navetta perché questo si tra-duca in un cambiamento dell’abilità di effet-tuare attività ad alta intensità? Non semprequesto è calcolabile in relazione alla presta-zione (anche se è il metodo migliore) e diconseguenza Will Hopkins ha proposto unaltro metodo, basato sulla probabilità cheun cambiamento determini una variazioneall’interno del gruppo (Hopkins et al. 1999).In altre parole, è il cambiamento minimoche consente a un atleta di diventare

migliore o peggiore rispetto ad un altro. Perquanto riguarda il test a navetta questocambiamento è dello 0,5% (Impellizzeri etal. 2008a). Essendo la ripetibilità intornoall’1% ne consegue che il test è poco sensi-bile a cambiamenti individuali piccoli, maimportanti. Per far ulteriormente capirequanto sia importante conoscere la ripetibi-lità di un test, e i cambiamenti che questodeve essere in grado di identificare faccia-mo ancora riferimento al test a navetta peril quale è risultato che il decremento neltempo di percorrenza degli sprint è il para-metro meno ripetibile (circa 30%) e menosensibile. Pur essendo il decremento il para-metro più utilizzato dai preparatori nell’ana-lisi dei risultati del test a navetta, questoparametro non dovrebbe essere utilizzato, ocome minimo dovrebbe essere interpretatocon cautela. La comunità scientifica inter-nazionale ha più volte confermato la pocaripetibilità del decremento della prestazionedi sprint (chiamato anche impropriamenteindice di fatica) consigliando di conseguen-za l’utilizzo di altri parametri per la valuta-zione dell’abilità di ripetere sprint dei sog-getti (Oliver 2009). Per consentire una migliore interpretabi-lità, infine, è utile avere dati di riferimentocosì da conoscere come il nostro giocatoresi posiziona all’interno della popolazione.

Fattibilità

Un test deve essere fattibile e le risorse,così come l’impegno richiesto, devonoessere commisurate all’importanza delleinformazioni che ne derivano. In letteratu-ra esiste un test (LIST) che simula 90 min digioco prevedendo, nella sua parte finale,una fase che fornisce informazioni circa lacapacità del giocatore di effettuare sforziintermittenti fino ad esaurimento (Nicholaset al. 2000). Questo test è stato sviluppatoper effettuare simulazioni di gioco a scopodi studio, ma è altresì vero che nessuno nevieterebbe il suo uso per la valutazionefunzionale di un giocatore. Tuttavia, èintuitivo capire che un test simile cherichiede ai giocatori (uno alla volta) dieffettuare 90 min di simulazione è di diffi-cile realizzazione. Un test simile è irrealiz-zabile in una situazione reale e, quindi, nonè proponibile per la valutazione di routineanche se fosse il più valido test a disposi-zione. Uno dei motivi di successo del testMognoni, ad esempio, è la sua relativasemplicità e il fatto che non è richiesto unosforzo massimale rendendolo ben accettodai giocatori (Impellizzeri et al. 2004a;Impellizzeri et al. 2005; Sirtori et al. 1993).Con una buona organizzazione in un’ora sipossono valutare almeno venti giocatori.

Step Attributo Yo Yo Intermittent Recovery Test Test a Navetta di Capanna

1 Modello teorico La performance fisica è importante per La performance fisica è importante per la prestazione la prestazione calcistica. L’attività ad alta intensità calcistica. L’attività ad alta intensità è il miglior è il miglior indicatore di performance fisica in partita indicatore di performance fisica in partita. L’attività ad alta intensità contiene la distanza percorsa durante le fasi di sprint ripetuti

2 Validità Il risultato dello Yo Yo test è correlato con l’attività Il risultato nel test navetta è correlato con la distanza ad alta intensità (r>0,70), è differente a secondo percorsa ad alta intensità (0,60<r<0,65) e differenzia dei ruoli, è maggiore nei giocatori di più alto livello, tra ruoli. Distingue tra professionisti ed amatori, ma varia maggiormente durante il campionato non tra professionisti di livello competitivo differente (ad esempio Serie A o Premier League rispetto a Serie C)

3 Ripetibilità La ripetibilità (coefficiente di variazione) è tra il 5 e 8% La ripetibilità (errore standard della misura) del tempo medio impiegato per effettuare i 6 sprint è di 0,8-0,9%, mentre per il miglior sprint è 0,9-1,2%. La ripetibilità del decremento è di circa 30%

4 Responsività Responsività interna: i cambiamenti a seguito di Responsività interna: i cambiamenti in pre-campionato intervento (allenamento) vanno in genere dal 12 al 50%, e a seguito di specifici allenamenti sono di circa il 3%, indicando un rapporto rumore: segnale di 1:2 ad 1:5. indicando un rapporto rumore : segnale di 1:3. Responsività esterna: non calcolata sui calciatori. Responsività esterna: non calcolata. Negli arbitri la correlazione tra i cambiamenti nel test ed i cambiamenti di alta intensità misurata in partita è di r=0,77

5 Interpretabilità Poca sensibilità a cambiamenti piccoli, ma importanti Poca sensibilità a cambiamenti piccoli, ma importanti (1%) a livello individuale. Dati di riferimento (0,5%) a livello individuale. Non ci sono dati di riferimento (Bangsbo, Sport Medicine, 2008) (i risultati sono molto dipendenti dalla modalità di misura (manuale, fotocellule) e superficie del test

Tabella 3 – Attributi che devono essere verificati durante il processo di validazione di un test ed esempio di verifica per i test Yo Yo e a navetta

SdS/

Scuo

la d

ello

Spo

rt A

nno

XXVI

II n.

81

1188

Anche lo Yo-Yo Intermittent Recovery Testpossiede una buona fattibilità. Infatti conesso è possibile valutare contemporanea-mente molti giocatori risparmiando cosìuna considerevole quantità di tempo.

Stato dell’arte sui test nel calcio

Nel calcio non ci sono test sui quali sianostati verificati tutti gli attributi e lo stessovale per il modello teorico che non è anco-ra ben sviluppato e validato. Solo due testpresentano qualche evidenza di validità(tabella 3) di cui solo uno forte: il test anavetta di Capanna e lo Yo Yo IntermittentRecovery Test di Bangsbø (Bangsbø et al.2008; Castagna et al. 2006; Impellizzeri etal. 2008a; Krustrup et al. 2003; Krustrup etal. 2006; Rampinini et al. 2007a). Il test anavetta di Capanna ha qualche evidenza divalidità essendo correlato con l’attività adalta intensità e la distanza coperta sprin-tando in partita. Inoltre i suoi valori sisono dimostrati ruolo dipendenti e, quindi,in grado di riflettere le diverse richiestefisiche di ciascun comparto di gioco. Laresponsività interna del test di Capanna èadeguata a livello di gruppo, tuttavia alivello individuale, in relazione a cambia-menti importanti (che sono dell’ordine del0,5% per il tempo medio) questa risultamoderata. Questo sta ad indicare che iltest di Capanna risulta poco sensibile apiccoli, ma pur importanti cambiamenti alivello individuale. Purtroppo la responsiti-vità esterna del test di Capanna non èstata mai esaminata. Quindi questo test anavetta presenta qualche evidenza di vali-dità, ma andrebbe usato ed interpretatocon cautela fino a che non se ne esamini-no tutte le proprietà.Lo Yo-Yo Intermittent Recovery Test diBangsbø è il test che, piaccia o no, sicura-mente presenta le maggiori evidenze divalidità in quanto risulta correlato all’atti-vità svolta ad alta intensità in partita, laprestazione è differente secondo i ruoli,possiede una ottima ripetibilità e unabuona responsività interna (segnale > 3volte il rumore), ed è ben interpretabiledato che ormai esistono molti dati in let-teratura essendo il test più utilizzato almondo. Anche per lo Yo-Yo IntermittentRecovery Test, però, non è stata verificatala responsività esterna nei giocatori.Tuttavia questa caratteristica è stata cal-colata negli arbitri mostrando buone cor-relazioni (r = 0,77) tra i cambiamenti neltest e le variazioni nell’alta intensità effet-tuata in partita dopo allenamento inter-mittente (Bangsbø et al. 2008). Questo faben sperare in una possibile e auspicabileverifica sui giocatori. Ma se i cambiamentinel test non dovessero risultare correlaticon i cambiamenti dell’abilità dei giocatori

di correre ad alta intensità la sua validitàne risulterebbe automaticamente compro-messa. Come per il test a navetta la sensi-bilità a cambiamenti piccoli ma importan-ti, sembra essere scarsa, dato che il cam-biamento minimo importante calcolatocon il metodo di Hopkins (Hopkins et al.1999) e usando i dati presentati in unarecente review da Bangsbø et al. (2008) èdi circa 1%. Quindi ben al di sotto dellaripetibilità del test (5-8%).Alla luce di quanto fin qui illustrato ilquadro potrebbe sembrare troppo disfat-tista, ma di fatto rispondente alla realtàdelle cose. Purtroppo si assiste nel calcioa un inconsapevole proliferare di test enessuno di questi test risulta validato nésu riviste scientifiche internazionali né suriviste nazionali, anche divulgative. Nelmigliore dei casi si assiste alla proposta ditest la cui validazione si ferma moltospesso alle sole evidenze logiche (facevalidity) e solamente in qualche raro casosi spinge fino all’analisi delle differenzetra gruppi di livello competitivo diverso.Per evitare le problematiche sopra espostesarebbe di sicura efficacia rinunciareall’introduzione di nuovi test per meglioconcentrarsi sulla determinazione dellavalidità dei test già esistenti. E quindi svi-luppare nuovi test solo qualora ve ne siaveramente la necessità. Nello sviluppo dinuovi test è comunque necessario seguirei criteri scientifici brevemente descritti inquesto articolo.

Conclusione

In questo articolo abbiamo tentato di for-nire i principi che stanno alla base dellosviluppo e della validazione dei test.Queste basi teoriche non si applicano soloai test propriamente detti, ma in generalealle misure come, ad esempio, nella quan-tificazione della percezione dello sforzoper la determinazione del carico di allena-mento. Nello studio che ha proposto questometodo nel calcio, che risale a cinque annifa, la cosiddetta session-RPE è stata vali-data verificando la validità di costruttoconvergente, cioè esaminando le correla-zioni tra metodi di quantificazione delcarico di allenamento basati su frequenzacardiaca e quello basato sulla scala di Borg0-10 (Impellizzeri et al. 2004b). La fre-quenza cardiaca fu usata come indicatoredi intensità della sessione di allenamento,dove quest’ultima costituiva il costruttoche si voleva misurare. In seguito è statafatta la stessa cosa utilizzando la combi-nazione frequenza cardiaca e lattato ema-tico come indicatori del costrutto (Couttset al. 2007). Questo metodo si sta oggidiffondendo, ma sembra che spesso venga

applicato male, ad esempio sostituendo omodificando le scale di percezione rispettoa quanto proposto (Impellizzeri et al.2004b). Anche in questo caso, il metodova applicato così come è stato validato enon apportando variazioni personali. Aquesto argomento verrà probabilmentededicato un articolo a parte data la diffu-sione che sta avendo l’uso della percezio-ne dello sforzo, purtroppo concomitantead una superficiale applicazione del meto-do, ad una scarsa conoscenza di come siusano le scale di percezione, e alla lucedegli studi ancora in corso che potrebberomodificare la metodologia. La complessità dell’argomento (validazio-ne dei test e delle misure) è tale che nonè possibile esaurire in modo soddisfacen-te tutti gli aspetti in un solo articolo. Adesempio non abbiamo affrontato il temadei test utilizzati per ricavare i ritmi diallenamento, invece che per monitorare icambiamenti. Anche in questo caso,ovviamente, il test andrebbe validato perquesta finalità specifica. Come abbiamoaccennato, infatti, un test può esserevalido per uno scopo e non per un altro.Non abbiamo neanche discusso la validitàdei test predittivi come il test di Leger,erroneamente utilizzato per stimare ilmassimo consumo di ossigeno a livelloindividuale (la stima è appena accettabilea livello di gruppo ma in nessun modo alivello individuale). Il messaggio di questoarticolo è, quindi, di cautela sia nello svi-luppo sia nell’utilizzo di test di cui nonvengono fornite le prove di validità. Il let-tore si sarà anche reso conto che l’ambitodella valutazione funzionale e dei test ècomplesso, ma regolamentato da rigidipercorsi scientifici. Questo non significache gli altri popolari test da campo, quinon citati, non siano validi in assoluto,ma semplicemente che per lo meno laloro validità non è stata ancora dimostra-ta. Fino a prova contraria, per quantoautorevole, non ci si può “fidare” sempli-cemente della parola dell’ideatore. Comediceva i l famoso Wil l iam EdwardsDeming: “in Dio crediamo, tutti gli altri cimostrino i dati!”

La bibliografia del presente articolo può essereconsultata sul sito www.calzetti-mariucci.it e sulsito della Scuola dello Sport http://scuoladello-sport.coni.it

Indirizzo dell’Autore:[email protected]

VALUTAZIONE DELL ALLENAMENTO - preparazioneatletica.it · del gioco del calcio, si espongono le...

Documents

Transcript of VALUTAZIONE DELL ALLENAMENTO - preparazioneatletica.it · del gioco del calcio, si espongono le...