Misure e errori di misura - llp.fisica.unina.itllp.fisica.unina.it/attachments/article/120/Misure e...
Transcript of Misure e errori di misura - llp.fisica.unina.itllp.fisica.unina.it/attachments/article/120/Misure e...
Misure e errori di misura A beneficio dei lettori descriviamo brevemente il contesto nel quale questo documento è stato prodotto. Il contesto generale è quello di un percorso di formazione/autoformazione che ha coinvolto un grande gruppo di insegnanti di una rete territoriale di scuole di diversi gradi, dalla scuola dell’infanzia alla secondaria di secondo grado, e ricercatori in didattica della fisica. Il lavoro si è sviluppato secondo il seguente schema: a partire da attività di laboratorio svolte nel gruppo adulto e presentate dai ricercatori come proposte stimolo, gli insegnanti della rete hanno scelto un tema generale (nella fattispecie quello del misurare) all’interno del quale hanno poi progettato (singolarmente o in gruppi) autonomamente attività da sperimentare con gli alunni. Le attività sono state documentate e riportate in seno al gruppo per una ulteriore discussione e per alimentare un processo in cui riflessione collettiva e azioni in classe si alternassero ciclicamente. Questo documento raccoglie commenti e approfondimenti relativi a esperienze condivise in alcune sessioni di lavoro del gruppo. Nel testo si fa riferimento ad alcune di queste esperienze, che in questa versione del documento sono state brevemente descritte quando chiamate in causa.
Sensibilità, precisione e accuratezza Partiamo da una delle esperienze di misura che vi abbiamo proposto: si trattava di confrontare le misure del volume di una stessa quantità d’acqua operate con quattro diversi cilindri graduati. Il gruppo che si è cimentato con questa attività ha riassunto i risultati ottenuti nella tabella che riportiamo in foto qui sotto
Le diverse caratteristiche dei cilindri sono chiare dai dati presentati in questa tabella: diversi diametri, diverse altezze, diverse “misure della tacca”. Cominciamo proprio dalla “misura della tacca”, che in realtà è più opportuno chiamare ampiezza della divisione: si tratta della distanza tra due successivi segni nella scala graduata del cilindro espressa in unità di volume1. Questo primo dato è legato alla sensibilità dei nostri strumenti di misura, ossia alla più piccola variazione della grandezza misurata che essi ci permettono di osservare. Più precisamente, potremmo definire la sensibilità di uno strumento come l’inverso dell’ampiezza della divisione2: più piccola è questa ampiezza, maggiore è la sensibilità dello strumento. Se in uno dei cilindri usati nella nostra
1 La distanza tra le tacche andrebbe espressa in unità di lunghezza, ma il cilindro è già tarato per trasdurre lunghezze in volumi: la sezione è fissata e quindi l’altezza raggiunta dal pelo dell’acqua nel cilindro è proporzionale al volume dell’acqua stessa. 2 Questa definizione non è formalmente corretta, ma per il momento la assumiamo come tale riservandoci di specificarla meglio nel seguito.
sessione di lavoro avessimo aggiunto un ml di acqua non saremmo stati in grado di misurare la variazione di volume certamente avvenuta. Usando il linguaggio naturale potrebbe sembrare più appropriato chiamare questa caratteristica dello strumento precisione. Ma nel linguaggio scientifico questo termine sta a indicare un’altra caratteristica dello strumento e in particolare quella di offrire garanzie sulla coerenza dei risultati di misure ripetute della stessa quantità. Un cilindro preciso è quindi quello che garantisce che, se misuriamo il volume di una stessa quantità di acqua più volte, il risultato dell’operazione sarà sempre sostanzialmente lo stesso. Uno strumento poco sensibile è quindi, usando questa terminologia, solitamente molto preciso: pensate a un cilindro graduato con un’ampiezza della divisione di 100 ml in cui versiamo una quantità d’acqua abbastanza grande, diciamo mezzo litro; sarà molto difficile che, ripetendo l’operazione più volte, ci capiti di stimare che l’altezza raggiunta dal liquido nel cilindro sia una volta più vicina alla tacca che indica 400 ml, un’altra volta più vicina a 500 ml e un’altra ancora più vicina a 600 ml. D’altra parte uno strumento di questo genere sarebbe, per ritrovare un po’ l’accordo tra linguaggio scientifico e naturale, poco accurato nel senso che pur fornendo sempre lo stesso risultato della misura non sarebbe, per esempio, in grado di apprezzare in maniera chiara la differenza tra il volume di una quantità d’acqua di poco superiore al mezzo litro e una di poco inferiore al mezzo litro, anche se questa differenza fosse dell’ordine di varie decine di millilitri. Insomma, uno strumento poco sensibile sarà tipicamente poco accurato ma molto preciso. E, ragionando allo stesso modo, uno strumento molto sensibile sarà poco preciso ma in generale molto più accurato. In realtà nel progettare uno strumento di misura si cerca sempre di trovare una ragionevole ottimizzazione di sensibilità, precisione e accuratezza in relazione agli scopi per i quali quello strumento può tornare utile. Se voglio misurare il volume d’acqua all’interno di una cisterna per uso domestico, per esempio, progetterò un misuratore di volume che abbia bassa sensibilità (non mi interessa sapere se nel serbatoio ci sono 100 litri d’acqua o se invece ce ne sono 100 litri e 10 ml). Se invece voglio misurare volumi di liquidi da miscelare in una sostanza da usare in ambito farmacologico avrò bisogno di un misuratore di volume molto molto sensibile e anche ragionevolmente preciso. A proposito di quest’ultimo esempio, è interessante sottolineare come sia nei fatti impossibile progettare uno strumento che sia al contempo molto sensibile e molto preciso: l’alta sensibilità richiede sempre l’uso di accorgimenti tecnologici che vanno a scapito della precisione. Proviamo a capire meglio questa cosa con un esempio diverso. Pensiamo alle bilance da cucina analogiche a quadrante circolare che abbiamo usato nelle nostre attività: in principio ingrandendo il quadrante e aumentando la lunghezza della lancetta potremmo ottenere uno strumento sempre più sensibile perché, a parità di angolo coperto dalla lancetta, aumenterebbe la lunghezza dell’arco di circonferenza su cui si muove la sua punta e questo ci permetterebbe di aggiungere sempre più tacche intermedie sulla scala graduata e di diminuire quindi il valore dell’ampiezza della divisione; questo procedimento potrebbe andare avanti all’infinito, ma allungando la lancetta diventerebbe sempre più complicato progettare e realizzare le parti meccaniche che guidano il suo movimento in modo da garantire che essa copra sempre lo stesso angolo a parità di sollecitazione. Esistono in realtà molte tecniche comuni per aumentare la sensibilità di uno strumento senza pregiudicarne troppo la precisione, ma non ci sembra opportuno affrontare anche questo argomento in questa sede3. Per capire invece come si possa ottenere una ragionevole ottimizzazione della sensibilità e della precisione di uno strumento di misura, cominciamo col dare una definizione un po’ più precisa,
3 Se volete farvi un’idea di quali possano essere queste tecniche, provate, a titolo d’esempio, a cercare del materiale che spieghi come funziona un calibro cosiddetto ventesimale, che è quell’oggetto, con un regolo e una sorta di beccuccio con una parte fissa e una mobile, che si vede a volte nelle borse degli attrezzi dei meccanici e di altri artigiani e che serve a misurare lunghezze piuttosto piccole con sensibilità e precisione maggiori di quelle di un comune regolo con ampiezza della divisione di 1 mm.
scusate il gioco di parole, di questa grandezza. Riferiamoci ancora a una bilancia analogica a quadrante circolare. Se appoggiamo più volte uno stesso oggetto sulla bilancia, pur facendo attenzione che ogni volta la lancetta riparta dallo zero, ci aspettiamo che la lancetta della bilancia non raggiunga sempre esattamente la stessa posizione sul quadrante. Ovviamente si tratta di differenze di posizione piccole, ma che sono comunque percepibili. Possiamo immaginare che queste diverse posizioni della lancetta coprano un certo intervallo di valori di peso. Ebbene, si usa definire la precisione della bilancia (ma è facile generalizzare questa definizione a uno strumento qualsiasi) dicendo che essa è inversamente proporzionale all’ampiezza di questo intervallo. A questo punto è chiaro come si possa realizzare l’ottimizzazione di uno strumento, nella fattispecie la bilancia: basta fare in modo che l’intervallo che definisce la precisione dello strumento sia confrontabile con l’ampiezza della divisione. Se infatti l’intervallo fosse molto più piccolo dell’ampiezza della divisione ci troveremmo nel caso già descritto di uno strumento di grandissima precisione ma con una sensibilità molto bassa. Al contrario, se l’ampiezza dell’intervallo fosse molto più grande dell’ampiezza della divisione, i risultati di misure ripetute dello stesso valore di una grandezza sarebbero molto differenti tra loro, rendendo lo strumento difficilmente utilizzabile. Ribadiamo quindi che nel progettare uno strumento di misura bisogna trovare una giusta combinazione di queste sue caratteristiche fondamentali che sia ragionevole in base all’ordine di grandezza delle quantità che dobbiamo misurare. In questo discorso entra anche la portata dello strumento, ossia la massima quantità che questo è in grado di misurare. La sensibilità dello strumento sarà certamente legata alla portata dello strumento (pensate all’esempio della cisterna) e, a parità di portata, potrò ottenere strumenti di diversa sensibilità e di diversa precisione grazie al processo di ottimizzazione descritto sopra che può essere messo in atto durante la fase di taratura dello strumento, oltre che nella sua progettazione. Accuratezza di una misura, errori assoluti e relativi Torniamo ora all’idea di accuratezza e proviamo a cercare di stabilire un criterio che possa dirci se una misura è accurata o meno. In termini piuttosto astratti possiamo definire l’accuratezza come la differenza tra la stima di una grandezza che riusciamo ad ottenere e il suo valore atteso (o valore vero), ossia il valore di quella grandezza che, su base teorica o prendendo a riferimento un’altra operazione di misura, ci aspettiamo ragionevolmente come risultato della nostra operazione di misura. Analogamente, l’accuratezza di uno strumento sarà la differenza tra la miglior stima del valore di una grandezza che riusciamo a dare eseguendo con lo strumento un gran numero di misure4 e il valore atteso. Il concetto di valore atteso può sembrare astratto, ma diventa molto più comprensibile se lo contestualizziamo. Per esempio, facendo riferimento all’attività della misura della lunghezza degli spaghetti5, è ragionevole supporre che la macchina che taglia gli spaghetti sia progettata in modo da produrre spaghetti di una certa lunghezza ben definita. Anzi questa lunghezza di riferimento sarà sicuramente utilizzata nei calcoli ingegneristici necessari alla progettazione delle sue parti meccaniche. D’altra parte, è chiaro anche che la macchina in opera ha un suo grado di accuratezza nel riprodurre il valore atteso della lunghezza
4 Sull’opportunità di operare più volte la misura di una stessa grandezza con lo stesso strumento torneremo più avanti. Pensate però alla definizione di precisione di uno strumento che abbiamo appena dato e al fatto che uno strumento non è in generale infinitamente preciso. 5 Si trattava di estrarre circa 200 spaghetti da un’unica confezione, misurando la lunghezza di ciascuno con un righello (ampiezza della divisione di 1 mm) e riportando in una tabella le frequenze assolute delle diverse lunghezze misurate.
degli spaghetti e in sostanza la nostra operazione di misura aveva proprio lo scopo di valutare il grado di accuratezza di quella macchina. Se invece facessimo riferimento a un’ipotetica misura dell’accelerazione di gravità terrestre (potremmo realizzarla facendo cadere oggetti da una quota misurata e misurando il tempo di caduta, oppure misurando il periodo di oscillazione di un pendolo e in tanti altri modi), saremmo in un contesto in cui esistono misure di riferimento molto accurate (e certamente molto, ma molto, più accurate delle nostre) e allora lo scopo dell’operazione di misura potrebbe diventare quello di stimare l’accuratezza della nostra operazione di misura usando come valore atteso una stima dell’accelerazione di gravità ottenuta con strumenti a noi non accessibili. Ma come faremmo a stimare l’accuratezza della nostra operazione di misura? Mettiamo che il nostro esperimento consista nel lasciare cadere un oggetto pesante dal tetto di una palazzina alta 10 metri 6, misurando il tempo di caduta con un cronometro. Le leggi della fisica ci dicono che possiamo ottenere una stima dell’accelerazione di gravità dividendo il doppio della quota di caduta per il quadrato del tempo di caduta. Se stiamo usando il cronometro del nostro telefono cellulare, il nostro strumento di misura è tipicamente caratterizzato da una ampiezza della divisione7 pari a un centesimo di secondo. Immaginiamo che il risultato della nostra misura del tempo di caduta sia 1,46 secondi. Facciamo i calcoli: 1,46 secondi al quadrato fa circa 2,13 secondi quadri; 10 metri per 2 diviso 2,13 secondi quadri fa circa 9,39 metri al secondo quadro. Il valore di riferimento attualmente accettato dalla comunità scientifica internazionale per l’accelerazione di gravità terrestre g è di 9,80665 metri al secondo quadro8. E allora? Abbiamo fatto una misura accurata o no? Per rispondere a questa domanda potremmo far riferimento al buon senso: considerando gli strumenti di misura che abbiamo utilizzato tutto sommato non sembra così male. Ma se volessimo usare questa stima nei calcoli per la progettazione di un ponte o per il lancio in orbita di un satellite andremmo incontro a guai piuttosto seri. Ma abbiamo un modo oggettivo per valutare il grado di accuratezza di una misura? La risposta a questa domanda è sì: questo modo oggettivo passa per la valutazione degli errori intrinseci alla nostra misura. E allora lasciamo da parte l’accelerazione di gravità e proviamo a discutere degli errori di misura in relazione alle esperienze che abbiamo fatto insieme. Prendiamo questa volta l’esempio della misura di lunghezze con unità arbitrarie e in particolare facciamo riferimento alla misura della lunghezza di un tavolo in penne.
6 Altezza che abbiamo misurato in qualche modo o della quale siamo a conoscenza perché così è scritto nei documenti catastali. 7 Si noti che possiamo usare questa dizione anche per gli strumenti digitali che non hanno né tacche né indici graduati su cui leggere il risultato della misura. 8 L’accelerazione di gravità non è identica in tutti i luoghi della Terra poiché dipende dalla latitudine e dalla quota rispetto al livello del mare. Questo valore di riferimento è un valore medio, che approssima il valore dell'accelerazione di gravità presente al livello del mare a una latitudine di 45,5° (che, tra l’altro, non è lontana da quella di Napoli).
La misura della lunghezza del tavolo in penne è di 8 e un po’. Dalle argomentazioni che seguono (nelle note del gruppo che ha fatto questa esperienza) si capisce che il po’ in questione è in realtà un terzo di penna e in effetti avendo un po’ di tempo a disposizione avremmo potuto provare a segnare sulla penna delle tacche che indicassero i sottomultipli di lunghezza della penna, un po’ come se fosse un righello su cui ci sono le tacche per centimetri e millimetri. Allo stesso modo, nell’esperienza della misura delle aree di superfici col foglio A4 si sono utilizzati come regoli per la misura sia fogli interi che parti (sottomultipli) di foglio. La necessità di usare sottomultipli nasce dalla circostanza che l’oggetto che stiamo misurando non contiene un numero esatto di regoli interi. Se, nel caso della penna, non usassimo il terzo di penna come sottounità di misura saremmo costretti a stimare la lunghezza del tavolo per evidente difetto (dicendo che è lungo 4 penne) o per evidente eccesso (dicendo che è lungo 5 penne). Utilizzare i sottomultipli rende insomma la nostra misura più accurata. E se volessimo ancora migliorare l’accuratezza della nostra misura? È chiaro che non dovremmo far altro che usare sottomultipli più piccoli per riuscire sempre meglio a far combaciare le estremità del nostro regolo con quelle dell’oggetto che stiamo misurando. Ovviamente questo discorso si ricollega alla questione della sensibilità e della precisione degli strumenti che stavamo facendo più sopra: usando sottomultipli sempre più piccoli possiamo aumentare la sensibilità del nostro strumento di misura; ma non possiamo andare avanti all’infinito perché se usiamo pezzi troppo piccoli, questo inficerà la precisione della nostra misura semplicemente perché ripetendo le operazioni da capo non saremo in grado di riprodurle esattamente nello stesso modo e il risultato finale sarà diverso. Ma concentriamoci sull’accuratezza: usando sottomultipli più piccoli (entro certi limiti) rendiamo il nostro strumento più sensibile e la nostra misura più accurata. Se misuro la lunghezza del banco usando come unità di misura più piccola il terzo di penna, quello che faccio è contare quanti terzi di penna mi servono per coprire una lunghezza pari a quella del banco. Se allora dico che il banco è lungo 8 penne e un terzo a questa misura è associata una incertezza di 1/3 di penna. Questa incertezza dà conto del fatto che la mia misura è intrinsecamente approssimata e che il valore atteso è ragionevolmente compreso tra due valori simmetrici rispetto alla miglior stima che riesco a fornire e che sono quelli che corrispondono a contare una divisione in meno o una divisione in più della mia miglior stima sulla scala graduata. Riassumendo in scrittura matematica, la maniera usuale di presentare il risultato di questa misura è Lunghezza del tavolo = (8 penne + 1/3 penna) ± 1/3 di penna (8 penne + 1/3 penna) è la miglior stima della lunghezza del tavolo e 1/3 penna è l’errore di sensibilità associato alla mia misura. In altre parole, questa scrittura sta a significare che la lunghezza del tavolo è compresa nell’intervallo di lunghezze che va da (8 penne) a (8 penne + 2/3 di penna). Confrontiamo ora questa misura con quella fatta col righello. La lunghezza stimata del tavolo è in questo caso pari a 130 cm. L’ampiezza della divisione del righello è pari a 1 mm. Il risultato della misura col righello si può allora scrivere nella forma Lunghezza del tavolo = 130,0 cm ± 0,1 cm oppure anche, il che è lo stesso Lunghezza del tavolo = 1300 mm ± 1 mm
Ora abbiamo due diverse misure della stessa lunghezza e possiamo chiederci se esista un modo di confrontarne la qualità. Potremmo pensare di utilizzare la definizione di accuratezza che abbiamo dato (la differenza tra la miglior stima e il valore atteso), ma questo presenta due difficoltà: prima di tutto, in questo caso non abbiamo un valore atteso ben definito, a meno che non abbiamo a disposizione o la lunghezza del banco dichiarata dal costruttore o una misura operata con uno strumento molto migliore di quelli a nostra disposizione; inoltre, le due misure non sono espresse nelle stesse unità. Della prima difficoltà ci occuperemo a breve. La seconda è una falsa difficoltà, perché possiamo tradurre una delle due misure nelle unità dell’altra, come del resto viene fatto nella tabella riportata in precedenza. Lasciando per il momento da parte alcune sottigliezze relative al modo di operare questa traduzione, possiamo limitarci a constatare che una penna è lunga 15 cm e che quindi un terzo di penna è lungo 5 cm. Riscriviamo allora la misura in penne e per comodità riportiamola in millimetri Lunghezza del tavolo= 1300 mm ± 50 mm Qual è a questo punto la misura più accurata? Anche se avessimo risolto il problema di trovare un valore di riferimento per la nostra misura, la risposta sarebbe che le due misure sono ugualmente accurate, semplicemente perché la miglior stima che forniscono è identica. E allora? Siamo tutti portati a pensare che la misura fatta col righello sia migliore di quella fatta con le penne. Ma come possiamo argomentare a proposito di questa cosa che ci pare quasi ovvia? L’argomento che possiamo utilizzare è l’errore associato alla miglior stima: mentre la misura col righello ci dice che la lunghezza del banco è compresa tra 1299 mm e 1301 mm, la misura con le penne ci dice che la lunghezza è compresa tra 1250 mm e 1350 mm. La misura con le penne ha quindi un’incertezza molto più grande, il che ci dice che è una misura meno precisa della precedente, pur restando il fatto che le migliori stime sono identiche. Senza che ci sia neanche bisogno di cambiare unità di misura, possiamo esprimere questo stesso concetto definendo l’errore relativo della nostra misura come rapporto tra l’errore assoluto9 e la miglior stima. Abbiamo allora Errore relativo misura penna = (1/3 penna) / (8 penne + 1/3 penna) = 0,04 Errore relativo misura righello = (1 mm) / (1300 mm) = 0,0008 L’errore relativo della misura con la penna è 50 volte più grande di quello della misura col righello. Questo ci può bastare a concludere che la misura con il righello è la più precisa. Ragionando in termini più generali, il criterio che possiamo usare per stabilire un ordinamento qualitativo tra diverse misure di una stessa grandezza è quello del grado di accordo col valore atteso. Riprendiamo l’esempio dell’accelerazione di gravità. Abbiamo detto che il valore di riferimento è g = (9,80665 ± 0,00001) m/s2 Mettiamo allora di avere ottenuto due diverse misure di g operando con tecniche e strumenti diversi e che i risultati di queste due misure siano g1 = (9,6 ± 0,4) m/s2 g2 = (9,72 ± 0,02) m/s2
9 Abbiamo già implicitamente definito l’errore assoluto della misura che è quello che compare nelle espressioni delle misure scritte fin qui come incertezza associata alla nostra miglior stima.
La prima misura ha un errore relativo pari a circa 0,04 mentre per la seconda l’errore relativo è di circa 0,002, che è molto più piccolo di quello della prima. La seconda misura è più accurata perché la miglior stima è più vicina al valore atteso. Tuttavia mentre per la prima misura il valore atteso cade nell’intervallo determinato da miglior stima ed errore assoluto (che va da 9,2 a 10 m/s2), questo non si verifica per la seconda misura. Quest’ultimo è il criterio più importante per capire la qualità del risultato della misura. Si usa dire che il risultato della seconda misura non è consistente col valore atteso e quindi in questo caso dovremmo ritenere la prima misura più attendibile della seconda. Il punto a cui siamo arrivati potrebbe sembrare paradossale: pur usando strumenti più sensibili e più accurati, si può comunque ottenere una misura più scadente perché non consistente col valore atteso. Per fare un po’ di luce su questo paradosso dobbiamo approfondire ancora un po’ la discussione sugli errori di misura. Errori sistematici, errori massimi e errori statistici In tutte le operazioni di misura che abbiamo descritto fin qui non ci siamo mai posti il problema di effettuare la stessa misura più di una volta. Se misuro la lunghezza del tavolo col righello o l’area della LIM con un foglio A4 o ancora il volume di una certa quantità d’acqua con un cilindro graduato, mi aspetto che ripetendo la procedura il risultato non cambierà. E effettivamente questo è ciò che accade a patto di non commettere sbagli nella procedura. Per esempio, usando il righello, potrei misurare una lunghezza non facendo combaciare una delle estremità dell’oggetto che sto misurando con lo zero del righello. Questo introdurrebbe quello che si chiama un errore sistematico. Questo nome sta chiaramente a indicare che le mie misure sono sistematicamente affette da un errore che le allontana dal valore atteso di una certa quantità fissata. Per fare un esempio forse ancora più chiaro è un errore sistematico quello che commetto quando non controllo l’azzeramento di una bilancia prima di effettuare una misura di peso. Così facendo le mie misure saranno sempre sovrastimate o sottostimate di una quantità fissata. Gli errori sistematici sono una possibilità che dobbiamo sempre tenere in conto. Quando il risultato di una misura è preciso ma è, allo stesso tempo, lontano dal valore atteso (dando luogo a una misura non consistente con esso), siamo di fronte a due possibilità: o la nostra misura ci sta dicendo che il valore atteso è sbagliato (possibilità, questa, che difficilmente si verifica in un’esperienza di laboratorio didattico), oppure stiamo commettendo un errore sistematico. Nel secondo caso sarà interessante cercare di scovare l’origine di questo errore. Se ci convinciamo, oltre ogni ragionevole dubbio, che non abbiamo commesso errori sistematici allora dobbiamo provare a capire se ci sono ragioni valide per supporre che il valore atteso non sia corretto. In un laboratorio didattico potrebbe succedere che il valore di riferimento di una grandezza fornito dal costruttore (per esempio la lunghezza del banco) sia effettivamente errato, oppure, in casi come quello della misura di una costante della fisica (come l’accelerazione di gravità), siamo noi ad aver preso il valore di riferimento sbagliato. In un laboratorio scientifico, una misura non consistente col valore atteso e che non sembra affetta da errori sistematici è quella che potrebbe aprire la strada a una scoperta scientifica. D’altra parte non sono rari i casi in cui l’entusiasmo per una misura che sembra aprire nuovi orizzonti si spegne brutalmente quando si scopre che era stato commesso un qualche errore nella procedura sperimentale10.
10 Un caso recente, che ha avuto una certa risonanza mediatica, è quello della presunta scoperta di un’anomalia nella velocità di propagazione dei neutrini tale da renderli “più veloci della luce”, che si è poi stabilito essere dovuta a difetti di calibrazione di alcuni degli strumenti facenti parte del complicato apparato sperimentale utilizzato.
Pensiamo ora all’esempio fatto in precedenza della misura del tempo di caduta di un oggetto pesante da una certa altezza. Quando lo abbiamo descritto, abbiamo per comodità immaginato di fare una sola misura di tempo con un cronometro al centesimo di secondo. Ma se effettivamente realizzassimo un’operazione di misura come questa o una analoga in cui bisogna far partire e fermare un cronometro reagendo, in determinati istanti di tempo11, al procedere del movimento di un oggetto, non ci aspetteremmo di ottenere sempre lo stesso risultato ripetendo la misura nelle stesse condizioni. Questa non uniformità dei risultati della misura potrebbe dipendere dalle caratteristiche dello strumento che stiamo utilizzando, ma, come si può facilmente constatare provando a fare questo tipo di misura, essa dipende principalmente dalla capacità dello sperimentatore di azionare e fermare il cronometro in sincronia con gli eventi che definiscono l’inizio e la fine dell’intervallo di tempo da misurare. Al di là della minore o maggiore bravura dello sperimentatore a rispettare questa sincronia, esistono dei limiti fisiologici al nostro tempo di reazione, ossia al tempo che passa dall’istante in cui vediamo che un certo evento è accaduto a quello in cui schiacciamo il pulsante del cronometro. Questo tempo di reazione viene solitamente quantificato in circa un decimo di secondo. Quello che si osserva, misurando intervalli di tempo non troppo lunghi (diciamo di qualche secondo), è che la gran parte dei risultati (diversi) delle misure che effettuiamo differiscono tra loro per non più di un decimo di secondo. Si usa allora esprimere il risultato della misura di tempo effettuata, dando come miglior stima della durata dell’intervallo di tempo la media aritmetica dei risultati delle misure e attribuendo a questa miglior stima un errore pari a un decimo di secondo. Questo tipo di errore di misura viene detto errore massimo, perché si suppone che sia più grande di quello associabile a altre possibili fonti di errore e lo si assume quindi come miglior stima dell’errore commesso nell’operazione di misura12. Pensiamo ora a un’altra situazione della quale già discutemmo durante gli incontri. Vogliamo misurare una lunghezza pari a diversi metri (negli incontri immaginammo di voler misurare la lunghezza di una delle pareti di un’aula) usando un righello. Immaginiamo la procedura. Parto da una delle estremità della parete allineando con essa lo zero del righello. Il righello avrà ovviamente una portata limitata, diciamo 30 cm. Quello che posso fare è mettere un segno di qualche genere che coincida con la posizione della tacca che indica 30 cm. A questo punto non devo far altro che spostare il righello in modo che lo zero coincida con questo segno e poi reiterare l’operazione il numero di volte necessario a raggiungere l’altra estremità dell’oggetto che sto misurando. Con un po’ di aritmetica otteniamo la nostra stima della lunghezza in questione. Ma quanto possiamo fidarci di questa stima? Che errore dobbiamo associare alla nostra misura? In prima istanza potremmo essere tentati di ragionare come fatto in precedenza e di attribuire perciò alla nostra misura un errore massimo pari all’errore di sensibilità del righello, che è di 1 mm. A ben guardare però, la procedura di misura che abbiamo effettuato è caratterizzata da un grado di incertezza ben maggiore: per portare a termine la nostra misura abbiamo dovuto infatti ripetere più volte la procedura di allineamento dello zero col segno che abbiamo messo dove si trovava in precedenza la tacca dei 30 cm. Pur procedendo con grande perizia è inevitabile che l’operazione di allineamento sia imperfetta e sommando i piccoli errori prodotti da molte operazioni di allineamento ci aspettiamo che questi possano produrre un errore di entità non esattamente prevedibile sulla misura complessiva. Che le cose stiano effettivamente così possiamo verificarlo
11 Nel caso della caduta di un oggetto dobbiamo azionare il cronometro quando questo comincia a cadere e fermarlo quando l’oggetto tocca il suolo. Un tempo, è bene ricordarlo, si faceva qualcosa di analogo per cronometrare le gare di corsa dell’atletica leggera e in generale tutte le competizioni sportive che si disputassero su tragitti determinati, ossia con una linea di partenza e una di arrivo. 12 Si noti che, in base a questa definizione, l’errore di sensibilità che abbiamo usato nelle misure col cilindro, col righello o con le penne è un errore massimo.
ripetendo tutta l’operazione di misura più volte: come nel caso delle misure di tempo descritte in precedenza, otterremo risultati sempre diversi. A differenza del caso del cronometro, qui non abbiamo però un criterio ragionevole per quantificare l’errore commesso. La nostra miglior stima della lunghezza da misurare sarà come nel caso precedente la media aritmetica dei risultati ottenuti. Ma qual è l’errore da attribuire a questa stima? Ancora una volta ci viene in aiuto un criterio di ragionevolezza: non c’è ragione di supporre che le imprecisioni di allineamento abbiano prodotto errori che vadano tutti in una stessa direzione e che perciò ci portino sempre a sottostimare o a sovrastimare la lunghezza da misurare (errore sistematico); ci aspettiamo piuttosto che questi errori possano allontanare la nostra misura dal valore atteso in maniera del tutto casuale. Una volta tirata in ballo la casualità, dobbiamo aprire un nuovo intero capitolo di questa discussione a proposito di quegli elementi della teoria della probabilità e di statistica che ci servono per descrivere una variabile (nella fattispecie il risultato della nostra misura di lunghezza) che si comporta in maniera casuale. Per il momento limitiamoci a osservare che probabilità e statistica ci suggeriscono quale sia la maniera più ragionevole di valutare l’errore commesso nella nostra misura di lunghezza. L’errore in questione è un errore statistico e possiamo darne una stima con quella che in statistica si chiama deviazione standard. Senza entrare in dettagli matematici, possiamo dire che la deviazione standard associata al nostro insieme di risultati dà conto di come essi sono distribuiti attorno alla nostra miglior stima del risultato della misura, ossia la media aritmetica, operando una media delle entità degli scarti di ogni singola misura da questo valore. Ogniqualvolta ci troviamo di fronte a un’operazione di misura che, se ripetuta, non riproduce il medesimo risultato e laddove non si riesca a individuare nessuna causa evidente di errore che sia quantificabile (il caso dell’errore massimo), il risultato complessivo della misura si esprime dando come miglior stima la media aritmetica dei risultati delle misure e associando a questa il relativo errore statistico, ossia la deviazione standard relativa all’insieme di tutte le misure. Errore di sensibilità e errore di lettura Prima di procedere con la discussione dei concetti probabilistici e statistici che ci sono utili per trattare tutte le situazioni in cui operiamo misure ripetute, vogliamo fare qualche ulteriore precisazione sui concetti introdotti fino a questo punto. Partiamo dalla misura di una lunghezza operata con un righello con una portata di 20 cm e caratterizzato da un’ampiezza della divisione di 1 mm. Immaginiamo di voler misurare la lunghezza di una penna. Riprendendo il discorso sul valore atteso e sull’attendibilità delle operazioni di misura, dobbiamo fare una prima precisazione. Mettiamo che il valore di riferimento per la lunghezza della penna, fornito dal costruttore, sia di 15 cm. Il valore di riferimento è espresso in centimetri senza cifre decimali, il che vuol dire che dobbiamo in principio attribuirgli un’incertezza di 1 cm. Dal punto di vista della teoria degli errori di misura non è la stessa cosa dire che la lunghezza della penna ha un valore di riferimento di 15 cm o di 150 mm; nel secondo caso l’incertezza da attribuire al valore di riferimento è di 1 mm. Come ben sappiamo le due scritture 15 cm e 150 mm indicano lunghezze equivalenti, ma differiscono per il numero di cifre significative: la prima ne ha 2, la seconda 3. Si assume allora che, quando l’entità dell’errore non è esplicitata, il valore di una misura sia affetto da un errore unitario sull’ultima cifra significativa: se dico 15 cm sto allora implicitamente dicendo 15 cm ± 1 cm, se dico 150 mm sto dicendo 150 mm ± 1 mm o, il che è lo stesso, 15,0 cm ± 0,1 cm.
Questo tipo di errore è quello che abbiamo chiamato errore massimo, ed è lo stesso tipo di errore che attribuiamo alla misura della lunghezza della penna che facciamo col righello. Se il risultato della misura13 è 14,9 cm, la nostra misura sarà affetta da un errore di 0,1 cm che è pari all’ampiezza della divisione della scala graduata del nostro strumento. Questo secondo errore massimo è associato quindi alla possibilità di leggere il risultato della misura che ci offre lo strumento che stiamo utilizzando. All’apparenza abbiamo costruito un modo coerente di attribuire errori massimi alle misure effettuate con uno strumento dotato di scala graduata, ma in realtà la questione è un po’ più articolata. Sempre in un contesto di misure di lunghezza, immaginiamo di trovarci di fronte a una situazione come quella rappresentata nella figura qui sotto:
Stiamo stimando la lunghezza di un oggetto con una riga lunga 1 m e che ha un’ampiezza della divisione di 1 cm. Un’estremità dell’oggetto coincide con lo zero della riga, l’altra ci appare come in figura14. Quale sarà il risultato della nostra misura? Procedendo come abbiamo fatto finora dovremmo innanzitutto decidere se l’estremità dell’oggetto è più vicina alla tacca degli 85 cm o a quella degli 86 cm e penso saremo tutti d’accordo nello scegliere la seconda opzione. Il risultato della misura sarebbe allora 86 cm ± 1 cm Ci sembra un risultato soddisfacente? Esplicitandone il significato, stiamo dicendo che il nostro oggetto è lungo tra 85 e 87 cm… …vada per l’85, ma l’87 appare ben lontano dalla posizione dell’estremità dell’oggetto. Si tratta di un esempio un po’ forzato (di solito le righe hanno le tacche per i millimetri) ma che ci serve a evidenziare il fatto che le definizioni che abbiamo dato fin qui possano non essere del tutto soddisfacenti, almeno non in tutti i casi. Scegliendo come errore massimo per la nostra lettura della scala graduata dello strumento l’ampiezza della divisione ci siamo in qualche modo tenuti larghi per evitare di sottostimare l’errore commesso. Ma questa scelta può in certi casi presentare il problema contrario, ossia una evidente sovrastima dell’errore che commettiamo. Come si viene a capo di questo problema? La questione è in effetti molto dibattuta anche nella comunità scientifica e il modo più ragionevole di risolverla sta nell’ammettere che l’errore da attribuire alla lettura di una scala graduata può essere diverso in situazioni diverse e può dipendere anche dall’abilità dello sperimentatore nell’operare la lettura. Senza entrare in disquisizioni teoriche, proviamo a capire di cosa stiamo parlando sempre facendo riferimento alla figura riportata qui sopra. Probabilmente saremmo tutti d’accordo nel dire che l’estremità dell’oggetto che stiamo misurando si trova più o meno a metà tra la tacca che indica gli 85 cm e quella che indica gli 86 cm. In questa situazione, e in tante situazioni analoghe nelle quali
13 Abbiamo già discusso il fatto che in una misura di questo tipo non abbiamo necessità di ripetere più volte l’operazione di misura poiché essa ci fornisce sempre il medesimo risultato. 14 Si noti che la figura è in buona approssimazione in scala 1:1.
possiamo trovarci, è ragionevole allora leggere il risultato della misura come 85,5 cm. Se facciamo questa scelta (che è motivata dal fatto che lo strumento che stiamo usando e la nostra capacità di risoluzione visiva ci permettono di farla), stiamo dicendo che siamo in grado di leggere sulla nostra scala valori che stanno più o meno a metà tra una tacca e la successiva e quindi stiamo implicitamente stimando un errore di lettura che non è più pari all’intera ampiezza della divisione ma alla sua metà. Potremo allora riscrivere il risultato della nostra misura nella forma 85,5 cm ± 0,5 cm che è una stima assolutamente legittima dal punto vista “teorico” e che è anche molto più ragionevole della precedente perché ci dice che la lunghezza del nostro oggetto è compresa tra 85 cm e 86 cm. Qualcuno potrebbe però ancora obiettare che l’estremità dell’oggetto, pur stando più o meno nel mezzo tra le due tacche, si trova visibilmente più vicina alla tacca degli 86 cm che non a quella degli 85 cm. Ragionando in termini del tutto analoghi, così come abbiamo detto che eravamo in grado di apprezzare la mezza ampiezza della divisione tra le tacche potremmo dire che siamo in grado di apprezzare un quarto, un quinto o addirittura un decimo di questa ampiezza. Conseguentemente potremmo scrivere il risultato della nostra misura come 85,50 cm ± 0,25 cm 85,6 cm ± 0,2 cm 85,6 cm ± 0,1 cm e tutte queste scritture sarebbero assolutamente legittime nella misura in cui siamo in grado di argomentare a proposito della nostra capacità di leggere la scala con questi diversi gradi di approssimazione. L’errore massimo associato alla lettura di una scala graduata andrebbe quindi chiamato errore di lettura e non errore di sensibilità come avevamo fatto in precedenza. Spesso questi due concetti sono sovrapponibili, ma in molti altri casi possono essere molto diversi. Vi ricordiamo che avevamo definito l’errore di sensibilità di uno strumento come la più piccola variazione della quantità da misurare che lo strumento è in grado di rilevare15. Di solito gli strumenti sono progettati in modo che questa variazione sia molto prossima alla più piccola quantità che possiamo leggere sulla scala graduata, ma è difficile che le due quantità siano esattamente uguali. Pensate all’ago di una bilancia da cucina: a fronte di un’ampiezza della divisione che è, ad esempio, di 20 grammi, capita spesso che l’ago si sposti anche quando aggiungiamo a ciò che stiamo pesando un piccolo peso aggiuntivo pari a pochi grammi. Se prima di questa aggiunta l’ago si trovava in coincidenza con una tacca della scala, dopo l’aggiunta si troverà nel mezzo tra due tacche. Questo ci dice che la bilancia risponde all’aggiunta di pochi grammi sul suo piatto e che la scala graduata non ci permette di leggere in maniera univoca il piccolo spostamento dell’ago che pure percepiamo in maniera chiara. Per l’errore di lettura potremmo procedere con la bilancia in maniera del tutto analoga a quanto fatto per il righello. L’errore di sensibilità della bilancia è certamente più piccolo dell’ampiezza della divisione, ma è difficile stimarlo in maniera chiara anche e soprattutto perché non è quantità costante: come quasi tutti gli strumenti, la bilancia non reagisce sempre allo stesso modo a una medesima piccola sollecitazione: se mettiamo un oggetto che pesa pochi grammi sul piatto della bilancia vuoto, la bilancia non darà sostanzialmente
15 E che avevamo stabilito che la sensibilità fosse l’inverso di questa quantità: quanto più l’errore di sensibilità è piccolo, tanto più lo strumento è sensibile.
nessuna risposta; se lo facciamo quando sul piatto c’è già un peso abbastanza grande (diciamo 2 kg su una bilancia con una portata di 5kg) la risposta della bilancia sarà chiaramente percettibile. Si tratta di una situazione abbastanza intricata e la convenzione di assumere come stima dell’errore massimo l’intera ampiezza della divisione è proprio un modo per venirne a capo senza impelagarsi in troppe disquisizioni. Possiamo allora continuare ad adottare questa convenzione, avendo la giusta flessibilità nel decidere, in taluni casi, che è possibile diminuire l’ampiezza di questo errore senza correre il rischio di sottostimarlo.
Errori statistici e variabili casuali continue La teoria degli errori massimi si applica a tutte le situazioni nelle quali non sia necessario ricorrere a misure ripetute, ossia a tutte quelle operazioni di misura nelle quali non siano presenti rilevanti fluttuazioni casuali nella risposta dello strumento, nelle operazioni che lo sperimentatore deve compiere per azionare lo strumento e nel valore atteso della grandezza che stiamo misurando. Il primo tipo di fluttuazione è associato alla scarsa precisione dello strumento in relazione al tipo di misura che stiamo effettuando e di questo abbiamo già discusso. Il secondo è tipicamente associato ai tempi di reazione dello sperimentatore nel seguire lo svolgersi nel tempo delle trasformazioni del sistema sulle quali stiamo focalizzando la nostra attenzione (come abbiamo visto nelle misure di tempo con il cronometro azionato a mano o come potremmo vedere nella misura con un termometro di una temperatura che sta variando nel tempo). Il terzo è associato a possibili (e non facilmente quantificabili) interazioni del sistema sul quale stiamo effettuando le nostre misure con altri sistemi circostanti. In tutti questi casi si rende necessario ripetere più volte una stessa operazione di misura e di operare poi con strumenti statistici per riassumerne i risultati in un’unica stima del valore atteso, alla quale attribuiamo un errore statistico che deve tener conto dell’intero insieme di operazioni di misura effettuate e del modo in cui i loro risultati sono distribuiti rispetto alla stima del valore atteso. Abbiamo già accennato a quali siano gli strumenti statistici che possiamo usare in queste situazioni: la miglior stima sarà data dalla media aritmetica dei risultati delle misure; l’errore statistico su questa stima sarà dato dalla cosiddetta deviazione standard, che è anch’essa una stima e in particolare, lo ribadiamo, è una stima dell’entità degli scarti tra le singole misure e la loro media aritmetica. Ci siamo cimentati in questo lavoro di elaborazione statistica dei dati quando abbiamo fatto misure di intervalli di tempo usando i cronometri dei nostri telefoni cellulari. Facciamo allora riferimento a una delle misure che abbiamo effettuato: si trattava di misurare il tempo T necessario a una slinky sopsesa a una sua estremità per effettuare dieci oscillazioni complete in verticale. Abbiamo raccolto 27 misure indipendenti (compiute da 27 diversi sperimentatori) dello stesso intervallo di tempo ovverosia, appunto, quello necessario affinché la slinky compiesse dieci oscillazioni. I risultati ottenuti sono riportati qui sotto nella forma di un istogramma delle frequenze assolute dei risultati (che sono tempi misurati in secondi) divisi in opportuni intervalli
Calcolando la media aritmetica del nostro insieme di misure e la relativa deviazione standard16 abbiamo ottenuto la seguente stima del tempo T T = 15,2 s ± 0,4 s L’entità dell’errore è ragionevole considerando che le misure sono state prese da molti diversi sperimentatori. Un unico sperimentatore, facendo un po’ di esercizio, riuscirebbe verosimilmente a ridurre la deviazione standard delle sue misure di T a un valore dell’ordine del decimo di secondo. Ma anche in presenza di uno sperimentatore con tempi di reazione molto bassi e che si sia ben preparato a effettuare questa specifica misura, i risultati di un numero abbastanza grande di misure ripetute di T presenterebbero comunque una distribuzione intorno alla media17. La cosa interessante è che quando facciamo misure ripetute di qualsiasi tipo ci aspettiamo sempre che esse siano distribuite intorno alla media aritmetica con l’andamento caratteristico dell’istogramma riportato qui sopra. Ovviamente l’andamento dell’istogramma è determinato dalla maniera in cui noi scegliamo gli intervalli in cui raggruppare i conteggi delle frequenze. La scelta è fatta in modo che la media, già calcolata, cada più o meno al centro di uno degli intervalli e che l’ampiezza degli intervalli sia abbastanza piccola da raccogliere un numero significativo di misure in almeno sette/otto intervalli distinti18 e abbastanza grande da evitare di avere un gran numero di intervalli tutti con pochissime misure all’interno19. La ragione per cui facciamo in modo che l’istogramma assuma questo aspetto caratteristico sta nell’andamento teorico che la teoria della probabilità ci suggerisce debba assumere la distribuzione attorno alla media di una variabile casuale. Ci aspettiamo che i nostri dati tendano a questa distribuzione (a patto di fare un numero abbastanza grande di misure) perché stiamo facendo l’assunzione che le fluttuazioni nei risultati delle nostre misure siano determinate dal caso. Ebbene la distribuzione teorica che ci aspettiamo per le frequenze relative delle nostre misure è quella che riportiamo nella figura qui sotto e che è nota come distribuzione Normale o Gaussiana
16 Potete trovare l’espressione matematica per il calcolo della deviazione standard di un insieme di dati nella pagina di Wikipedia dedicata http://it.wikipedia.org/wiki/Deviazione_standard 17 In altri termini quando operiamo misure ripetute di un evento del tipo di quello in discussione è veramente molto difficile che ci capiti di ottenere sempre lo stesso risultato. 18 Se questa ampiezza è troppo grande rischiamo di aver un istogramma con tre o quattro barre, che non ci permette di mettere in luce il modo in cui i dati si distribuiscono attorno alla media. Immaginate il caso limite di un’ampiezza così grande da raccogliere tutti i dati in un solo intervallo. 19 Anche in questo caso non si riuscirebbe a cogliere la distribuzione dei dati attorno alla media perché si otterrebbe un istogramma dall’andamento “piatto”, ossia con tante barre tutte sostanzialmente della stessa altezza.
Le lettere μ e σ stanno a indicare media aritmetica e deviazione standard. Le percentuali nelle barre colorate stanno a indicare la probabilità che la variabile casuale rappresentata da questa distribuzione assuma un valore incluso in quel dato intervallo. Senza fare discorsi troppo complicati, quello che stiamo dicendo è che ci aspettiamo che un insieme di misure ripetute di una certa grandezza ci fornisca risultati che sono distribuiti in accordo con la distribuzione Normale. Esprimendo il risultato della nostra misura nella forma media ± deviazione standard ci aspettiamo che una nuova singola misura della grandezza che stiamo misurando abbia il 68% circa di probabilità di cadere nell’intervallo che va da (μ – σ) a (μ + σ), il 95% per cento circa di cadere nell’intervallo tra (μ – 2σ) e (μ + 2σ) e il 99% circa di cadere nell’intervallo che tra (μ – 3σ) e (μ + 3σ). Per capire quanto i nostri dati si avvicinino a questo modello teorico possiamo in prima istanza proprio verificare che rispettino questi dati probabilistici, in primis20 quello del 68%: ci aspettiamo che due terzi circa dei nostri dati siano distribuiti attorno alla media entro un intervallo di semi‐ampiezza pari alla deviazione standard. I nostri dati per la misura di T soddisfano abbondantemente questo criterio. Ragionando all’inverso, possiamo anche usare questi criteri per capire quanto il risultato di una singola misura sia credibile. Se facciamo una nuova misura di T e otteniamo un risultato il cui scarto rispetto alla media calcolata in precedenza è maggiore di tre deviazioni standard, possiamo ragionevolmente supporre che questa misura sia affetta da qualche errore di natura non casuale e che vada quindi rigettato. Un risultato “fuori da tre deviazioni standard” può anche a volte suggerirci che c’è qualcosa che non va nel nostro apparato sperimentale e spingerci a controllarlo e eventualmente a superare problemi (come ad esempio quelli che possono provocare errori sistematici) prima di proseguire. Più è grande il numero di misure ripetute che effettuiamo, più e ragionevole supporre che i nostri dati siano distribuiti in accordo con la distribuzione Normale. Questa affermazione è un enunciato non particolarmente accurato di quello che in teoria della probabilità per variabili continue si chiama il Teorema del limite centrale della media. Non è questo il luogo per approfondire questa discussione, ma possiamo limitarci a dire che questo teorema ha per le variabili continue lo stesso significato che ha, per le variabili discrete, la cosiddetta Legge dei grandi numeri. Quest’ultima afferma che le frequenze relative dei possibili valori assunti da una variabile casuale discreta tendono a coincidere con le rispettive probabilità quando cresce il numero dei casi esaminati. Ripassando allora nuovamente dal piano teorico a quello concreto, cerchiamo di capire meglio il senso di quest’ultima affermazione facendo ancora riferimento a un’esperienza che abbiamo svolto insieme, quella dei lanci ripetuti di due dadi. Variabili casuali discrete. Frequenza e probabilità Tra tante possibili esperienze relative al calcolo delle probabilità per variabili casuali discrete abbiamo scelto quella del lancio di due dadi (e della valutazione delle frequenze di occorrenza dei risultati della somma delle uscite a ogni lancio) perché la sua distribuzione di probabilità teorica appare come una sorta di versione discreta della distribuzione di probabilità Normale, con il valore più probabile al centro della distribuzione e probabilità decrescenti via via che ci si allontana dal centro. La somma delle uscite del lancio di due dadi ha come possibili risultati tutti i numeri interi compresi nell’intervallo che va da 2 a 12. Le probabilità associate a ciascuno di questi risultati possono essere calcolate facendo il rapporto tra i casi favorevoli (la somma delle due uscite dà un
20 Esistono poi veri e propri test statistici per verificare questa ipotesi. Uno di questi è il cosiddetto test del χ2, di cui abbiamo parlato durante i nostri incontri e del quale discuteremo brevemente più avanti.
certo numero) e quelli possibili (36 in tutto: 6 possibili risultati per il primo dado moltiplicati per altrettanti possibili risultati per il secondo). Questo vuol dire che, essendo possibili 36 diverse configurazioni distinte (ad esempio 2 sul primo dado e 3 sul secondo, evento che indichiamo con 2;3), la probabilità che esca 2;3 è uguale alla probabilità che esca 3;2 o 1;1 e così via. La probabilità di ciascuno di questi eventi è quindi 1/36. Ma se siamo interessati alla somma delle uscite dei due dadi, ben 6 distinte configurazioni danno come somma il 7. Guardando la figura qui sotto non è quindi difficile convincersi che la probabilità della somma 7 è 6/36=1/6 mentre la probabilità della somma 12 (come quella della somma 2) è 1/36 e così via…
Nella tabella qui sotto riassumiamo le probabilità associate a ogni possibile somma
Somma delle uscite dei due dadi
Casi favorevoli
Probabilità
2 1 1/36=0,028
3 2 2/36=0,056
4 3 3/36=0,083
5 4 4/36=0,111
6 5 5/36=0,139
7 6 6/36=0,167
8 5 5/36=0,139
9 4 4/36=0,111
10 3 3/36=0,083
11 2 2/36=0,056
12 1 1/36=0,028
Andiamo ora a confrontare la previsione teorica con i risultati ottenuti durante i nostri incontri. Nelle due figure che seguono abbiamo riportato gli istogrammi delle frequenze relative delle somme risultanti dal lancio ripetuto di due dadi ottenute da due dei gruppi che hanno lavorato a questa esperienza. Nel primo caso (istogramma a barre blu) il numero totale di lanci effettuati è
stato pari a 120, nel secondo caso (istogramma a barre rosse) è stato pari a 1043, ossia quasi 10 volte tanto.
Intanto salta subito agli occhi la differenza nell’andamento complessivo della distribuzione delle frequenze. Rispetto a quello relativo a 120 lanci, l’istogramma corrispondente a circa 1000 lanci ha un andamento molto più simile a quello “triangolare” che ci aspettavamo: un picco centrale e frequenze relative decrescenti (in maniera sostanzialmente simmetrica) allontanandosi dal centro della distribuzione. Il primo istogramma, pur presentando anch’esso il picco centrale, ha un andamento decisamente meno simmetrico con diverse inversioni delle frequenze relative, nel senso che diverse somme hanno frequenze relative maggiori di altre che sono più vicine al centro della distribuzione, ossia al valore 7 della somma. Potete anche verificare che nell’istogramma a barre rosse i risultati ottenuti per le singole frequenze relative non sono molto lontani dai valori attesi. Se vogliamo limitarci a osservazioni qualitative l’istogramma a barre rosse potrebbe essere già un risultato soddisfacente e ci permetterebbe anche di argomentare a proposito del significato della legge dei grandi numeri. Potremmo anche continuare ad aggiungere lanci alla nostra distribuzione e mostrare come le frequenze relative tendano sempre più ad avvicinarsi alle probabilità al crescere del numero di lanci21.
21 Tipicamente i 1000 lanci sono stati effettuati da diverse persone, ognuna delle quali ha preso nota dei propri risultati che sono poi stati messi insieme agli altri nell’istogramma complessivo. Una buona idea può essere quella di
In questo caso, così come in tutte le situazioni in cui vogliamo confrontare dei dati sperimentali con una distribuzione o un andamento attesi, possiamo però voler passare da osservazioni di carattere qualitativo a osservazioni di natura più stringente e perciò necessariamente quantitative. Nel caso del lancio dei dadi possiamo ad esempio chiederci in che misura possiamo essere confidenti del fatto che i dadi non siano truccati e per questo chiederci quanto i nostri dati siano vicini alla distribuzione attesa. In modo del tutto analogo, potremmo, nel caso delle misure di tempo di cui si è discusso in precedenza voler capire in che misura possiamo essere confidenti che i nostri dati siano distribuiti in maniera casuale, ossia quanto essi siano vicini a riprodurre l’andamento della distribuzione Normale. Esistono diversi test statistici che ci permettono di dare risposta a queste domande. Abbiamo detto test statistici e questo ci suggerisce fin da subito che il responso di questi test non ci dà una risposta certa ma ci offre piuttosto un grado di confidenza, una probabilità relativa alla bontà della nostra ipotesi di partenza secondo la quale i nostri dati sono distribuiti in un certo modo. Insomma il risultato di un test di questo tipo ci dirà, ad esempio, che c’è una probabilità del 90% che i nostri dadi funzionino come ci aspettavamo che facessero. E allora? Sono truccati o no questi dadi? Se dobbiamo dare questa risposta in relazione all’esperienza che abbiamo svolto in classe, possiamo certamente dire che siamo ragionevolmente sicuri che le cose sono andate come dovevano. Se ottenessimo un risultato del genere esaminando i dadi utilizzati al tavolo da gioco di un casinò potremmo restare con un ragionevole dubbio che ci sia qualcosa che non va. Passando dai dadi ai risultati della misura di una grandezza fisica, potremmo essere ragionevolmente soddisfatti di un grado di confidenza del 90% per un esperimento fatto in un laboratorio didattico. Prendendo spunto da una notizia scientifica della recente attualità, l’osservazione del cosiddetto bosone di Higgs, è facile capire quanto questo discorso abbia un senso molto relativo: i risultati dei test statistici a cui vengono sottoposte le misure di fisica delle alte energie vengono accettati come positivi se danno la garanzia che l’osservazione compiuta sia coerente col risultato atteso con una probabilità minima del 99,99997%. In altri termini aver osservato il bosone di Higgs significa supporre che solo in tre casi su un miliardo questa osservazione potrebbe essere frutto di una casualità e non corrispondere a ciò che si suppone sia accaduto all’interno dell’acceleratore LHC. Un livello di confidenza così spinto potrebbe far supporre che queste misure siano sostanzialmente “inattaccabili”. In realtà dobbiamo tener presente che, come abbiamo già avuto modo di sottolineare, ha senso parlare del livello di confidenza solo in presenza di un numero di osservazioni sufficientemente grande. Il livello di confidenza relativo alla “scoperta” del bosone di Higgs assumerà perciò sempre maggiore rilevanza nella misura in cui si accumuleranno nel tempo diverse osservazioni che confermino quelle già effettuate al CERN di Ginevra.
confrontare l’istogramma relativo ai 1000 lanci con quelli ottenuti riportando separatamente i risultati di ogni singolo sperimentatore.
Ma torniamo ora brevemente ai dadi e ai test statistici. Nella figura sottostante potete vedere i risultati dei lanci ripetuti di due dadi simulati sfruttando il generatore di numeri casuali di un foglio di calcolo
Più in dettaglio questa figura rappresenta le frequenze relative delle somme delle uscite (barre blu) per 5000 lanci simulati e, per confronto, i valori attesi (le probabilità, barre rosse) per ogni singola somma. Ancora una volta possiamo dire che, già solo stimando a vista, le due distribuzioni si somigliano molto. Ma, come abbiamo avuto modo di discutere durante i nostri incontri, possiamo mettere alla prova la ragionevolezza della distribuzione ottenuta operando il cosiddetto test del χ2 (che si legge Chi quadro). Questo test opera in maniera molto semplice, calcolando la differenza tra ogni singolo valore ottenuto e il corrispondente valore atteso e, come si dice, sommando in quadratura questi scarti. Sommare in quadratura vuol dire elevare al quadrato ogni singolo scarto, operare la somma di tutti i quadrati degli scarti ed estrarre quindi la radice quadrata della somma. La ragione per cui si sommano i quadrati degli scarti sta nell’evitare che scarti positivi (il valore ottenuto è maggiore del valore atteso) e scarti negativi (il valore ottenuto è minore del valore atteso) si elidano a vicenda. Dovremmo fare delle ulteriori precisazioni su come calcolare il risultato (che è un numero) del test, ma non vale la pena affrontarle in questa sede. Ci basta aver accennato a quale sia l’idea su cui si basa il test, che è semplicemente una stima di quanto i risultati ottenuti si discostino dal “modello”. Una volta ottenuto il risultato possiamo consultare opportune tabelle che traducono il numero ottenuto in un certo grado probabilistico di confidenza. Arrivati a questo punto valgono tutte le considerazioni di cui sopra22. Il test χ2 ha applicabilità del tutto generale in tutti quei casi in cui si vogliano confrontare dei dati sperimentali con i valori attesi desunti da un modello. Avremmo potuto insomma applicarlo anche al caso della misura di tempi per capire in che misura i risultati fossero distribuiti in maniera casuale.
22 Per qualche dettaglio matematico in più potete nuovamente far riferimento alla pagina Wikipedia http://it.wikipedia.org/wiki/Test_chi_quadrato
Conclusioni In sintesi quello che abbiamo fatto in queste pagine è stato ribadire che i risultati di un esperimento scientifico (a qualsiasi livello) non ci offrono certezze monolitiche sul modo in cui si comporta un certo sistema. La possibilità che l’approccio scientifico allo studio dei fenomeni ci offre è quella di costruire modelli ragionevoli del modo in cui si comportano variabili significative che caratterizzano quel sistema e di sottoporre poi i nostri modelli alla prova dell’esperimento. Ma anche i risultati di un esperimento non ci danno risposte certe. Ci offrono piuttosto la ragionevole certezza che il nostro modello descriva in maniera soddisfacente ciò che stiamo osservando. Soddisfacente per cosa? Dipende da quello che stiamo facendo e da quanta accuratezza necessitiamo nel contesto nel quale ci troviamo. Ma qualunque sia questo contesto, il nostro sforzo di costruire modelli ci offre la possibilità di schematizzare in maniera semplice sistemi molto complessi evidenziandone comportamenti particolarmente significativi, di operare analogie tra diversi sistemi e di prevedere il risultato di osservazioni che ancora non abbiamo compiuto. Le incertezze sembrano allora un prezzo ragionevole da pagare se commisurato con le grandi possibilità che il guardare il mondo per sistemi e variabili ci offre. Proprio a proposito della relazione tra modelli e osservazioni, vogliamo concludere accennando a un altro tipo di misure che vi abbiamo proposto durante i nostri incontri, quelle in cui si lavora proprio alla costruzione dei modelli. Pensiamo in particolare alle misure di pesi e volumi di sostanze alimentari. Quando mettiamo in campo una misura di questo tipo con i nostri studenti può essere forte la tentazione di fare in modo che i nostri risultati “facciano quello che devono”. Da un punto di vista adulto, noi sappiamo già dove vogliamo arrivare: vogliamo ricostruire una regola di proporzionalità diretta tra peso e volume di diverse quantità di una stessa sostanza. Il punto è che la ragionevolezza della costruzione del “modello” passa proprio attraverso la constatazione che i nostri risultati sperimentali hanno un andamento regolare ma non del tutto “esatto”. Per intenderci, quando segniamo su un grafico cartesiano peso/volume i punti relativi a coppie di valori misurati per diverse quantità di un certo materiale (mettiamo sia il sale grosso), ci aspettiamo che questi punti siano allineati su una retta che passa per l’origine degli assi. Il punto è che usando tecniche di misura non particolarmente accurate (come è ragionevole che sia in un laboratorio didattico) le nostre misure risulteranno altrettanto non particolarmente accurate e questo si traduce nel fatto che riportando sul grafico le misure di peso e volume del sale grosso i punti sperimentali non saranno perfettamente allineati. Piuttosto che vedere in questa circostanza un problema, possiamo provare a sfruttarla come una risorsa. In questo caso specifico abbiamo infatti un termine di confronto molto efficace: le misure di peso e volume fatte con l’acqua. Pur se con un certo grado di approssimazione, queste misure forniscono risultati che sono sostanzialmente in accordo con i valori attesi: 200 ml di acqua misurati col cilindro graduato23 peseranno 200 g quando andiamo a metterli sulla bilancia da cucina. Quando mettiamo sul grafico i punti sperimentali relativi all’acqua ci accorgiamo subito del fatto che sono allineati. Confrontare allora gli andamenti delle altre sostanze con quello dell’acqua ci offre uno spunto di riflessione fondamentale, ossia il riconoscere che i punti relativi al sale grosso non stanno proprio su una retta ma ci vanno molto vicini: non stanno proprio su una retta perché le nostre misure non sono
23 Con l’acqua possiamo fare questa misura in maniera piuttosto accurata perché il pelo dell’acqua nel cilindro è praticamente orizzontale e quindi non abbiamo difficoltà a valutare la sua coincidenza con una delle tacche segnate sul cilindro e perché l’acqua è un liquido e quindi non lascia spazi vuoti al suo interno come fa invece una sostanza granulare come il sale grosso. Tra l’altro il sale ha un peso specifico dipendente dall’acqua che assorbe dall’ambiente circostante (materiale igroscopico) e a rigore dovremmo tener conto di questa circostanza se utilizziamo in laboratorio lo stesso sale a distanza di tempo non avendolo conservato nella maniera opportuna! Ma ancora una volta ciò che può apparire come una “distrazione” o una “incuria” potrebbe rivelarsi un’opportunità per discutere su fenomeni di interesse scientifico.
molto accurate e sono soggette a errori di misura; supponiamo che “ci dovrebbero” stare perché riconosciamo che quella regolarità che sembra caratterizzare solo l’acqua è in realtà propria di qualunque sostanza. E a questo punto il gioco è fatto nel senso che lavorando con i giusti tempi a questa riflessione arriviamo alla costruzione ragionata e condivisa del modello di proporzionalità tra peso e volume che può poi portarci a parlare di peso specifico e densità e magari a utilizzare questi concetti per discutere la fenomenologia relativa al galleggiamento in acqua (o in un altro fluido) di oggetti fatti di diverse sostanze. L’opportunità offerta dalle operazioni di misura è insomma quella di ribaltare l’approccio tradizionale all’insegnamento delle scienze (e della matematica). L’approccio tradizionale parte da un corpus di leggi (da mandare a memoria) che descrivono il modo di comportarsi dei sistemi (senza peraltro porre molta attenzione a chiarire cosa sia un sistema e che senso abbia il “guardare per sistemi”) per poi eventualmente confrontare previsioni derivate da queste leggi con dati sperimentali e dover spiegare a posteriori (e con difficoltà) come mai si riscontri un disaccordo tra previsioni e risultati. Rovesciare questo approccio significa cimentarsi in partenza con i sistemi, coi modi di osservarli e con i problemi connessi all’effettuare misure di variabili significative e, solo sulla base di questo bagaglio esperienziale, costruire modelli che diano ragionevolmente conto di ciò che abbiamo osservato.