Misure e errori di misura - llp.fisica.unina.itllp.fisica.unina.it/attachments/article/120/Misure e...

21
Misure e errori di misura A beneficio dei lettori descriviamo brevemente il contesto nel quale questo documento è stato prodotto. Il contesto generale è quello di un percorso di formazione/autoformazione che ha coinvolto un grande gruppo di insegnanti di una rete territoriale di scuole di diversi gradi, dalla scuola dell’infanzia alla secondaria di secondo grado, e ricercatori in didattica della fisica. Il lavoro si è sviluppato secondo il seguente schema: a partire da attività di laboratorio svolte nel gruppo adulto e presentate dai ricercatori come proposte stimolo, gli insegnanti della rete hanno scelto un tema generale (nella fattispecie quello del misurare) all’interno del quale hanno poi progettato (singolarmente o in gruppi) autonomamente attività da sperimentare con gli alunni. Le attività sono state documentate e riportate in seno al gruppo per una ulteriore discussione e per alimentare un processo in cui riflessione collettiva e azioni in classe si alternassero ciclicamente. Questo documento raccoglie commenti e approfondimenti relativi a esperienze condivise in alcune sessioni di lavoro del gruppo. Nel testo si fa riferimento ad alcune di queste esperienze, che in questa versione del documento sono state brevemente descritte quando chiamate in causa. Sensibilità, precisione e accuratezza Partiamo da una delle esperienze di misura che vi abbiamo proposto: si trattava di confrontare le misure del volume di una stessa quantità d’acqua operate con quattro diversi cilindri graduati. Il gruppo che si è cimentato con questa attività ha riassunto i risultati ottenuti nella tabella che riportiamo in foto qui sotto Le diverse caratteristiche dei cilindri sono chiare dai dati presentati in questa tabella: diversi diametri, diverse altezze, diverse “misure della tacca”. Cominciamo proprio dalla “misura della tacca”, che in realtà è più opportuno chiamare ampiezza della divisione: si tratta della distanza tra due successivi segni nella scala graduata del cilindro espressa in unità di volume 1 . Questo primo dato è legato alla sensibilità dei nostri strumenti di misura, ossia alla più piccola variazione della grandezza misurata che essi ci permettono di osservare. Più precisamente, potremmo definire la sensibilità di uno strumento come l’inverso dell’ampiezza della divisione 2 : più piccola è questa ampiezza, maggiore è la sensibilità dello strumento. Se in uno dei cilindri usati nella nostra 1 La distanza tra le tacche andrebbe espressa in unità di lunghezza, ma il cilindro è già tarato per trasdurre lunghezze in volumi: la sezione è fissata e quindi l’altezza raggiunta dal pelo dell’acqua nel cilindro è proporzionale al volume dell’acqua stessa. 2 Questa definizione non è formalmente corretta, ma per il momento la assumiamo come tale riservandoci di specificarla meglio nel seguito.

Transcript of Misure e errori di misura - llp.fisica.unina.itllp.fisica.unina.it/attachments/article/120/Misure e...

Misure e errori di misura  A beneficio dei lettori descriviamo brevemente il contesto nel quale questo documento è stato prodotto.  Il  contesto  generale  è  quello  di  un  percorso  di  formazione/autoformazione  che  ha  coinvolto  un  grande  gruppo  di insegnanti di una rete territoriale di scuole di diversi gradi, dalla scuola dell’infanzia alla secondaria di secondo grado, e  ricercatori  in  didattica  della  fisica.  Il  lavoro  si  è  sviluppato  secondo  il  seguente  schema:  a  partire  da  attività  di laboratorio svolte nel gruppo adulto e presentate dai ricercatori come proposte stimolo, gli insegnanti della rete hanno scelto  un  tema  generale  (nella  fattispecie  quello  del  misurare)  all’interno  del  quale  hanno  poi  progettato (singolarmente  o  in  gruppi)  autonomamente  attività  da  sperimentare  con  gli  alunni.  Le  attività  sono  state documentate e riportate in seno al gruppo per una ulteriore discussione e per alimentare un processo in cui riflessione collettiva  e  azioni  in  classe  si  alternassero  ciclicamente. Questo  documento  raccoglie  commenti  e approfondimenti relativi a esperienze condivise in alcune sessioni di lavoro del gruppo.  Nel testo si fa riferimento ad alcune di queste esperienze, che in questa versione del documento sono state brevemente descritte quando chiamate in causa. 

  Sensibilità, precisione e accuratezza Partiamo da una delle esperienze di misura che vi abbiamo proposto: si trattava di confrontare le misure del volume di una stessa quantità d’acqua operate con quattro diversi cilindri graduati.  Il gruppo  che  si  è  cimentato  con  questa  attività  ha  riassunto  i  risultati  ottenuti  nella  tabella  che riportiamo in foto qui sotto  

  Le  diverse  caratteristiche  dei  cilindri  sono  chiare  dai  dati  presentati  in  questa  tabella:  diversi diametri,  diverse  altezze,  diverse  “misure  della  tacca”.  Cominciamo  proprio  dalla  “misura  della tacca”, che in realtà è più opportuno chiamare ampiezza della divisione: si tratta della distanza tra due successivi segni nella scala graduata del cilindro espressa  in unità di volume1. Questo primo dato è  legato alla sensibilità dei nostri strumenti di misura, ossia alla più piccola variazione della grandezza misurata che essi ci permettono di osservare. Più precisamente, potremmo definire  la sensibilità  di  uno  strumento  come  l’inverso  dell’ampiezza  della  divisione2:  più  piccola  è  questa ampiezza,  maggiore  è  la  sensibilità  dello  strumento.  Se  in  uno  dei  cilindri  usati  nella  nostra 

                                                       1 La distanza tra le tacche andrebbe espressa in unità di lunghezza, ma il cilindro è già tarato per trasdurre lunghezze in volumi:  la sezione è  fissata e quindi  l’altezza raggiunta dal pelo dell’acqua nel cilindro è proporzionale al volume dell’acqua stessa. 2  Questa  definizione  non  è  formalmente  corretta,  ma  per  il  momento  la  assumiamo  come  tale  riservandoci  di specificarla meglio nel seguito. 

sessione di  lavoro avessimo aggiunto un ml di acqua non saremmo stati  in grado di misurare  la variazione di volume certamente avvenuta. Usando  il  linguaggio naturale potrebbe sembrare più appropriato  chiamare  questa  caratteristica  dello  strumento  precisione.  Ma  nel  linguaggio scientifico  questo  termine  sta  a  indicare  un’altra  caratteristica  dello  strumento  e  in  particolare quella di offrire garanzie  sulla coerenza dei  risultati di misure  ripetute della  stessa quantità. Un cilindro preciso è quindi quello che garantisce che, se misuriamo il volume di una stessa quantità di acqua più volte, il risultato dell’operazione sarà sempre sostanzialmente lo stesso. Uno strumento poco  sensibile  è  quindi,  usando  questa  terminologia,  solitamente molto  preciso:  pensate  a  un cilindro graduato con un’ampiezza della divisione di 100 ml  in cui versiamo una quantità d’acqua abbastanza grande, diciamo mezzo litro; sarà molto difficile che, ripetendo l’operazione più volte, ci capiti di stimare che l’altezza raggiunta dal liquido nel cilindro sia una volta più vicina alla tacca che  indica 400 ml, un’altra volta più vicina a 500 ml e un’altra ancora più vicina a 600 ml. D’altra parte  uno  strumento  di  questo  genere  sarebbe,  per  ritrovare  un  po’  l’accordo  tra  linguaggio scientifico e naturale, poco accurato nel senso che pur fornendo sempre  lo stesso risultato della misura  non  sarebbe,  per  esempio,  in  grado  di  apprezzare  in maniera  chiara  la  differenza  tra  il volume di una quantità d’acqua di poco superiore al mezzo litro e una di poco inferiore al mezzo litro,  anche  se  questa  differenza  fosse  dell’ordine  di  varie  decine  di  millilitri.  Insomma,  uno strumento poco  sensibile  sarà  tipicamente poco  accurato ma molto preciso.  E,  ragionando  allo stesso modo, uno strumento molto sensibile sarà poco preciso ma in generale molto più accurato. In  realtà  nel  progettare  uno  strumento  di misura  si  cerca  sempre  di  trovare  una  ragionevole ottimizzazione  di  sensibilità,  precisione  e  accuratezza  in  relazione  agli  scopi  per  i  quali  quello strumento può tornare utile. Se voglio misurare  il volume d’acqua all’interno di una cisterna per uso domestico, per esempio, progetterò un misuratore di volume che abbia bassa sensibilità (non mi interessa sapere se nel serbatoio ci sono 100 litri d’acqua o se invece ce ne sono 100 litri e 10 ml). Se  invece voglio misurare volumi di  liquidi da miscelare  in una sostanza da usare  in ambito farmacologico  avrò  bisogno  di  un  misuratore  di  volume  molto  molto  sensibile  e  anche ragionevolmente preciso. A proposito di quest’ultimo esempio, è  interessante sottolineare come sia nei  fatti  impossibile progettare uno  strumento  che  sia al  contempo molto  sensibile e molto preciso:  l’alta  sensibilità  richiede  sempre  l’uso  di  accorgimenti  tecnologici  che  vanno  a  scapito della precisione. Proviamo  a  capire meglio questa  cosa  con un  esempio diverso.  Pensiamo  alle bilance  da  cucina  analogiche  a  quadrante  circolare  che  abbiamo  usato  nelle  nostre  attività:  in principio ingrandendo il quadrante e aumentando la lunghezza della lancetta potremmo ottenere uno  strumento  sempre  più  sensibile  perché,  a  parità  di  angolo  coperto  dalla  lancetta, aumenterebbe  la  lunghezza dell’arco di  circonferenza  su  cui  si muove  la  sua punta e questo  ci permetterebbe di  aggiungere  sempre più  tacche  intermedie  sulla  scala  graduata e di diminuire quindi  il  valore  dell’ampiezza  della  divisione;  questo  procedimento  potrebbe  andare  avanti all’infinito, ma allungando la lancetta diventerebbe sempre più complicato progettare e realizzare le parti meccaniche che guidano il suo movimento in modo da garantire che essa copra sempre lo stesso angolo a parità di sollecitazione. Esistono in realtà molte tecniche comuni per aumentare la sensibilità  di  uno  strumento  senza  pregiudicarne  troppo  la  precisione,  ma  non  ci  sembra opportuno affrontare anche questo argomento in questa sede3. Per capire  invece come si possa ottenere una ragionevole ottimizzazione della sensibilità e della  precisione di uno strumento di misura, cominciamo col dare una definizione un po’ più precisa, 

                                                       3 Se volete farvi un’idea di quali possano essere queste tecniche, provate, a titolo d’esempio, a cercare del materiale che  spieghi  come  funziona  un  calibro  cosiddetto  ventesimale,  che  è  quell’oggetto,  con  un  regolo  e  una  sorta  di beccuccio  con  una parte  fissa  e  una mobile,  che  si  vede  a  volte  nelle  borse  degli  attrezzi  dei meccanici  e di  altri artigiani  e  che  serve  a misurare  lunghezze  piuttosto  piccole  con  sensibilità  e  precisione maggiori  di  quelle  di  un comune regolo con ampiezza della divisione di 1 mm. 

scusate  il  gioco  di  parole,  di  questa  grandezza.  Riferiamoci  ancora  a  una  bilancia  analogica  a quadrante  circolare.  Se  appoggiamo  più  volte  uno  stesso  oggetto  sulla  bilancia,  pur  facendo attenzione che ogni volta la lancetta riparta dallo zero, ci aspettiamo che la lancetta della bilancia non  raggiunga  sempre  esattamente  la  stessa  posizione  sul  quadrante. Ovviamente  si  tratta  di differenze  di  posizione  piccole, ma  che  sono  comunque  percepibili.  Possiamo  immaginare  che queste diverse posizioni della lancetta coprano un certo intervallo di valori di peso. Ebbene, si usa definire la precisione della bilancia (ma è facile generalizzare questa definizione a uno strumento qualsiasi)  dicendo  che  essa  è  inversamente  proporzionale  all’ampiezza  di  questo  intervallo.  A questo punto è chiaro come si possa realizzare l’ottimizzazione di uno strumento, nella fattispecie la  bilancia:  basta  fare  in modo  che  l’intervallo  che  definisce  la  precisione  dello  strumento  sia confrontabile  con  l’ampiezza  della  divisione.  Se  infatti  l’intervallo  fosse  molto  più  piccolo dell’ampiezza della divisione ci troveremmo nel caso già descritto di uno strumento di grandissima precisione ma  con  una  sensibilità molto  bassa.  Al  contrario,  se  l’ampiezza  dell’intervallo  fosse molto più grande dell’ampiezza della divisione,  i risultati di misure ripetute dello stesso valore di una  grandezza  sarebbero  molto  differenti  tra  loro,  rendendo  lo  strumento  difficilmente utilizzabile.      Ribadiamo  quindi  che  nel  progettare  uno  strumento  di  misura  bisogna  trovare  una  giusta combinazione di queste sue caratteristiche fondamentali che sia ragionevole  in base all’ordine di grandezza delle quantità che dobbiamo misurare. In questo discorso entra anche  la portata dello strumento,  ossia  la massima  quantità  che  questo  è  in  grado  di misurare.  La  sensibilità  dello strumento sarà certamente legata alla portata dello strumento (pensate all’esempio della cisterna) e, a parità di portata, potrò ottenere strumenti di diversa sensibilità e di diversa precisione grazie al  processo  di  ottimizzazione  descritto  sopra  che  può  essere messo  in  atto  durante  la  fase  di taratura dello strumento, oltre che nella sua progettazione.   Accuratezza di una misura, errori assoluti e relativi Torniamo ora all’idea di accuratezza e proviamo a cercare di stabilire un criterio che possa dirci se una misura è accurata o meno. In termini piuttosto astratti possiamo definire l’accuratezza come la  differenza  tra  la  stima  di  una  grandezza  che  riusciamo  ad  ottenere  e  il  suo  valore atteso  (o valore  vero), ossia  il  valore di quella grandezza  che,  su base  teorica o prendendo a  riferimento un’altra  operazione  di  misura,  ci  aspettiamo  ragionevolmente  come  risultato  della  nostra operazione  di misura.  Analogamente,  l’accuratezza  di  uno  strumento  sarà  la  differenza  tra  la miglior  stima del valore di una grandezza che  riusciamo a dare eseguendo con  lo  strumento un gran numero di misure4 e  il valore atteso. Il concetto di valore atteso può sembrare astratto, ma diventa  molto  più  comprensibile  se  lo  contestualizziamo.  Per  esempio,  facendo  riferimento all’attività della misura della  lunghezza degli spaghetti5, è  ragionevole supporre che  la macchina che taglia gli spaghetti sia progettata  in modo da produrre spaghetti di una certa  lunghezza ben definita. Anzi questa  lunghezza di riferimento sarà sicuramente utilizzata nei calcoli  ingegneristici necessari  alla  progettazione  delle  sue  parti meccaniche.  D’altra  parte,  è  chiaro  anche  che  la macchina  in opera ha un suo grado di accuratezza nel riprodurre  il valore atteso della  lunghezza 

                                                       4 Sull’opportunità di operare più volte la misura di una stessa grandezza con lo stesso strumento torneremo più avanti. Pensate però alla definizione di precisione di uno strumento che abbiamo appena dato e al fatto che uno strumento non è in generale infinitamente preciso. 5 Si trattava di estrarre circa 200 spaghetti da un’unica confezione, misurando la lunghezza di ciascuno con un righello (ampiezza della divisione di 1 mm) e riportando in una tabella le frequenze assolute delle diverse lunghezze misurate. 

degli spaghetti e  in sostanza  la nostra operazione di misura aveva proprio  lo scopo di valutare  il grado di accuratezza di quella macchina. Se  invece  facessimo  riferimento  a  un’ipotetica  misura  dell’accelerazione  di  gravità  terrestre (potremmo  realizzarla  facendo  cadere  oggetti  da  una  quota misurata  e misurando  il  tempo  di caduta, oppure misurando il periodo di oscillazione di un pendolo e in tanti altri modi), saremmo in  un  contesto  in  cui  esistono misure  di  riferimento molto  accurate  (e  certamente molto, ma molto, più accurate delle nostre) e allora  lo scopo dell’operazione di misura potrebbe diventare quello di stimare  l’accuratezza della nostra operazione di misura usando come valore atteso una stima dell’accelerazione di gravità ottenuta con strumenti a noi non accessibili.  Ma  come  faremmo  a  stimare  l’accuratezza della nostra operazione di misura? Mettiamo  che  il nostro esperimento consista nel lasciare cadere un oggetto pesante dal tetto di una palazzina alta 10 metri  6, misurando  il  tempo di caduta  con un  cronometro.  Le  leggi della  fisica ci dicono  che possiamo  ottenere  una  stima  dell’accelerazione  di  gravità  dividendo  il  doppio  della  quota  di caduta per  il quadrato del tempo di caduta. Se stiamo usando  il cronometro del nostro telefono cellulare,  il  nostro  strumento  di  misura  è  tipicamente  caratterizzato  da  una  ampiezza  della divisione7 pari a un  centesimo di  secondo.  Immaginiamo  che  il  risultato della nostra misura del tempo di caduta sia 1,46 secondi. Facciamo i calcoli: 1,46 secondi al quadrato fa circa 2,13 secondi quadri; 10 metri per 2 diviso 2,13 secondi quadri fa circa 9,39 metri al secondo quadro. Il valore di riferimento attualmente accettato dalla comunità scientifica  internazionale per  l’accelerazione di gravità  terrestre g è di 9,80665 metri  al  secondo quadro8.  E  allora? Abbiamo  fatto una misura accurata  o  no?  Per  rispondere  a  questa  domanda  potremmo  far  riferimento  al  buon  senso: considerando gli strumenti di misura che abbiamo utilizzato tutto sommato non sembra così male. Ma se volessimo usare questa stima nei calcoli per  la progettazione di un ponte o per  il  lancio  in orbita di un satellite andremmo incontro a guai piuttosto seri.  Ma abbiamo un modo oggettivo per valutare  il grado di accuratezza di una misura? La risposta a questa domanda è sì: questo modo oggettivo passa per  la valutazione degli errori  intrinseci alla nostra misura. E allora  lasciamo da parte  l’accelerazione di gravità e proviamo a discutere degli errori di misura in relazione alle esperienze che abbiamo fatto insieme.  Prendiamo questa volta  l’esempio della misura di  lunghezze con unità arbitrarie e  in particolare facciamo riferimento alla misura della lunghezza di un tavolo in penne.  

                                                        6 Altezza che abbiamo misurato in qualche modo o della quale siamo a conoscenza perché così è scritto nei documenti catastali. 7 Si noti che possiamo usare questa dizione anche per gli strumenti digitali che non hanno né tacche né indici graduati su cui leggere il risultato della misura. 8 L’accelerazione di gravità non è  identica  in  tutti  i  luoghi della Terra poiché dipende dalla  latitudine e dalla quota rispetto al livello del mare. Questo valore di riferimento è un valore medio, che approssima il valore dell'accelerazione di gravità presente al livello del mare a una latitudine di 45,5° (che, tra l’altro, non è lontana da quella di Napoli). 

La misura della  lunghezza del tavolo  in penne è di 8 e un po’. Dalle argomentazioni che seguono (nelle note del gruppo che ha fatto questa esperienza) si capisce che il po’ in questione è in realtà un terzo di penna e  in effetti avendo un po’ di tempo a disposizione avremmo potuto provare a segnare sulla penna delle tacche che  indicassero  i sottomultipli di  lunghezza della penna, un po’ come se  fosse un  righello su cui ci sono  le  tacche per centimetri e millimetri. Allo stesso modo, nell’esperienza della misura delle aree di superfici col foglio A4 si sono utilizzati come regoli per la misura sia  fogli  interi che parti  (sottomultipli) di  foglio. La necessità di usare sottomultipli nasce dalla  circostanza  che  l’oggetto  che  stiamo misurando  non  contiene  un  numero  esatto  di  regoli interi. Se, nel caso della penna, non usassimo il terzo di penna come sottounità di misura saremmo costretti a stimare la lunghezza del tavolo per evidente difetto (dicendo che è lungo 4 penne) o per evidente eccesso (dicendo che è lungo 5 penne).  Utilizzare  i  sottomultipli  rende  insomma  la  nostra misura  più  accurata.  E  se  volessimo  ancora migliorare  l’accuratezza  della  nostra misura?  È  chiaro  che  non  dovremmo  far  altro  che  usare sottomultipli più piccoli per riuscire sempre meglio a far combaciare le estremità del nostro regolo con  quelle  dell’oggetto  che  stiamo  misurando.  Ovviamente  questo  discorso  si  ricollega  alla questione  della  sensibilità  e  della  precisione  degli  strumenti  che  stavamo  facendo  più  sopra: usando sottomultipli sempre più piccoli possiamo aumentare la sensibilità del nostro strumento di misura; ma non possiamo andare avanti all’infinito perché se usiamo pezzi troppo piccoli, questo inficerà  la precisione della nostra misura semplicemente perché ripetendo  le operazioni da capo non saremo in grado di riprodurle esattamente nello stesso modo e il risultato finale sarà diverso. Ma concentriamoci sull’accuratezza: usando sottomultipli più piccoli (entro certi limiti) rendiamo il nostro strumento più sensibile e  la nostra misura più accurata. Se misuro  la  lunghezza del banco usando come unità di misura più piccola il terzo di penna, quello che faccio è contare quanti terzi di penna mi servono per coprire una lunghezza pari a quella del banco. Se allora dico che il banco è lungo  8  penne  e  un  terzo  a  questa misura  è  associata  una  incertezza  di  1/3  di  penna. Questa incertezza dà  conto del  fatto  che  la mia misura è  intrinsecamente approssimata e  che  il  valore atteso è ragionevolmente compreso tra due valori simmetrici rispetto alla miglior stima che riesco a fornire e che sono quelli che corrispondono a contare una divisione  in meno o una divisione  in più della mia miglior stima sulla scala graduata. Riassumendo in scrittura matematica, la maniera usuale di presentare il risultato di questa misura è  Lunghezza del tavolo = (8 penne + 1/3 penna) ±  1/3 di penna  (8  penne  +  1/3  penna)  è  la miglior  stima  della  lunghezza  del  tavolo  e  1/3  penna  è  l’errore  di sensibilità  associato  alla  mia  misura.  In  altre  parole,  questa  scrittura  sta  a  significare  che  la lunghezza del tavolo è compresa nell’intervallo di lunghezze che va da (8 penne) a (8 penne + 2/3 di penna). Confrontiamo ora questa misura con quella fatta col righello. La lunghezza stimata del tavolo è in questo caso pari a 130 cm. L’ampiezza della divisione del righello è pari a 1 mm. Il risultato della misura col righello si può allora scrivere nella forma  Lunghezza del tavolo = 130,0 cm ± 0,1 cm  oppure anche, il che è lo stesso  Lunghezza del tavolo = 1300 mm ± 1 mm  

Ora abbiamo due diverse misure della stessa lunghezza e possiamo chiederci se esista un modo di confrontarne la qualità. Potremmo pensare di utilizzare la definizione di accuratezza che abbiamo dato (la differenza tra la miglior stima e il valore atteso), ma questo presenta due difficoltà: prima di  tutto,  in questo caso non abbiamo un valore atteso ben definito, a meno che non abbiamo a disposizione o  la  lunghezza del banco dichiarata dal  costruttore o una misura operata  con uno strumento molto migliore di quelli a nostra disposizione; inoltre, le due misure non sono espresse nelle stesse unità. Della prima difficoltà ci occuperemo a breve. La seconda è una falsa difficoltà, perché possiamo tradurre una delle due misure nelle unità dell’altra, come del resto viene  fatto nella  tabella  riportata  in  precedenza.  Lasciando  per  il  momento  da  parte  alcune  sottigliezze relative al modo di operare questa  traduzione, possiamo  limitarci a constatare che una penna è lunga 15 cm e che quindi un terzo di penna è lungo 5 cm. Riscriviamo allora la misura in penne e per comodità riportiamola in millimetri  Lunghezza del tavolo= 1300 mm ± 50 mm  Qual è a questo punto la misura più accurata? Anche se avessimo risolto il problema di trovare un valore di riferimento per la nostra misura, la risposta sarebbe che le due misure sono ugualmente accurate, semplicemente perché  la miglior stima che  forniscono è  identica. E allora? Siamo  tutti portati a pensare che la misura fatta col righello sia migliore di quella fatta con le penne. Ma come possiamo  argomentare  a  proposito  di  questa  cosa  che  ci  pare  quasi  ovvia?  L’argomento  che possiamo utilizzare è l’errore associato alla miglior stima: mentre la misura col righello ci dice che la lunghezza del banco è compresa tra 1299 mm e 1301 mm, la misura con le penne ci dice che la lunghezza è compresa tra 1250 mm e 1350 mm. La misura con  le penne ha quindi un’incertezza molto più grande,  il che ci dice che è una misura meno precisa della precedente, pur restando  il fatto che  le migliori stime sono  identiche. Senza che ci sia neanche bisogno di cambiare unità di misura, possiamo esprimere questo stesso concetto definendo l’errore relativo della nostra misura come rapporto tra l’errore assoluto9 e la miglior stima. Abbiamo allora  Errore relativo misura penna = (1/3 penna) / (8 penne + 1/3 penna) = 0,04 Errore relativo misura righello = (1 mm) / (1300 mm) = 0,0008   L’errore relativo della misura con la penna è 50 volte più grande di quello della misura col righello. Questo ci può bastare a concludere che la misura con il righello è la più precisa.  Ragionando  in  termini più  generali,  il  criterio  che possiamo usare per  stabilire un ordinamento qualitativo  tra diverse misure di una  stessa  grandezza è quello del  grado di  accordo  col  valore atteso.  Riprendiamo  l’esempio  dell’accelerazione  di  gravità.  Abbiamo  detto  che  il  valore  di riferimento è  g = (9,80665 ± 0,00001) m/s2  Mettiamo  allora di  avere ottenuto due diverse misure di g operando  con  tecniche e  strumenti diversi e che i risultati di queste due misure siano  g1 =  (9,6 ± 0,4) m/s2 g2 =  (9,72 ± 0,02) m/s2 

                                                       9 Abbiamo già implicitamente definito l’errore assoluto della misura che è quello che compare nelle espressioni delle misure scritte fin qui come incertezza associata alla nostra miglior stima. 

La prima misura ha un errore relativo pari a circa 0,04 mentre per la seconda l’errore relativo è di circa 0,002, che è molto più piccolo di quello della prima. La seconda misura è più accurata perché la miglior stima è più vicina al valore atteso. Tuttavia mentre per  la prima misura  il valore atteso cade nell’intervallo determinato da miglior  stima ed errore  assoluto  (che  va da 9,2  a 10 m/s2), questo non si verifica per la seconda misura. Quest’ultimo è il criterio più importante per capire la qualità del risultato della misura. Si usa dire che il risultato della seconda misura non è consistente col valore atteso e quindi in questo caso dovremmo ritenere la prima misura più attendibile della seconda.  Il punto a cui siamo arrivati potrebbe sembrare paradossale: pur usando strumenti più sensibili e più accurati, si può comunque ottenere una misura più scadente perché non consistente col valore atteso.  Per  fare  un  po’  di  luce  su  questo  paradosso  dobbiamo  approfondire  ancora  un  po’  la discussione sugli errori di misura.   Errori sistematici, errori massimi e errori statistici In tutte le operazioni di misura che abbiamo descritto fin qui non ci siamo mai posti il problema di effettuare la stessa misura più di una volta. Se misuro la lunghezza del tavolo col righello o l’area della  LIM  con  un  foglio  A4  o  ancora  il  volume  di  una  certa  quantità  d’acqua  con  un  cilindro graduato,  mi  aspetto  che  ripetendo  la  procedura  il  risultato  non  cambierà.  E  effettivamente questo è ciò che accade a patto di non commettere sbagli nella procedura. Per esempio, usando il righello, potrei misurare una  lunghezza non facendo combaciare una delle estremità dell’oggetto che sto misurando con  lo zero del righello. Questo  introdurrebbe quello che si chiama un errore sistematico. Questo nome  sta chiaramente a  indicare che  le mie misure  sono  sistematicamente affette da un errore che  le allontana dal valore atteso di una certa quantità  fissata. Per  fare un esempio  forse  ancora  più  chiaro  è  un  errore  sistematico  quello  che  commetto  quando  non controllo l’azzeramento di una bilancia prima di effettuare una misura di peso. Così facendo le mie misure saranno sempre sovrastimate o sottostimate di una quantità fissata. Gli  errori  sistematici  sono  una  possibilità  che  dobbiamo  sempre  tenere  in  conto.  Quando  il risultato di una misura è preciso ma è, allo stesso tempo, lontano dal valore atteso (dando luogo a una misura non consistente con esso), siamo di fronte a due possibilità: o  la nostra misura ci sta dicendo  che  il  valore  atteso  è  sbagliato  (possibilità,  questa,  che  difficilmente  si  verifica  in un’esperienza di  laboratorio didattico), oppure  stiamo  commettendo un errore  sistematico. Nel secondo  caso  sarà  interessante  cercare di  scovare  l’origine di questo errore. Se  ci convinciamo, oltre  ogni  ragionevole  dubbio,  che  non  abbiamo  commesso  errori  sistematici  allora  dobbiamo provare a capire se ci sono ragioni valide per supporre che il valore atteso non sia corretto. In un laboratorio didattico potrebbe succedere che  il valore di riferimento di una grandezza fornito dal costruttore (per esempio  la  lunghezza del banco) sia effettivamente errato, oppure,  in casi come quello della misura di una costante della fisica (come l’accelerazione di gravità), siamo noi ad aver preso  il valore di riferimento sbagliato.  In un  laboratorio scientifico, una misura non consistente col valore atteso e che non  sembra affetta da errori  sistematici è quella che potrebbe aprire  la strada  a una  scoperta  scientifica. D’altra parte non  sono  rari  i  casi  in  cui  l’entusiasmo per una misura che sembra aprire nuovi orizzonti si spegne brutalmente quando si scopre che era stato commesso un qualche errore nella procedura sperimentale10.  

                                                       10 Un caso recente, che ha avuto una certa risonanza mediatica, è quello della presunta scoperta di un’anomalia nella velocità di propagazione dei neutrini tale da renderli “più veloci della luce”, che si è poi stabilito essere dovuta a difetti di calibrazione di alcuni degli strumenti facenti parte del complicato apparato sperimentale utilizzato. 

Pensiamo  ora  all’esempio  fatto  in  precedenza  della misura  del  tempo  di  caduta  di  un  oggetto pesante da una certa altezza. Quando lo abbiamo descritto, abbiamo per comodità immaginato di fare una sola misura di tempo con un cronometro al centesimo di secondo. Ma se effettivamente realizzassimo  un’operazione  di misura  come  questa  o  una  analoga  in  cui  bisogna  far  partire  e fermare un cronometro reagendo,  in determinati  istanti di tempo11, al procedere del movimento di un oggetto, non  ci aspetteremmo di ottenere  sempre  lo  stesso  risultato  ripetendo  la misura nelle stesse condizioni. Questa non uniformità dei risultati della misura potrebbe dipendere dalle caratteristiche  dello  strumento  che  stiamo  utilizzando, ma,  come  si  può  facilmente  constatare provando  a  fare  questo  tipo  di  misura,  essa  dipende  principalmente  dalla  capacità  dello sperimentatore di  azionare  e  fermare  il  cronometro  in  sincronia  con  gli  eventi  che definiscono l’inizio e la fine dell’intervallo di tempo da misurare. Al di là della minore o maggiore bravura dello sperimentatore  a  rispettare  questa  sincronia,  esistono  dei  limiti  fisiologici  al  nostro  tempo  di reazione, ossia al tempo che passa dall’istante  in cui vediamo che un certo evento è accaduto a quello in cui schiacciamo il pulsante del cronometro. Questo tempo di reazione viene solitamente quantificato  in circa un decimo di secondo. Quello che si osserva, misurando  intervalli di  tempo non  troppo  lunghi  (diciamo di qualche  secondo), è  che  la  gran parte dei  risultati  (diversi) delle misure che effettuiamo differiscono  tra  loro per non più di un decimo di  secondo. Si usa allora esprimere  il  risultato  della misura  di  tempo  effettuata,  dando  come miglior  stima  della  durata dell’intervallo di tempo la media aritmetica dei risultati delle misure e attribuendo a questa miglior stima un errore pari a un decimo di secondo. Questo tipo di errore di misura viene detto errore massimo, perché si suppone che sia più grande di quello associabile a altre possibili fonti di errore e lo si assume quindi come miglior stima dell’errore commesso nell’operazione di misura12.  Pensiamo  ora  a  un’altra  situazione  della  quale  già  discutemmo  durante  gli  incontri.  Vogliamo misurare  una  lunghezza  pari  a  diversi metri  (negli  incontri  immaginammo  di  voler misurare  la lunghezza di una delle pareti di un’aula) usando un righello. Immaginiamo la procedura. Parto da una delle estremità della parete allineando con essa lo zero del righello. Il righello avrà ovviamente una portata limitata, diciamo 30 cm. Quello che posso fare è mettere un segno di qualche genere che coincida con la posizione della tacca che indica 30 cm. A questo punto non devo far altro che spostare  il righello  in modo che  lo zero coincida con questo segno e poi reiterare  l’operazione  il numero di volte necessario a raggiungere l’altra estremità dell’oggetto che sto misurando. Con un po’ di  aritmetica otteniamo  la nostra  stima della  lunghezza  in questione. Ma quanto possiamo fidarci  di  questa  stima?  Che  errore  dobbiamo  associare  alla  nostra  misura?  In  prima  istanza potremmo essere tentati di ragionare come fatto  in precedenza e di attribuire perciò alla nostra misura un errore massimo pari all’errore di sensibilità del righello, che è di 1 mm. A ben guardare però, la procedura di misura che abbiamo effettuato è caratterizzata da un grado di incertezza ben maggiore:  per  portare  a  termine  la  nostra misura  abbiamo  dovuto  infatti  ripetere  più  volte  la procedura di allineamento dello zero col segno che abbiamo messo dove si trovava in precedenza la  tacca  dei  30  cm.  Pur  procedendo  con  grande  perizia  è  inevitabile  che  l’operazione  di allineamento  sia  imperfetta  e  sommando  i  piccoli  errori  prodotti  da  molte  operazioni  di allineamento  ci  aspettiamo  che  questi  possano  produrre  un  errore  di  entità  non  esattamente prevedibile sulla misura complessiva. Che  le cose stiano effettivamente così possiamo verificarlo 

                                                       11 Nel caso della caduta di un oggetto dobbiamo azionare il cronometro quando questo comincia a cadere e fermarlo quando l’oggetto tocca il suolo. Un tempo, è bene ricordarlo, si faceva qualcosa di analogo per cronometrare le gare di corsa dell’atletica leggera e in generale tutte le competizioni sportive che si disputassero su tragitti determinati, ossia con una linea di partenza e una di arrivo. 12  Si  noti  che,  in  base  a questa  definizione,  l’errore  di  sensibilità  che  abbiamo usato nelle misure  col  cilindro,  col righello o con le penne è un errore massimo. 

ripetendo tutta l’operazione di misura più volte: come nel caso delle misure di tempo descritte in precedenza,  otterremo  risultati  sempre  diversi.  A  differenza  del  caso  del  cronometro,  qui  non abbiamo però un criterio ragionevole per quantificare l’errore commesso. La nostra miglior stima della  lunghezza  da misurare  sarà  come  nel  caso  precedente  la  media  aritmetica  dei  risultati ottenuti. Ma qual è  l’errore da attribuire a questa  stima? Ancora una volta ci viene  in aiuto un criterio di ragionevolezza: non c’è ragione di supporre che le imprecisioni di allineamento abbiano prodotto  errori  che  vadano  tutti  in  una  stessa  direzione  e  che  perciò  ci  portino  sempre  a sottostimare  o  a  sovrastimare  la  lunghezza  da  misurare  (errore  sistematico);  ci  aspettiamo piuttosto che questi errori possano allontanare  la nostra misura dal valore atteso  in maniera del tutto casuale.  Una  volta  tirata  in  ballo  la  casualità,  dobbiamo  aprire  un  nuovo  intero  capitolo  di  questa discussione  a  proposito  di  quegli  elementi  della  teoria  della  probabilità  e  di  statistica  che  ci servono per descrivere una variabile (nella fattispecie il risultato della nostra misura di lunghezza) che  si  comporta  in maniera  casuale.  Per  il momento  limitiamoci  a  osservare  che  probabilità  e statistica ci suggeriscono quale sia la maniera più ragionevole di valutare l’errore commesso nella nostra misura di lunghezza. L’errore in questione è un errore statistico e possiamo darne una stima con quella che  in  statistica  si chiama deviazione  standard. Senza entrare  in dettagli matematici, possiamo dire che la deviazione standard associata al nostro insieme di risultati dà conto di come essi  sono  distribuiti  attorno  alla  nostra miglior  stima  del  risultato  della misura,  ossia  la media aritmetica, operando una media delle entità degli scarti di ogni singola misura da questo valore.  Ogniqualvolta ci  troviamo di  fronte a un’operazione di misura che,  se  ripetuta, non  riproduce  il medesimo risultato e laddove non si riesca a individuare nessuna causa evidente di errore che sia quantificabile (il caso dell’errore massimo), il risultato complessivo della misura si esprime dando come miglior stima  la media aritmetica dei risultati delle misure e associando a questa  il relativo errore statistico, ossia la deviazione standard relativa all’insieme di tutte le misure.    Errore di sensibilità e errore di lettura Prima di procedere  con  la discussione dei  concetti probabilistici e  statistici  che  ci  sono utili per trattare  tutte  le  situazioni  in  cui  operiamo  misure  ripetute,  vogliamo  fare  qualche  ulteriore precisazione sui concetti introdotti fino a questo punto.  Partiamo  dalla misura  di  una  lunghezza  operata  con  un  righello  con  una  portata  di  20  cm  e caratterizzato da un’ampiezza della divisione di 1 mm. Immaginiamo di voler misurare la lunghezza di  una  penna.  Riprendendo  il  discorso  sul  valore  atteso  e  sull’attendibilità  delle  operazioni  di misura,  dobbiamo  fare  una  prima  precisazione.  Mettiamo  che  il  valore  di  riferimento  per  la lunghezza della penna, fornito dal costruttore, sia di 15 cm.  Il valore di riferimento è espresso  in centimetri senza cifre decimali, il che vuol dire che dobbiamo in principio attribuirgli un’incertezza di  1  cm. Dal  punto  di  vista  della  teoria  degli  errori  di misura  non  è  la  stessa  cosa  dire  che  la lunghezza  della  penna  ha  un  valore  di  riferimento  di  15  cm  o  di  150 mm;  nel  secondo  caso l’incertezza da attribuire al valore di riferimento è di 1 mm. Come ben sappiamo le due scritture 15 cm e 150 mm indicano lunghezze equivalenti, ma differiscono per il numero di cifre significative: la prima ne ha 2,  la seconda 3. Si assume allora che, quando  l’entità dell’errore non è esplicitata,  il valore di una misura sia affetto da un errore unitario sull’ultima cifra significativa: se dico 15 cm sto allora implicitamente dicendo 15 cm ± 1 cm, se dico 150 mm sto dicendo 150 mm ± 1 mm o, il che è lo stesso, 15,0 cm ± 0,1 cm. 

Questo tipo di errore è quello che abbiamo chiamato errore massimo, ed è lo stesso tipo di errore che attribuiamo alla misura della  lunghezza della penna che  facciamo col  righello. Se  il  risultato della  misura13  è  14,9  cm,  la  nostra  misura  sarà  affetta  da  un  errore  di  0,1  cm  che  è  pari all’ampiezza  della  divisione  della  scala  graduata  del  nostro  strumento. Questo  secondo  errore massimo  è  associato  quindi  alla  possibilità  di  leggere  il  risultato  della misura  che  ci  offre  lo strumento che stiamo utilizzando. All’apparenza abbiamo costruito un modo coerente di attribuire errori massimi alle misure effettuate con uno strumento dotato di scala graduata, ma in realtà la questione è un po’ più articolata.  Sempre in un contesto di misure di lunghezza, immaginiamo di trovarci di fronte a una situazione come quella rappresentata nella figura qui sotto:   

   Stiamo stimando  la  lunghezza di un oggetto con una  riga  lunga 1 m e che ha un’ampiezza della divisione di 1 cm. Un’estremità dell’oggetto coincide con lo zero della riga, l’altra ci appare come in  figura14. Quale  sarà  il  risultato  della  nostra misura?  Procedendo  come  abbiamo  fatto  finora dovremmo innanzitutto decidere se l’estremità dell’oggetto è più vicina alla tacca degli 85 cm o a quella degli 86 cm e penso saremo tutti d’accordo nello scegliere  la seconda opzione.  Il risultato della misura sarebbe allora  86 cm ± 1 cm  Ci  sembra un  risultato  soddisfacente? Esplicitandone  il  significato,  stiamo dicendo  che  il nostro oggetto  è  lungo  tra  85  e  87  cm… …vada  per  l’85, ma  l’87  appare  ben  lontano  dalla  posizione dell’estremità dell’oggetto. Si tratta di un esempio un po’ forzato (di solito le righe hanno le tacche per  i millimetri) ma che ci serve a evidenziare  il fatto che  le definizioni che abbiamo dato fin qui possano non  essere del  tutto  soddisfacenti,  almeno non  in  tutti  i  casi.  Scegliendo  come errore massimo per  la nostra  lettura della  scala graduata dello  strumento  l’ampiezza della divisione  ci siamo  in qualche modo  tenuti  larghi per evitare di  sottostimare  l’errore  commesso. Ma questa scelta può in certi casi presentare il problema contrario, ossia una evidente sovrastima dell’errore che  commettiamo.  Come  si  viene  a  capo  di  questo  problema?  La  questione  è  in  effetti molto dibattuta  anche  nella  comunità  scientifica  e  il  modo  più  ragionevole  di  risolverla  sta nell’ammettere che  l’errore da attribuire alla  lettura di una scala graduata può essere diverso  in situazioni diverse e può dipendere anche dall’abilità dello sperimentatore nell’operare  la  lettura. Senza entrare in disquisizioni teoriche, proviamo a capire di cosa stiamo parlando sempre facendo riferimento alla  figura  riportata qui  sopra. Probabilmente  saremmo  tutti d’accordo nel dire  che l’estremità dell’oggetto che stiamo misurando si trova più o meno a metà tra la tacca che indica gli 85 cm e quella che indica gli 86 cm. In questa situazione, e in tante situazioni analoghe nelle quali 

                                                       13  Abbiamo  già  discusso  il  fatto  che  in  una  misura  di  questo  tipo  non  abbiamo  necessità  di  ripetere  più  volte l’operazione di misura poiché essa ci fornisce sempre il medesimo risultato. 14 Si noti che la figura è in buona approssimazione in scala 1:1.  

possiamo trovarci, è ragionevole allora leggere il risultato della misura come 85,5 cm. Se facciamo questa scelta (che è motivata dal fatto che lo strumento che stiamo usando e la nostra capacità di risoluzione visiva ci permettono di farla), stiamo dicendo che siamo in grado di leggere sulla nostra scala  valori  che  stanno  più  o  meno  a  metà  tra  una  tacca  e  la  successiva  e  quindi  stiamo implicitamente stimando un errore di lettura che non è più pari all’intera ampiezza della divisione ma alla sua metà. Potremo allora riscrivere il risultato della nostra misura nella forma  85,5 cm ± 0,5 cm  che  è  una  stima  assolutamente  legittima  dal  punto  vista  “teorico”  e  che  è  anche molto  più ragionevole della precedente perché ci dice che la lunghezza del nostro oggetto è compresa tra 85 cm e 86 cm. Qualcuno potrebbe però ancora obiettare che l’estremità dell’oggetto, pur stando più o meno nel mezzo tra le due tacche, si trova visibilmente più vicina alla tacca degli 86 cm che non a  quella  degli  85  cm.  Ragionando  in  termini  del  tutto  analoghi,  così  come  abbiamo  detto  che eravamo in grado di apprezzare la mezza ampiezza della divisione tra le tacche potremmo dire che siamo  in grado di apprezzare un quarto, un quinto o addirittura un decimo di questa ampiezza. Conseguentemente potremmo scrivere il risultato della nostra misura come  85,50 cm ± 0,25 cm  85,6 cm ± 0,2 cm  85,6 cm ± 0,1 cm  e  tutte queste scritture sarebbero assolutamente  legittime nella misura  in cui siamo  in grado di argomentare  a  proposito  della  nostra  capacità  di  leggere  la  scala  con  questi  diversi  gradi  di approssimazione. L’errore massimo associato alla  lettura di una scala graduata andrebbe quindi chiamato errore di lettura e non errore di sensibilità come avevamo fatto  in precedenza. Spesso questi due concetti sono  sovrapponibili,  ma  in  molti  altri  casi  possono  essere  molto  diversi.  Vi  ricordiamo  che avevamo  definito  l’errore  di  sensibilità  di  uno  strumento  come  la  più  piccola  variazione  della quantità  da  misurare  che  lo  strumento  è  in  grado  di  rilevare15.  Di  solito  gli  strumenti  sono progettati  in  modo  che  questa  variazione  sia  molto  prossima  alla  più  piccola  quantità  che possiamo leggere sulla scala graduata, ma è difficile che le due quantità siano esattamente uguali. Pensate  all’ago  di  una  bilancia  da  cucina:  a  fronte  di  un’ampiezza  della  divisione  che  è,  ad esempio,  di  20  grammi,  capita  spesso  che  l’ago  si  sposti  anche  quando  aggiungiamo  a  ciò  che stiamo pesando un piccolo peso aggiuntivo pari a pochi grammi. Se prima di questa aggiunta l’ago si  trovava  in coincidenza con una  tacca della scala, dopo  l’aggiunta si  troverà nel mezzo  tra due tacche. Questo ci dice che la bilancia risponde all’aggiunta di pochi grammi sul suo piatto e che la scala graduata non ci permette di leggere in maniera univoca il piccolo spostamento dell’ago che pure percepiamo in maniera chiara. Per l’errore di lettura potremmo procedere con la bilancia in maniera  del  tutto  analoga  a  quanto  fatto  per  il  righello.  L’errore  di  sensibilità  della  bilancia  è certamente  più  piccolo  dell’ampiezza  della  divisione, ma  è  difficile  stimarlo  in maniera  chiara anche e soprattutto perché non è quantità costante: come quasi tutti gli strumenti, la bilancia non reagisce sempre allo stesso modo a una medesima piccola sollecitazione: se mettiamo un oggetto che  pesa  pochi  grammi  sul  piatto  della  bilancia  vuoto,  la  bilancia  non  darà  sostanzialmente 

                                                       15  E  che  avevamo  stabilito  che  la  sensibilità  fosse  l’inverso  di  questa  quantità:  quanto  più  l’errore  di  sensibilità  è piccolo, tanto più lo strumento è sensibile. 

nessuna risposta; se  lo facciamo quando sul piatto c’è già un peso abbastanza grande (diciamo 2 kg su una bilancia con una portata di 5kg) la risposta della bilancia sarà chiaramente percettibile.  Si  tratta  di  una  situazione  abbastanza  intricata  e  la  convenzione  di  assumere  come  stima dell’errore massimo l’intera ampiezza della divisione è proprio un modo per venirne a capo senza impelagarsi  in  troppe disquisizioni. Possiamo allora  continuare ad adottare questa  convenzione, avendo  la  giusta  flessibilità  nel  decidere,  in  taluni  casi,  che  è  possibile  diminuire  l’ampiezza  di questo errore senza correre il rischio di sottostimarlo.      

Errori statistici e variabili casuali continue La teoria degli errori massimi si applica a tutte le situazioni nelle quali non sia necessario ricorrere a misure ripetute, ossia a tutte quelle operazioni di misura nelle quali non siano presenti rilevanti fluttuazioni  casuali  nella  risposta  dello  strumento,  nelle  operazioni  che  lo  sperimentatore  deve compiere per azionare lo strumento e nel valore atteso della grandezza che stiamo misurando. Il primo tipo di fluttuazione è associato alla scarsa precisione dello strumento in relazione al tipo di misura  che  stiamo  effettuando  e  di  questo  abbiamo  già  discusso.  Il  secondo  è  tipicamente associato  ai  tempi  di  reazione  dello  sperimentatore  nel  seguire  lo  svolgersi  nel  tempo  delle trasformazioni  del  sistema  sulle  quali  stiamo  focalizzando  la  nostra  attenzione  (come  abbiamo visto nelle misure di  tempo con  il cronometro azionato a mano o come potremmo vedere nella misura con un termometro di una temperatura che sta variando nel tempo). Il terzo è associato a possibili  (e non  facilmente quantificabili)  interazioni del  sistema  sul quale  stiamo effettuando  le nostre misure con altri sistemi circostanti. In  tutti  questi  casi  si  rende  necessario  ripetere  più  volte  una  stessa  operazione  di misura  e  di operare poi con strumenti statistici per riassumerne i risultati in un’unica stima del valore atteso, alla quale attribuiamo un errore statistico che deve tener conto dell’intero insieme di operazioni di misura effettuate e del modo  in  cui  i  loro  risultati  sono distribuiti  rispetto alla  stima del valore atteso. Abbiamo  già  accennato  a  quali  siano  gli  strumenti  statistici  che  possiamo  usare  in  queste situazioni:  la miglior  stima  sarà  data  dalla media  aritmetica  dei  risultati  delle misure;  l’errore statistico  su  questa  stima  sarà  dato  dalla  cosiddetta  deviazione  standard,  che  è  anch’essa  una stima e  in particolare,  lo ribadiamo, è una stima dell’entità degli scarti tra  le singole misure e  la loro media aritmetica.  Ci  siamo  cimentati  in  questo  lavoro  di  elaborazione  statistica  dei  dati  quando  abbiamo  fatto misure  di  intervalli  di  tempo  usando  i  cronometri  dei  nostri  telefoni  cellulari.  Facciamo  allora riferimento  a  una  delle  misure  che  abbiamo  effettuato:  si  trattava  di  misurare  il  tempo  T necessario a una slinky sopsesa a una sua estremità per effettuare dieci oscillazioni complete  in verticale. Abbiamo raccolto 27 misure  indipendenti (compiute da 27 diversi sperimentatori) dello stesso intervallo di tempo ovverosia, appunto, quello necessario affinché la slinky compiesse dieci oscillazioni.  I  risultati  ottenuti  sono  riportati  qui  sotto  nella  forma  di  un  istogramma  delle frequenze assolute dei risultati (che sono tempi misurati in secondi) divisi in opportuni intervalli   

   

Calcolando  la media aritmetica del nostro  insieme di misure e  la  relativa deviazione  standard16 abbiamo ottenuto la seguente stima del tempo T   T = 15,2 s ± 0,4 s  L’entità dell’errore è  ragionevole  considerando  che  le misure  sono  state prese da molti diversi sperimentatori. Un unico sperimentatore, facendo un po’ di esercizio, riuscirebbe verosimilmente a  ridurre  la  deviazione  standard  delle  sue misure  di  T  a  un  valore  dell’ordine  del  decimo  di secondo. Ma anche in presenza di uno sperimentatore con tempi di reazione molto bassi e che si sia ben preparato a effettuare questa specifica misura, i risultati di un numero abbastanza grande di misure ripetute di T presenterebbero comunque una distribuzione intorno alla media17.  La cosa interessante è che quando facciamo misure ripetute di qualsiasi tipo ci aspettiamo sempre che  esse  siano  distribuite  intorno  alla  media  aritmetica  con  l’andamento  caratteristico dell’istogramma  riportato  qui  sopra.  Ovviamente  l’andamento  dell’istogramma  è  determinato dalla maniera  in cui noi  scegliamo gli  intervalli  in cui  raggruppare  i conteggi delle  frequenze. La scelta è fatta in modo che la media, già calcolata, cada più o meno al centro di uno degli intervalli e che  l’ampiezza degli  intervalli  sia abbastanza piccola da  raccogliere un numero  significativo di misure  in almeno sette/otto  intervalli distinti18 e abbastanza grande da evitare di avere un gran numero di intervalli tutti con pochissime misure all’interno19. La ragione per cui facciamo in modo che  l’istogramma assuma questo aspetto  caratteristico  sta nell’andamento  teorico  che  la  teoria della probabilità ci suggerisce debba assumere la distribuzione attorno alla media di una variabile casuale. Ci aspettiamo che i nostri dati tendano a questa distribuzione (a patto di fare un numero abbastanza grande di misure) perché stiamo  facendo  l’assunzione che  le  fluttuazioni nei risultati delle nostre misure siano determinate dal caso. Ebbene la distribuzione teorica che ci aspettiamo per le frequenze relative delle nostre misure è quella che riportiamo nella figura qui sotto e che è nota come distribuzione Normale o Gaussiana   

  

                                                       16 Potete trovare l’espressione matematica per il calcolo della deviazione standard di un insieme di dati nella pagina di Wikipedia dedicata http://it.wikipedia.org/wiki/Deviazione_standard 17 In altri termini quando operiamo misure ripetute di un evento del tipo di quello in discussione è veramente molto difficile che ci capiti di ottenere sempre lo stesso risultato. 18 Se questa ampiezza è troppo grande rischiamo di aver un istogramma con tre o quattro barre, che non ci permette di mettere  in  luce  il modo  in cui  i dati si distribuiscono attorno alla media.  Immaginate  il caso  limite di un’ampiezza così grande da raccogliere tutti i dati in un solo intervallo.  19 Anche in questo caso non si riuscirebbe a cogliere la distribuzione dei dati attorno alla media perché si otterrebbe un istogramma dall’andamento “piatto”, ossia con tante barre tutte sostanzialmente della stessa altezza. 

Le  lettere  μ e  σ  stanno a  indicare media aritmetica e deviazione  standard.  Le percentuali nelle barre  colorate  stanno a  indicare  la probabilità  che  la  variabile  casuale  rappresentata da questa distribuzione  assuma  un  valore  incluso  in  quel  dato  intervallo.  Senza  fare  discorsi  troppo complicati, quello che stiamo dicendo è che ci aspettiamo che un insieme di misure ripetute di una certa grandezza ci  fornisca  risultati che sono distribuiti  in accordo con  la distribuzione Normale. Esprimendo il risultato della nostra misura nella forma media ± deviazione standard ci aspettiamo che  una  nuova  singola  misura  della  grandezza  che  stiamo  misurando  abbia  il  68%  circa  di probabilità di cadere nell’intervallo che va da  (μ –  σ) a  (μ +  σ),  il 95% per cento circa di cadere nell’intervallo tra (μ – 2σ) e (μ + 2σ) e il 99% circa di cadere nell’intervallo che tra (μ – 3σ) e (μ + 3σ). Per capire quanto  i nostri dati  si avvicinino a questo modello  teorico possiamo  in prima  istanza proprio verificare che rispettino questi dati probabilistici, in primis20 quello del 68%: ci aspettiamo che due terzi circa dei nostri dati siano distribuiti attorno alla media entro un  intervallo di semi‐ampiezza  pari  alla  deviazione  standard.  I  nostri  dati  per  la  misura  di  T  soddisfano abbondantemente questo criterio. Ragionando all’inverso, possiamo anche usare questi criteri per capire quanto  il  risultato di una singola misura  sia  credibile.  Se  facciamo  una nuova misura  di  T  e  otteniamo  un  risultato  il  cui scarto rispetto alla media calcolata in precedenza è maggiore di tre deviazioni standard, possiamo ragionevolmente supporre che questa misura sia affetta da qualche errore di natura non casuale e che  vada  quindi  rigettato.  Un  risultato  “fuori  da  tre  deviazioni  standard”  può  anche  a  volte suggerirci che c’è qualcosa che non va nel nostro apparato sperimentale e spingerci a controllarlo e  eventualmente  a  superare  problemi  (come  ad  esempio  quelli  che  possono  provocare  errori sistematici) prima di proseguire. Più è grande il numero di misure ripetute che effettuiamo, più e ragionevole supporre che i nostri dati siano distribuiti in accordo con la distribuzione Normale. Questa affermazione è un enunciato non  particolarmente  accurato  di  quello  che  in  teoria  della  probabilità  per  variabili  continue  si chiama il Teorema del limite centrale della media. Non è questo il luogo per approfondire questa discussione, ma possiamo limitarci a dire che questo teorema ha per le variabili continue lo stesso significato  che ha, per  le  variabili discrete,  la  cosiddetta  Legge dei grandi numeri. Quest’ultima afferma  che  le  frequenze  relative  dei  possibili  valori  assunti  da  una  variabile  casuale  discreta tendono  a  coincidere  con  le  rispettive  probabilità  quando  cresce  il  numero  dei  casi  esaminati. Ripassando allora nuovamente dal piano teorico a quello concreto, cerchiamo di capire meglio  il senso  di  quest’ultima  affermazione  facendo  ancora  riferimento  a  un’esperienza  che  abbiamo svolto insieme, quella dei lanci ripetuti di due dadi.   Variabili casuali discrete. Frequenza e probabilità Tra  tante  possibili  esperienze  relative  al  calcolo  delle  probabilità  per  variabili  casuali  discrete abbiamo scelto quella del lancio di due dadi (e della valutazione delle frequenze di occorrenza dei risultati della somma delle uscite a ogni  lancio) perché  la sua distribuzione di probabilità teorica appare come una sorta di versione discreta della distribuzione di probabilità Normale, con il valore più probabile al centro della distribuzione e probabilità decrescenti via via che ci si allontana dal centro. La  somma  delle  uscite  del  lancio  di  due  dadi  ha  come  possibili  risultati  tutti  i  numeri  interi compresi nell’intervallo  che  va da  2  a  12.  Le  probabilità  associate  a  ciascuno di questi  risultati possono essere calcolate facendo il rapporto tra i casi favorevoli (la somma delle due uscite dà un 

                                                       20 Esistono poi veri e propri test statistici per verificare questa ipotesi. Uno di questi è il cosiddetto test del χ2, di cui abbiamo parlato durante i nostri incontri e del quale discuteremo brevemente più avanti. 

certo numero) e quelli possibili (36  in tutto: 6 possibili risultati per  il primo dado moltiplicati per altrettanti  possibili  risultati  per  il  secondo). Questo  vuol  dire  che,  essendo  possibili  36  diverse configurazioni distinte (ad esempio 2 sul primo dado e 3 sul secondo, evento che indichiamo con 2;3), la probabilità che esca 2;3 è uguale alla probabilità che esca 3;2 o 1;1 e così via. La probabilità di ciascuno di questi eventi è quindi 1/36. Ma se siamo interessati alla somma delle uscite dei due dadi, ben 6 distinte configurazioni danno come somma  il 7. Guardando  la  figura qui sotto non è quindi difficile convincersi che la probabilità della somma 7 è 6/36=1/6 mentre la probabilità della somma 12 (come quella della somma 2) è 1/36 e così via…     

   Nella tabella qui sotto riassumiamo le probabilità associate a ogni possibile somma   

Somma delle uscite dei due dadi 

Casi favorevoli 

Probabilità 

2  1  1/36=0,028 

3  2  2/36=0,056 

4  3  3/36=0,083 

5  4  4/36=0,111 

6  5  5/36=0,139 

7  6  6/36=0,167 

8  5  5/36=0,139 

9  4  4/36=0,111 

10  3  3/36=0,083 

11  2  2/36=0,056 

12  1  1/36=0,028 

  Andiamo ora a confrontare  la previsione  teorica con  i  risultati ottenuti durante  i nostri  incontri. Nelle  due  figure  che  seguono  abbiamo  riportato  gli  istogrammi  delle  frequenze  relative  delle somme risultanti dal lancio ripetuto di due dadi ottenute da due dei gruppi che hanno lavorato a questa esperienza. Nel primo caso (istogramma a barre blu)  il numero totale di  lanci effettuati è 

stato pari a 120, nel secondo caso (istogramma a barre rosse) è stato pari a 1043, ossia quasi 10 volte tanto.   

 

   Intanto salta subito agli occhi  la differenza nell’andamento complessivo della distribuzione delle frequenze. Rispetto a quello relativo a 120 lanci, l’istogramma corrispondente a circa 1000 lanci ha un  andamento molto più  simile  a quello  “triangolare”  che  ci  aspettavamo: un picco  centrale  e frequenze relative decrescenti (in maniera sostanzialmente simmetrica) allontanandosi dal centro della  distribuzione.  Il  primo  istogramma,  pur  presentando  anch’esso  il  picco  centrale,  ha  un andamento  decisamente meno  simmetrico  con  diverse  inversioni  delle  frequenze  relative,  nel senso che diverse somme hanno frequenze relative maggiori di altre che sono più vicine al centro della distribuzione, ossia al valore 7 della somma. Potete anche verificare che nell’istogramma a barre rosse  i risultati ottenuti per  le singole frequenze relative non sono molto  lontani dai valori attesi.  Se vogliamo limitarci a osservazioni qualitative l’istogramma a barre rosse potrebbe essere già un risultato soddisfacente e ci permetterebbe anche di argomentare a proposito del significato della legge dei grandi numeri. Potremmo anche continuare ad aggiungere lanci alla nostra distribuzione e  mostrare  come  le  frequenze  relative  tendano  sempre  più  ad  avvicinarsi  alle  probabilità  al crescere del numero di lanci21. 

                                                       21  Tipicamente  i  1000  lanci  sono  stati  effettuati  da  diverse  persone,  ognuna  delle  quali  ha  preso  nota  dei  propri risultati che sono poi stati messi insieme agli altri nell’istogramma complessivo. Una buona idea può essere quella di 

In questo caso, così come  in  tutte  le situazioni  in cui vogliamo confrontare dei dati sperimentali con  una  distribuzione  o  un  andamento  attesi,  possiamo  però  voler  passare  da  osservazioni  di carattere qualitativo a osservazioni di natura più stringente e perciò necessariamente quantitative. Nel  caso  del  lancio  dei  dadi  possiamo  ad  esempio  chiederci  in  che  misura  possiamo  essere confidenti del fatto che i dadi non siano truccati e per questo chiederci quanto i nostri dati siano vicini  alla  distribuzione  attesa.  In modo  del  tutto  analogo,  potremmo,  nel  caso  delle misure  di tempo di cui si è discusso in precedenza voler capire in che misura possiamo essere confidenti che i  nostri  dati  siano  distribuiti  in  maniera  casuale,  ossia  quanto  essi  siano  vicini  a  riprodurre l’andamento della distribuzione Normale.  Esistono  diversi  test  statistici  che  ci  permettono  di  dare  risposta  a  queste  domande.  Abbiamo detto test statistici e questo ci suggerisce fin da subito che il responso di questi test non ci dà una risposta certa ma ci offre piuttosto un grado di confidenza, una probabilità relativa alla bontà della nostra ipotesi di partenza secondo la quale i nostri dati sono distribuiti in un certo modo. Insomma il risultato di un test di questo tipo ci dirà, ad esempio, che c’è una probabilità del 90% che i nostri dadi funzionino come ci aspettavamo che facessero. E allora? Sono truccati o no questi dadi? Se dobbiamo dare questa risposta in relazione all’esperienza che abbiamo svolto in classe, possiamo certamente dire che  siamo  ragionevolmente  sicuri  che  le cose  sono andate  come dovevano. Se ottenessimo un  risultato del genere esaminando  i dadi utilizzati al  tavolo da gioco di un  casinò potremmo restare con un ragionevole dubbio che ci sia qualcosa che non va. Passando dai dadi ai risultati della misura di una grandezza fisica, potremmo essere ragionevolmente soddisfatti di un grado  di  confidenza  del  90%  per  un  esperimento  fatto  in  un  laboratorio  didattico.  Prendendo spunto da una notizia  scientifica della  recente attualità,  l’osservazione del cosiddetto bosone di Higgs,  è  facile  capire  quanto  questo  discorso  abbia  un  senso molto  relativo:  i  risultati  dei  test statistici a  cui vengono  sottoposte  le misure di  fisica delle alte energie vengono accettati  come positivi se danno la garanzia che l’osservazione compiuta sia coerente col risultato atteso con una probabilità minima  del  99,99997%.  In  altri  termini  aver  osservato  il  bosone  di  Higgs  significa supporre  che  solo  in  tre  casi  su un miliardo questa osservazione potrebbe essere  frutto di una casualità e non corrispondere a ciò che si suppone sia accaduto all’interno dell’acceleratore LHC. Un  livello  di  confidenza  così  spinto  potrebbe  far  supporre  che  queste  misure  siano sostanzialmente “inattaccabili”.  In realtà dobbiamo tener presente che, come abbiamo già avuto modo di sottolineare, ha senso parlare del  livello di confidenza solo  in presenza di un numero di osservazioni sufficientemente grande. Il livello di confidenza relativo alla “scoperta” del bosone di Higgs assumerà perciò sempre maggiore rilevanza nella misura in cui si accumuleranno nel tempo diverse osservazioni che confermino quelle già effettuate al CERN di Ginevra.     

                                                                                                                                                                                    confrontare l’istogramma relativo ai 1000 lanci con quelli ottenuti riportando separatamente i risultati di ogni singolo sperimentatore. 

Ma  torniamo ora brevemente ai dadi e ai  test statistici. Nella  figura sottostante potete vedere  i risultati dei lanci ripetuti di due dadi simulati sfruttando il generatore di numeri casuali di un foglio di calcolo   

   Più  in dettaglio questa  figura  rappresenta  le  frequenze  relative delle  somme delle uscite  (barre blu) per 5000  lanci simulati e, per confronto,  i valori attesi  (le probabilità, barre  rosse) per ogni singola somma. Ancora una volta possiamo dire che, già solo stimando a vista,  le due distribuzioni si somigliano molto. Ma, come abbiamo avuto modo di discutere durante  i nostri  incontri, possiamo mettere alla prova  la ragionevolezza della distribuzione ottenuta operando  il cosiddetto test del χ2 (che si legge Chi quadro). Questo test opera in maniera molto semplice, calcolando la differenza tra ogni singolo valore ottenuto e il corrispondente valore atteso e, come si dice, sommando in quadratura questi scarti. Sommare in quadratura vuol dire elevare al quadrato ogni singolo scarto, operare la somma di tutti i quadrati degli scarti ed estrarre quindi la radice quadrata della somma. La ragione per cui si sommano  i quadrati degli scarti sta nell’evitare che scarti positivi  (il valore ottenuto è maggiore  del  valore  atteso)  e  scarti  negativi  (il  valore  ottenuto  è minore  del  valore  atteso)  si elidano a vicenda. Dovremmo fare delle ulteriori precisazioni su come calcolare  il risultato (che è un numero) del  test, ma non vale  la pena affrontarle  in questa sede. Ci basta aver accennato a quale sia l’idea su cui si basa il test, che è semplicemente una stima di quanto i risultati ottenuti si discostino dal  “modello”. Una volta ottenuto  il  risultato possiamo  consultare opportune  tabelle che traducono il numero ottenuto in un certo grado probabilistico di confidenza. Arrivati a questo punto valgono tutte le considerazioni di cui sopra22. Il test χ2 ha applicabilità del tutto generale in tutti quei casi in cui si vogliano confrontare dei dati sperimentali con i valori attesi desunti da un modello. Avremmo potuto insomma applicarlo anche al  caso  della misura  di  tempi  per  capire  in  che misura  i  risultati  fossero  distribuiti  in maniera casuale.      

                                                       22 Per qualche dettaglio matematico in più potete nuovamente far riferimento alla pagina Wikipedia http://it.wikipedia.org/wiki/Test_chi_quadrato 

Conclusioni In  sintesi  quello  che  abbiamo  fatto  in  queste  pagine  è  stato  ribadire  che  i  risultati  di  un esperimento scientifico (a qualsiasi  livello) non ci offrono certezze monolitiche sul modo  in cui si comporta un  certo  sistema.  La possibilità  che  l’approccio  scientifico  allo  studio dei  fenomeni  ci offre è quella di costruire modelli ragionevoli del modo in cui si comportano variabili significative che caratterizzano quel sistema e di sottoporre poi i nostri modelli alla prova dell’esperimento. Ma anche i risultati di un esperimento non ci danno risposte certe. Ci offrono piuttosto la ragionevole certezza  che  il  nostro modello  descriva  in maniera  soddisfacente  ciò  che  stiamo  osservando. Soddisfacente  per  cosa?  Dipende  da  quello  che  stiamo  facendo  e  da  quanta  accuratezza necessitiamo  nel  contesto  nel  quale  ci  troviamo. Ma  qualunque  sia  questo  contesto,  il  nostro sforzo di costruire modelli ci offre la possibilità di schematizzare in maniera semplice sistemi molto complessi  evidenziandone  comportamenti  particolarmente  significativi,  di  operare  analogie  tra diversi  sistemi e di prevedere  il  risultato di osservazioni  che ancora non abbiamo  compiuto.  Le incertezze  sembrano  allora  un  prezzo  ragionevole  da  pagare  se  commisurato  con  le  grandi possibilità che il guardare il mondo per sistemi e variabili ci offre.  Proprio a proposito della relazione tra modelli e osservazioni, vogliamo concludere accennando a un altro  tipo di misure che vi abbiamo proposto durante  i nostri  incontri, quelle  in cui  si  lavora proprio  alla  costruzione  dei  modelli.  Pensiamo  in  particolare  alle  misure  di  pesi  e  volumi  di sostanze alimentari. Quando mettiamo  in campo una misura di questo tipo con  i nostri studenti può essere forte  la tentazione di fare  in modo che  i nostri risultati “facciano quello che devono”. Da un punto di vista adulto, noi  sappiamo già dove vogliamo arrivare: vogliamo  ricostruire una regola di proporzionalità diretta  tra peso e volume di diverse quantità di una stessa sostanza.  Il punto  è  che  la  ragionevolezza  della  costruzione  del  “modello”  passa  proprio  attraverso  la constatazione che  i nostri  risultati sperimentali hanno un andamento  regolare ma non del  tutto “esatto”. Per intenderci, quando segniamo su un grafico cartesiano peso/volume i punti relativi a coppie di valori misurati per diverse quantità di un certo materiale (mettiamo sia il sale grosso), ci aspettiamo che questi punti siano allineati su una retta che passa per l’origine degli assi. Il punto è che usando  tecniche di misura non particolarmente accurate  (come è  ragionevole che  sia  in un laboratorio  didattico)  le  nostre misure  risulteranno  altrettanto  non  particolarmente  accurate  e questo si traduce nel fatto che riportando sul grafico le misure di peso e volume del sale grosso i punti sperimentali non saranno perfettamente allineati. Piuttosto che vedere in questa circostanza un problema, possiamo provare a sfruttarla come una  risorsa.  In questo caso specifico abbiamo infatti un termine di confronto molto efficace: le misure di peso e volume fatte con l’acqua. Pur se con  un  certo  grado  di  approssimazione,  queste  misure  forniscono  risultati  che  sono sostanzialmente  in  accordo  con  i  valori  attesi:  200 ml di  acqua misurati  col  cilindro  graduato23 peseranno 200 g quando andiamo a metterli sulla bilancia da cucina. Quando mettiamo sul grafico i punti sperimentali relativi all’acqua ci accorgiamo subito del fatto che sono allineati. Confrontare allora gli andamenti delle altre  sostanze  con quello dell’acqua  ci offre uno  spunto di  riflessione fondamentale, ossia  il  riconoscere  che  i punti  relativi  al  sale  grosso non  stanno proprio  su una retta ma ci vanno molto vicini: non stanno proprio su una retta perché le nostre misure non sono 

                                                       23  Con  l’acqua possiamo  fare  questa misura  in maniera  piuttosto  accurata  perché  il  pelo  dell’acqua  nel  cilindro  è praticamente orizzontale e quindi non abbiamo difficoltà a valutare  la sua coincidenza con una delle tacche segnate sul cilindro e perché  l’acqua è un  liquido e quindi non  lascia spazi vuoti al suo  interno come fa  invece una sostanza granulare come il sale grosso. Tra l’altro il sale ha un peso specifico dipendente dall’acqua che assorbe dall’ambiente circostante (materiale igroscopico) e a rigore dovremmo tener conto di questa circostanza se utilizziamo in laboratorio lo stesso sale a distanza di tempo non avendolo conservato nella maniera opportuna! Ma ancora una volta ciò che può apparire  come  una  “distrazione”  o  una  “incuria”  potrebbe  rivelarsi  un’opportunità  per  discutere  su  fenomeni  di interesse scientifico. 

molto accurate e sono soggette a errori di misura; supponiamo che “ci dovrebbero” stare perché riconosciamo  che quella  regolarità  che  sembra  caratterizzare  solo  l’acqua è  in  realtà propria di qualunque sostanza. E a questo punto il gioco è fatto nel senso che lavorando con i giusti tempi a questa riflessione arriviamo alla costruzione ragionata e condivisa del modello di proporzionalità tra peso e volume che può poi portarci a parlare di peso specifico e densità e magari a utilizzare questi concetti per discutere  la  fenomenologia relativa al galleggiamento  in acqua  (o  in un altro fluido) di oggetti fatti di diverse sostanze.  L’opportunità  offerta  dalle  operazioni  di  misura  è  insomma  quella  di  ribaltare  l’approccio tradizionale all’insegnamento delle scienze (e della matematica). L’approccio tradizionale parte da un  corpus  di  leggi  (da mandare  a memoria)  che  descrivono  il modo  di  comportarsi  dei  sistemi (senza  peraltro  porre  molta  attenzione  a  chiarire  cosa  sia  un  sistema  e  che  senso  abbia  il “guardare per  sistemi”) per poi   eventualmente  confrontare previsioni derivate da queste  leggi con  dati  sperimentali  e  dover  spiegare  a  posteriori  (e  con  difficoltà)  come mai  si  riscontri  un disaccordo  tra previsioni e  risultati. Rovesciare questo approccio significa cimentarsi  in partenza con  i  sistemi,  coi modi  di  osservarli  e  con  i  problemi  connessi  all’effettuare misure  di  variabili significative  e,  solo  sulla  base  di  questo  bagaglio  esperienziale,  costruire  modelli  che  diano ragionevolmente conto di ciò che abbiamo osservato.