IntroduzioneStanza 394
Per appuntamento
http://www.di.unipi.it/~antonell/
1
S.A.
C.A.Carnevale Maffè, T.Carnevale Maffè, Statistica, Sintesi,
Vallardi
S. Berstein, R.Bernstein , Statistica descrittiva,
McGraw-Hill
I.Diamond, J.Jefferies, Introduzione alla statistica,
McGraw-Hill
Per applicazioni in campo archeologico:
IS. Shennan, Quantifyng Archaeology, Edinburgh ,University Press.
1998.
Introduzione (1)
Negli ultimi quaranta anni si è assistito alla sempre più crescente
utilizzazione dell’informatica e delle scienze nell’ambito sociale
e umanistico, introducendo, attraverso tecniche matematiche e
statistiche, metodi propri delle scienze esatte.
1
S.A.
Introduzione (2)
Per quanto attiene in particolare all’Archeologia , l’informatica è
intervenuta sia nei processi metodologici, sia nello sviluppo di
tecniche connesse a tali processi per:
sistematizzare e ottimizzare operazioni di catalogazione e gestione
dell’informazione
definire strumenti idonei ad un trattamento scientifico dei
dati
1
S.A.
*
I sistemi informatici che rispondono a queste esigenze sono
rispettivamente quelli di tipo documentario per il trattamento
descrittivo degli oggetti (Sistemi di gestione di basi di dati) e
sistemi basati su tecniche matematico-statistiche.
Le basi di dati richiedono una strutturazione organica e
sistematica dell’informazione; i dati rispecchiano in generale
caratteri di omogeneità basati su informazioni intrinseche
(specifiche dell’oggetto) ed estrinseche (relazionali).
1
S.A.
Fattuale,inerente alla realtà, per la raccolta di elementi
concernenti oggetti mobili, edifici, iscrizioni, decorazioni,etc.
allo scopo di costituire inventari (assumono quindi una funzione
amministrativa)
bibliografico con lo scopo di arrivare alla schedatura di diverse
pubblicazioni per fornire informazioni sistematiche.
Le basi di dati si limitano però a trattare i dati in maniera
descrittiva, e non permettono una analisi e una interpretazione dei
dati stessi.
1
S.A.
Sistemi statistici
Tenuto conto anche del fatto che i dati di scavo (geografici,
stratigrafici, immobili,materiali mobili, etc.) non sono
completamente omogenei, l’archeologia si è rivolta ai sistemi
basati su tecniche matematico – statistiche.
I primi esempi di applicazione si sono avuti negli anni ’50 in
archeologia preistorica attraverso l’uso di tecniche grafiche e di
statistiche descrittive.
Questo approccio ha dato luogo, a partire dagli anni ’60, ad una
branca di ricerca definita “Archeologia Quantitativa”, considerata
da alcuni ricercatori una disciplina autonoma nell’ambito di un
movimento culturale detto New Archaeology.
1
S.A.
Origini della statistica(1)
I primi rilevamenti statistici risalgono all’antichità e derivano
dalla naturale esigenza umana della classificazione di tutto ciò
che è presente nell’ambiente in cui vive .
Alcuni esempi:
indagini per la previsione delle piene del Nilo (Egitto)
I due esempi hanno caratteristiche completamente
diverse.
1
S.A.
Origini della statistica(2)
Il censimento ha infatti lo scopo di evidenziare una situazione di
fatto e rientra nella logica del certo,fotografando lo stato della
popolazione in quel preciso periodo, mentre il secondo rientra
nella logica del probabile, gli unici approcci che rispecchiano il
comportamento dell’uomo di fronte a qualunque fenomeno.
La logica del probabile è il contesto nel quale si pone la
statistica, che si avvale del calcolo delle probabilità per
studiare i fenomeni, evidenziarne le caratteristiche e stabilire
associazioni e relazioni tra fatti.
1
S.A.
*
Il campo di interesse della statistica è quello dei fenomeni
collettivi che richiedono, per la loro valutazione , grandi
quantità di osservazioni.
Le tecniche e i metodi statistici si pongono l’obiettivo di ridurre
queste grandi quantità di osservazioni a pochi elementi , valori di
sintesi che rappresentino la totalità e tengano conto delle
variazioni delle osservazioni. Il metodo statistico facilita quindi
il confronto tra valori e fenomeni e rende possibile la scoperta di
regole nella apparente irregolarità.
1
S.A.
*
Tecnico, relativamente alla raccolta, elaborazione e presentazione
dei dati, anche in forma grafica;
Logico che si propone di formulare leggi, trarre deduzioni e
conseguenze e mettere in evidenza le cause dei fenomeni.
1
S.A.
statistica descrittiva: raccogliere ed elaborare dati per ricavare
informazioni sintetiche e significative, secondo le esigenze del
problema di interesse.
statistica inferenziale o induttiva : definire metodi per passare
dall’osservazione di casi particolari a leggi generali
L’estensione dei risultati di un campione rappresentativo alla
totalità della popolazione è detta inferenza, la cui analisi è
detta Inferenza statistica.
1
S.A.
*
Quando si deduce un parametro di una popolazione sulla base delle
corrispondenti osservazioni (statistiche) effettuate su un campione
casuale si dice che si effettua una stima che rappresenta una
approssimazione statistica dei risultati di una indagine sulla
intera popolazione.
I risultati tratti dal campione ed estesi alla popolazione
evidenziano la presenza di un trade-off (scambio-compromesso) tra
costi/tempi e accuratezza della stima.
1
S.A.
Statistica descrittiva
Studio e sintesi de fenomeni collettivi, che sono caratterizzati da
risultati incerti.
Descrivere e prevedere questa variabilità
Popolazione o universo.
(fonte : Mike Flechter and Gary R. Lock)
40 Punte di lancia con o senza anello (loop) per stringere la punta
sulla immanicatura e spinotto, ribattino (peghole) per bloccare la
punta sulla immanicatura.
Caratteristiche , attributi di interesse archeologico:
Tipo di materiale
Variabile: ogni caratteristica che può manifestarsi
in modo diverso in unità diverse
Valori, modalità: diversi modi nei quali una
variabile può manifestarsi.
peso in gr.
condizione
Missing (mancante)
Numero ord. 1
1
S.A.
Abbiamo considerato la misura delle caratteristiche
delle variabili, o , come si dice, il livello di misura o
scala.
categorie,per un processo di classificazione.
E’ il livello più basso di misurazione.
Tipo di materiale, loop, peghole.
Permette di classificare le unità: tutte le punte di
ferro, etc e formare quindi nuove classi.
1
S.A.
Possiamo formare classi e metterle anche in ordine,
ma senza che vi sia una distanza tra le categorie o
tra i singoli individui
Es.: stato di conservazione
unità di misura
Manca però il punto iniziale: lo zero assoluto
(Temperatura)
1
S.A.
In più esiste anche lo zero assoluto
Pesi, distanze etc.
- continue:i valori sono numeri positivi, negativi , decimali
(reali)
Variabili qualitative, nominali (non parametriche):
Sconnesse quando non esiste alcun ordine.
Es: colore dei capelli
Sintetizzare i dati
Medie:
Aritmetica
Geometrica
Ponderata
Moda: modalità più ricorrente
Indici di dispersione
Campo di variazione: differenza tra il valore più grande xl e il
più piccolo xs
E’ poco significativo: le distribuzioni hanno lo stesso campo di
variazione, ma sono molto diverse in quanto a variabilità
Varianza
è la radice quadrata della varianza
1
S.A.
Tabella
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Tabella
16.8
6.6
13.3
3.1
14.1
5.8
0
6.1
22.5
9.2
16.9
4.5
19.1
6.4
25.8
8.6
22.5
8.4
27.6
8.7
38
9.6
72.4
14.4
37.5
10.2
10.2
3
11.6
4.6
10.8
8.1
11.4
4.2
16.6
7.2
10.2
3.4
18.6
6.6
24.4
7.5
23.5
8
24.8
8.1
14.1
3.4
24.6
6
30.9
5.1
20.2
5.9
12.8
3.5
16.9
5.5
14.2
4.3
18
4.5
11.7
8.6
14.1
5.4
17.7
4.8
36.6
13.5
12.3
2.4
&A
Foglio1
1
167
2
342.1
3
322.9
4
154.8
5
358.1
6
227.9
7
323.8
8
285.2
9
613.8
10
254.3
11
310.1
12
426.8
13
521.2
14
765.1
15
1217.2
16
2446.5
17
675.7
18
90.9
19
86.8
20
109.1
21
67.7
22
204.5
23
170.3
24
176.8
25
543.2
26
628.2
27
401
28
302.4
29
623.5
30
978.9
31
607.9
32
165.6
33
307.9
34
192.4
35
524.7
36
111.2
37
178.7
38
273.4
39
1304.4
40
233.8
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Coefficiente di correlazione
0.6744351959
La distribuizone evidenzia che esiste una correlazione positiva tra
i dati delle colonne 8 e 13:
aumentando i valori di una aumentano anche i valori
dell'altra
11.4
6.1
11.6
5.6
12.4
6.2
11.7
6.6
12.3
7.2
10.8
5.4
14.1
6.8
10.2
5.8
8
13
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
13
8
S.A.
Tabella
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Tabella
16.8
6.6
13.3
3.1
14.1
5.8
0
6.1
22.5
9.2
16.9
4.5
19.1
6.4
25.8
8.6
22.5
8.4
27.6
8.7
38
9.6
72.4
14.4
37.5
10.2
10.2
3
11.6
4.6
10.8
8.1
11.4
4.2
16.6
7.2
10.2
3.4
18.6
6.6
24.4
7.5
23.5
8
24.8
8.1
14.1
3.4
24.6
6
30.9
5.1
20.2
5.9
12.8
3.5
16.9
5.5
14.2
4.3
18
4.5
11.7
8.6
14.1
5.4
17.7
4.8
36.6
13.5
12.3
2.4
&A
Foglio1
1
167
2
342.1
3
322.9
4
154.8
5
358.1
6
227.9
7
323.8
8
285.2
9
613.8
10
254.3
11
310.1
12
426.8
13
521.2
14
765.1
15
1217.2
16
2446.5
17
675.7
18
90.9
19
86.8
20
109.1
21
67.7
22
204.5
23
170.3
24
176.8
25
543.2
26
628.2
27
401
28
302.4
29
623.5
30
978.9
31
607.9
32
165.6
33
307.9
34
192.4
35
524.7
36
111.2
37
178.7
38
273.4
39
1304.4
40
233.8
Max Lung
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Coefficiente di correlazione
0.6744351959
La distribuizone evidenzia che esiste una correlazione positiva tra
i dati delle colonne 8 e 13:
aumentando i valori di una aumentano anche i valori
dell'altra
11.4
6.1
11.6
5.6
12.4
6.2
11.7
6.6
12.3
7.2
10.8
5.4
14.1
6.8
10.2
5.8
8
13
13
8
S.A.
1
lancia
variabili
quantitative
10
Foglio1
21
1
1
2
1
2
900
11.4
4.2
1.8
0.8
1.5
6.1
67.7
40
1
1
2
1
2
800
12.3
2.4
5.4
1.1
1.6
7.2
233.8
5
2
3
1
1
3
350
16.8
6.6
5.7
1.1
1.7
7
358.1
20
2
2
1
1
3
400
10.8
8.1
2.7
1.2
1.7
5.4
109.1
38
1
1
2
1
2
1200
17.7
4.8
3.9
1.2
1.8
9.6
273.4
7
2
3
1
2
2
450
14.1
5.8
5.8
1.2
1.8
6.8
323.8
18
2
2
1
2
3
450
10.2
3
2.7
1.4
1.5
5.8
90.9
24
1
1
2
1
1
1200
18.6
6.6
2.7
1.4
1.6
8.5
176.8
12
2
1
1
2
3
100
25.8
8.6
4.7
1.4
1.6
12.7
426.8
4
2
3
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Coefficiente di correlazione
0.6744351959
La distribuizone evidenzia che esiste una correlazione positiva tra
i dati delle colonne 8 e 13:
aumentando i valori di una aumentano anche i valori
dell'altra
11.4
6.1
11.6
5.6
12.4
6.2
11.7
6.6
12.3
7.2
10.8
5.4
14.1
6.8
10.2
5.8
8
13
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
13
8
S.A.
Si costruisce una partizione dei dati in classi:
la frequenza (assoluta) denota il numero di elementi per ciascuna
classe.
Frequenze assolute, cumulate
Frequenze Relative: rapporto tra frequenze assolute e il numero
totale di unità statistiche in esame.
Le distribuzioni di frequenze si rappresentano mediante tabelle e
graficamente.
1
S.A.
intervalli
fr.assolute
fr.relative
Foglio2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
COND
Frequenza
Cav Int.
1.7
1.7
1.7
mediana
media
moda
1.7
1.5
1.4176470588
1.6
1.8
>2,2
0
£ 0,8
1
media = mediana = moda
area compresa tra la curva e l'asse x è uguale ad 1
media
Variabili
Normalizzate
media
scarto
Formula
tabella di contingenza
TABELLA DI CONTINGENZA
con frequenze assolute
contesto
terreno
sedimento
sepoltura
fr.marginali
1
2
3
fr.marginali
Mater.
bronzo
19
1
0
20
1
19
1
0
20
ferro
8
5
7
20
2
8
5
7
20
fr.marginali
27
6
7
40
fr.marginali
27
6
7
40
CAV_INT_
CAV_INT_
Lunghezza cavità interna
CAV_INT_
CAV_INT_
S.A.
Foglio2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
COND
Frequenza
Cav Int.
1.7
1.7
1.7
mediana
media
moda
1.7
1.5
1.4176470588
1.6
1.8
>2,2
0
£ 0,8
1
13
1.7
3
1.7
(media-2scarto ,
tabella di contingenza
TABELLA DI CONTINGENZA
con frequenze assolute
contesto
terreno
sedimento
sepoltura
fr.marginali
1
2
3
fr.marginali
Mater.
bronzo
19
1
0
20
1
19
1
0
20
ferro
8
5
7
20
2
8
5
7
20
fr.marginali
27
6
7
40
fr.marginali
27
6
7
40
CAV_INT_
CAV_INT_
S.A.
Foglio2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
N. ord.
Cav Int.
1.7
1.7
1.7
1.7
1.8
1.8
1.5
1.4176470588
1.6
1.5
>2,2
0
£ 0,8
1
tabella di contingenza
TABELLA DI CONTINGENZA
con frequenze assolute
contesto
terreno
sedimento
sepoltura
fr.marginali
1
2
3
fr.marginali
Mater.
bronzo
19
1
0
20
1
19
1
0
20
ferro
8
5
7
20
2
8
5
7
20
fr.marginali
27
6
7
40
fr.marginali
27
6
7
40
CAV_INT_
CAV_INT_
Lunghezza cavità interna
CAV_INT_
CAV_INT_
S.A.
Scarto = 1
Un numero nella Tavola seguente rappresenta l' area sottesa dalla
curva che si trova tra il valore medio (Z = 0) e il valore
standardizzato positivo Z. L'area tra il valore 0 e un valore
negativo sarà identica all'area tra il valore medio e quello
positivo per la simmetria della curva.
Se z non è intero, e quindi del tipo z = a,bc si cerca a,b nella
prima colonna della tabella e si prende il valore intersezione
della riga selezionata e della colonna 0,0b.
Es: z=1,82 area = 0,4656
1
S.A.
2.5 2.6 2.7 2.8 2.9 3,0
0,4938 0,4953 0,4965 0,4974 0,4981 0,4987
0,4940 0,4955 0,4966 0,4975 0,4982 0,4987
0,4941 0,4956 0,4967 0,4976 0,4982 0,4987
0,4943 0,4957 0,4968 0,4977 0,4983 0,4988
0,4945 0,4959 0,4969 0,4977 0,4984 0,4988
0,4946 0,4960 0,4970 0,4978 0,4984 0,4989
0,4948 0,4961 0,4971 0,4979 0,4985 0,4989
0,4949 0,4962 0,4972 0,4979 0,4985 0,4989
0,4951 0,4963 0,4973 0,4980 0,4986 0,4990
0,4952 0,4964 0,4974 0,4981 0,4986 0,4990
1
526.unknown
S.A.
Media m = 6,0
2,3 -2,6 -2,8 -2,11- 3,6 -3,8 -3,11-6,8-6,11-8,11
Le medie dei campioni sono:
2,5-4-5-6,5-4,5-5,5-7-7-8,5-9,5
=6,0
campionarie è 4,05 e quindi lo scarto è:
= 2,01
1
S.A.
Distribuzione campionaria
Se si ripete il processo per i campioni di dimensione crescente si
osserva che la media della distribuzione campionaria rimane la
stessa, mentre lo scarto tende a diminuire.
Ad esempio per i 5 campioni di n=4 elementi si ottiene:
= 6,0
= 0,82
dei valori reali della popolazione in quanto hanno
assorbito i valori estremi che invece incidono
pesantemente nella popolazione, in conclusione lo
scarto quadratico medio della medie campionarie è
minore di quello delle medie campionarie.
1
S.A.
SE =
SE = 2,32
della distribuzione campionaria delle medie.
Poiché la dimensione del campione è piccola , un
valore migliore si ottiene applicando la formula
corretta:
SE =
da cui SE = 2,01 che coincide con il valore dello scarto
della distribuzione campionaria delle medie.
1
S.A.
Se la prima è normale lo sono anche le altre.
Nel caso della normalità si può ragionare su un
campione di almeno dieci elementi
In ogni caso, al crescere della dimensione del
campione, la distribuzione delle medie campionarie
tende ad essere normale. La dimensione minima
è 30. Le relazioni fondamentali sono:
=
=
, che abbiamo già denotato con SE, è detto errore standard
Sappiamo che nell’intervallo
(media- scarto, media + scarto)
considerazioni per la distribuzione campionaria.
L’intervallo in esame è:
( - , + )
- £ £ +
Come si interpreta?
La vera media della popolazione cadrà con probabilità 0,6826 nel
suddetto intervallo
- L’errore standard non descrive la variabilità della popolazione,
ma descrive il grado di certezza con il quale una media campionaria
stima la vera media della popolazione.
Gli estremi dell’intervallo sono detti limiti di confidenza o
fiduciari
Le stesse considerazioni si ripetono per gli intervalli introdotti
nella diapositiva 40.
- Le relazioni di n.48 dicono che la media aritmetica
del campione è uno stimatore corretto della media della
popolazione, mentre SE è uno stimatore distorto dello scarto della
popolazione.
1
S.A.
Abbiamo valutato i parametri della popolazione a partire dai valori
corrispondenti del campione: è questa la stima puntuale.
Altro aspetto è la stima per intervalli: piuttosto che chiedere
quanto vale un parametro , ci domandiamo in quale intervallo
cade.
Esempio di stima per intervalli
Campione ,estratto da popolazione normale, di
dimensione n=16 con media 1,71 e scarto 0,12.
Dal teorema del limite centrale sappiamo che 1,71 è una buona stima
della media della popolazione.
La dimensione del campione del campione è sufficientemente grande
per approssimare lo scarto della popolazione con quello del
campione.
1
S.A.
*
Determiniamo ora l’intervallo in cui cadrà la media della
popolazione al 95%.
L’area di riferimento è quindi 0,95 suddivisa in due parti di
0,4750
Il valore critico corrispondente è Z=1,96.
L’intervallo è :
da cui :
(1,6512 – 1,7688)
intervallo; d’altra parte avevamo già stimato che il suo
valore fosse 1,71
Campione di dimensione n=40 media 107
E’ casuale questa media?
Area a destra di 2,95 è 0,5-0,4984=0,0016 è molto
piccola e quindi la probabilità che l’evento sia
casuale è scarsa.
partendo da ipotesi relative ad un solo campione
Ipotesi nulla H0 : di solito formulata in modo da poter essere
rifiutata
Ipotesi alternativa HA
modo significativo da quelli attesi.
Errori di valutazione:
di tipo I : si rifiuta ipotesi quando dovrebbe essere
accettata
- di tipo II : si accetta ipotesi quando dovrebbe essere
rifiutata
1
S.A.
*
Livello di significatività a : probabilità massima con la quale si
accette di compiere un errore di tipo I
1- a : livello di confidenza o di fiducia
Valori tipici: 0,05 (5%) , 0,01 (1%)
Metodo Grandi campioni : n³ 30
-Si sfrutta la normalità e quindi si usano le tavole relative alle
variabili standardizzate
-Si fissa il livello: di solito 5% a cui corrisponde il valore
critica Z=1,96
-Si considera il campione : media e scarto
-L’area tra -,196 e 1,96 è l’area di accettazione
dell’ipotesi
L’area esterna è la regione critica: i valori differiscono in modo
significativo da quelli ipotizzati
L’area esterna è ripartita in due parti simmetriche (due code)
oppure è costituisce un unico blocco (una coda)
1
S.A.
Popolazione con media 120 e scarto 10
Campione con n=36 e media 114
Domanda: il campione proviene da quella popolazione? Ipotesi :
media =120 Livello = 5%
Due metodi
Metodo degli intervalli di confidenza
L’area di accettazione , che si denota con 95%IC è : (media ±1,96
)
ovvero:
da cui :
(110,73 – 117,27)
*
120 non appartiene all’intervallo e quindi è improbabile che il
campione provenga da una popolazione con media 120:Si accetta
quindi l’ipotesi alternativa
B) Metodo del test statistico
Si calcola :
= (114-120)/SE = -3,6
dove SE = 10/ Ö 36
Ma -3,6 è molto più piccolo di -1,96 e quindi cade nella regione
critica
L’ipotesi nulla è da scartare e quindi è improbabile che il
campione provenga da una popolazione con media 120
1
S.A.
Nota: se avessimo formulato l’ipotesi media>120
la regione critica sarebbe stata tutta dalla parte destra della
curva e avremmo quindi effettuato un test ad una coda.
In questo caso avremmo dovuto considerare solamente metà area 0,50
e quindi togliendo 5% del livello ,l’area di accettabilità sarebbe
stata 0,45 a cui corrisponde il valore critico Z=1,64 invece di
1,96.
Il metodo sarebbe poi rimasto lo stesso.
1
S.A.
e quindi con distribuzione non normale
Non conoscenza dello scarto della popolazione
Soluzione:
Teoria dei piccoli campioni detta anche Teoria campionaria esatta
in quanto vale per piccoli che per grandi campioni
1
S.A.
n = n-1 sono i gradi di libertà
Anche in questo caso l’area sottesa dalla curva è 1.
Si usa la tabella di Student simile a quella della distribuzione
normale.
La riga è determinata dai gradi di libertà e la colonna viene
selezionata in base al valore del livello di significatività.
Si determinano i valori critici t in modo analogo ai valori
z.
1
S.A.
a =5%
t = (Ö 14)(10,64-9,5)/7,26 =0,59
Gradi di libertà = 14
L’potesi nulla è accettabile.
1
S.A.
Foglio2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Stand
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
COND
Frequenza
Test Chi-quadro
Ricerca di associazione tra il tipo di materiale e la presenza di
loop.
albero
Si usano due tabelle di contingenza :
la tabella dei valori osservati e la tabella dei valori
attesi
Tabelle dei valori osservati O
Materiale
Fissando ad esempio il 3 gli altri valori
sono univocamente individuati mdiante
Ho: ipotesi nulla
quindi probabilità di avere loop è 13/40 indipendentementa dal
materiale
Possibili errori:
tipo 1
tipo 2
Materiale
8.81
Livello di significatività a : probabilità massima di commettere
errore di tipo 1
Da tabella del Chi-quadro:
(riga individuata dal grado di libertà e colonna da a )
livello
valore
Il valore calcolato è maggiore e l'ipotesi è da respingere.
(il valore cade nella regione critica)
Pertanto il tipo di materiale e la presenza di loop sono
associati.
Calcolo manuale del
1
167
2
342.1
3
322.9
4
154.8
5
358.1
6
227.9
7
323.8
8
285.2
9
613.8
10
254.3
11
310.1
12
426.8
13
521.2
14
765.1
15
1217.2
16
2446.5
17
675.7
18
90.9
19
86.8
20
109.1
21
67.7
22
204.5
23
170.3
24
176.8
25
543.2
26
628.2
27
401
28
302.4
29
623.5
30
978.9
31
607.9
32
165.6
33
307.9
34
192.4
35
524.7
36
111.2
37
178.7
38
273.4
39
1304.4
40
233.8
Cav Int.
t - test
Cav Int.
Precedenti studi hanno dimostrato che la media era 1,3 cm., e non
era noto lo scarto.
1
Interessa sapere se il campione delle 40 punte ,relativemente a
questa variabile,
1.3
1.7
In altre parole , poiché la media del campione è 1,4975 cm., e lo
scarto 0,312547
1.4
interessa sapere se sono simili oppure cè una differenza
rilevante.
1.1
1.6
1.3
1.6
t = (media del campione - media in origine)xradice quadrata di
(N-1) / scarto del campione di N elementi
1.5
1.4
1.7
1.5
2
2
1.8
livello
valore
1.4
l'ipotesi deve essere rspinta e quindi esiste una significativa
diversità
0.8
1.6
1.9
1.4
1.7
1.8
1.8
1.7
2.1
1.9
1.7
1.5
1.6
1.5
1.6
1
1.5
1.2
1.6
1.1
v.centrale
fr
int
fr
100
1
97-102
1
48
105
3
103-107
3
66
110
6
108-112
6
50
115
9
113-117
9
47
120
11
118-122
11
57
125
20
123-127
20
48
130
31
128-132
31
58
135
44
133-137
44
140
38
138-142
38
53.4285714286
53.5
145
29
143-147
29
150
25
148-152
25
155
14
153-157
14
160
9
158-162
9
6.5869382191
165
4
163-167
4
7.1147064324
170
2
168-172
2
246
CAV_INT_
CAV_INT_
Lunghezza cavità interna
CAV_INT_
CAV_INT_
S.A.
Foglio1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Coefficiente di correlazione
0.6744351959
La distribuizone evidenzia che esiste una correlazione positiva tra
i dati delle colonne 8 e 13:
ovvero aumentando i valori di una aumentano anche i valori
dell'altra.
correlazione
11.4
6.1
11.6
5.6
12.4
6.2
11.7
6.6
12.3
7.2
10.8
5.4
14.1
6.8
10.2
5.8
8
13
Foglio2
6.1
11.4
5.6
11.6
6.2
12.4
6.6
11.7
7.2
12.3
5.4
10.8
6.8
14.1
5.8
10.2
13
8
Foglio3
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Coefficiente di correlazione
0.6744351959
La distribuizone evidenzia che esiste una correlazione positiva tra
i dati delle colonne 8 e 13:
aumentando i valori di una aumentano anche i valori
dell'altra
Foglio3
11.4
6.1
11.6
5.6
12.4
6.2
11.7
6.6
12.3
7.2
10.8
5.4
14.1
6.8
10.2
5.8
8
13
S.A.
Foglio2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
COND
Frequenza
Cav Int.
1.7
1.7
1.7
mediana
media
moda
1.7
1.5
1.4176470588
1.6
1.8
>2,2
0
£ 0,8
1
tabella di contingenza
TABELLA DI CONTINGENZA
con frequenze assolute
contesto
CAV_INT_
CAV_INT_
Lunghezza cavità interna
CAV_INT_
CAV_INT_
S.A.
Foglio2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Stand
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
COND
Frequenza
Test Chi-quadro
Ricerca di associazione tra il tipo di materiale e la presenza di
loop.
albero
Si usano due tabelle di contingenza :
la tabella dei valori osservati e la tabella dei valori
attesi
Tabelle dei valori osservati O
Materiale
Fissando ad esempio il 3 gli altri valori
sono univocamente individuati mdiante
Ho: ipotesi nulla
quindi probabilità di avere loop è 13/40 indipendentementa dal
materiale
Possibili errori:
tipo 1
tipo 2
Materiale
8.81
Livello di significatività: probabilità massima di commettere
errore di tipo 1
Da tabella del Chi-quadro:
Il valore calcolato è maggiore e l'ipotesi è da respingere.
(il valore cade nella regione critica)
Pertanto il tipo di materiale e la presenza di loop sono
associati.
Calcolo manuale del
1
167
2
342.1
3
322.9
4
154.8
5
358.1
6
227.9
7
323.8
8
285.2
9
613.8
10
254.3
11
310.1
12
426.8
13
521.2
14
765.1
15
1217.2
16
2446.5
17
675.7
18
90.9
19
86.8
20
109.1
21
67.7
22
204.5
23
170.3
24
176.8
25
543.2
26
628.2
27
401
28
302.4
29
623.5
30
978.9
31
607.9
32
165.6
33
307.9
34
192.4
35
524.7
36
111.2
37
178.7
38
273.4
39
1304.4
40
233.8
Cav Int.
CAV_INT_
CAV_INT_
Lunghezza cavità interna
CAV_INT_
CAV_INT_
S.A.
Foglio2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Stand
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
COND
Frequenza
Test Chi-quadro
Ricerca di associazione tra il tipo di materiale e la presenza di
loop.
albero
Si usano due tabelle di contingenza :
la tabella dei valori osservati e la tabella dei valori
attesi
Tabelle dei valori osservati O
Materiale
Fissando ad esempio il 3 gli altri valori
sono univocamente individuati mdiante
Ho: ipotesi nulla
quindi probabilità di avere loop è 13/40 indipendentementa dal
materiale
Possibili errori:
tipo 1
tipo 2
Materiale
8.81
Livello di significatività: probabilità massima di commettere
errore di tipo 1
Da tabella del Chi-quadro:
Il valore calcolato è maggiore e l'ipotesi è da respingere.
(il valore cade nella regione critica)
Pertanto il tipo di materiale e la presenza di loop sono
associati.
Calcolo manuale del
1
167
2
342.1
3
322.9
4
154.8
5
358.1
6
227.9
7
323.8
8
285.2
9
613.8
10
254.3
11
310.1
12
426.8
13
521.2
14
765.1
15
1217.2
16
2446.5
17
675.7
18
90.9
19
86.8
20
109.1
21
67.7
22
204.5
23
170.3
24
176.8
25
543.2
26
628.2
27
401
28
302.4
29
623.5
30
978.9
31
607.9
32
165.6
33
307.9
34
192.4
35
524.7
36
111.2
37
178.7
38
273.4
39
1304.4
40
233.8
Cav Int.
CAV_INT_
CAV_INT_
Lunghezza cavità interna
CAV_INT_
CAV_INT_
S.A.
Foglio2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Stand
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
COND
Frequenza
Test Chi-quadro
Ricerca di associazione tra il tipo di materiale e la presenza di
loop.
albero
Si usano due tabelle di contingenza :
la tabella dei valori osservati e la tabella dei valori
attesi
Tabelle dei valori osservati O
Materiale
Fissando ad esempio il 3 gli altri valori
sono univocamente individuati mdiante
Ho: ipotesi nulla
quindi probabilità di avere loop è 13/40 indipendentementa dal
materiale
Possibili errori:
tipo 1
tipo 2
Materiale
Il valore calcolato è maggiore e l'ipotesi è da respingere.
(il valore cade nella regione critica)
Pertanto il tipo di materiale e la presenza di loop sono
associati.
Calcolo manuale del
1
167
2
342.1
3
322.9
4
154.8
5
358.1
6
227.9
7
323.8
8
285.2
9
613.8
10
254.3
11
310.1
12
426.8
13
521.2
14
765.1
15
1217.2
16
2446.5
17
675.7
18
90.9
19
86.8
20
109.1
21
67.7
22
204.5
23
170.3
24
176.8
25
543.2
26
628.2
27
401
28
302.4
29
623.5
30
978.9
31
607.9
32
165.6
33
307.9
34
192.4
35
524.7
36
111.2
37
178.7
38
273.4
39
1304.4
40
233.8
Cav Int.
CAV_INT_
CAV_INT_
Lunghezza cavità interna
CAV_INT_
CAV_INT_
N
x
i
å
x
X
tabella di contingenza :almeno una variabile è qualitativa
TABELLA DI CONTINGENZAcon frequenze assolute
sono dette anche frequenze interne o congiunte
contestotabella codificata
terrenosedimento sepolturafr.marginali123fr.marginali
N. ord.COND
Test Chi-quadro
Ricerca di associazione tra il tipo di materiale e la presenza di
loop.
albero
Si usano due tabelle di contingenza :
la tabella dei valori osservati e la tabella dei valori
attesi
Tabelle dei valori osservati O
MaterialeNo loopSi loop
10
gradi di libertà:1(scelta del valore iniziale in una delle caselle
rosse)
Fissando ad esempio il 3 gli altri valori
sono univocamente individuati mdiante
c = numero colonne della tabella
Tabella dei valori attesi E
Ho: ipotesi nullaNon esiste alcuna associazione (le differenze sono
casuali)
quindi probabilità di avere loop è 13/40 indipendentementa dal
materiale
Possibili errori:
MaterialeNo loopSi loop
t - test
Cav Int.Precedenti studi hanno dimostrato che la media era 1,3 cm.,
e non era noto lo scarto.
1Interessa sapere se il campione delle 40 punte ,relativemente a
questa variabile,
1,3appartiene oppure no alla stessa popolazione.
1,7In altre parole , poiché la media del campione è 1,4975 cm., e
lo scarto 0,312547
1,4 interessa sapere se sono simili oppure cè una differenza
rilevante.
1,1
1,3
1,6t = (media del campione - media in origine)xradice quadrata di
(N-1) / scarto del campione di N elementi
1,5
1,7
2
1,8livello valore
0,9
1,2Poiché 3,95 > 2,02 l'ipotesi deve essere rspinta e quindi
esiste una significativa diversità
0,8
1,6
1,9
1,4
1,7
1,8
1,8
1,7
2,1
1,9
1,7
1,5
1,6
1,5
1,6
1
1,5
1,2
1,6
1,1
Chi-quadro = 7,978,81
Livello di significatività : probabilità massima di commettere
errore di tipo 1
Da tabella del Chi-quadro:(riga individuata dal grado di libertà e
colonna da )
livello valore
0,16,68
Il valore calcolato è maggiore e l'ipotesi è da respingere.(il
valore cade nella regione critica)
Pertanto il tipo di materiale e la presenza di loop sono
associati.
Calcolo manuale del 2
media = mediana = moda
area compresa tra la curva e l'asse x è uguale ad 1
Lunghezza cavità interna
CAV_INT_
Lunghezza cavità interna
CAV_INT_
media
351,61,188884,1,80611668,26%di 40è 27,308
131,7
311,7
271,8
171,8
261,8
231,9
301,9
152
162
292,1
CAV_INT_
m
Coefficiente di correlazione
0,674435
La distribuizone evidenzia che esiste una correlazione positiva tra
i dati delle colonne 8 e 13:
ovvero aumentando i valori di una aumentano anche i valori
dell'altra.
0
2
4
6
8
10
12
14
16
0246810
8
13
0
5
10
15
20
25
12345678
8
13