ARCHEOLOGIA QUANTITATIVA a.a. 2006/2007

66
S.A. ARCHEOLOGIA QUANTITATIVA 1 ARCHEOLOGIA QUANTITATIVA a.a. 2006/2007 Silvano Antonelli -Ricevimento : • durante il corso: Martedì ore 15.30 presso Dipartimento di Informatica, Largo Pontecorvo 2 Stanza 394 • negli altri periodi: su appuntamento posta elettronica : [email protected] Pagina web : (programma, esami, date appelli…) http://www.di.unipi.it/~antonell/

description

ARCHEOLOGIA QUANTITATIVA a.a. 2006/2007. Silvano Antonelli -Ricevimento : durante il corso: Martedì ore 15.30 presso Dipartimento di Informatica, Largo Pontecorvo 2 Stanza 394 negli altri periodi: su appuntamento posta elettronica : [email protected] - PowerPoint PPT Presentation

Transcript of ARCHEOLOGIA QUANTITATIVA a.a. 2006/2007

IntroduzioneStanza 394
http://www.di.unipi.it/~antonell/
1
S.A.
C.A.Carnevale Maffè, T.Carnevale Maffè, Statistica, Sintesi, Vallardi
S. Berstein, R.Bernstein , Statistica descrittiva, McGraw-Hill
I.Diamond, J.Jefferies, Introduzione alla statistica, McGraw-Hill
Per applicazioni in campo archeologico:
IS. Shennan, Quantifyng Archaeology, Edinburgh ,University Press. 1998.
 
Introduzione (1)
Negli ultimi quaranta anni si è assistito alla sempre più crescente utilizzazione dell’informatica e delle scienze nell’ambito sociale e umanistico, introducendo, attraverso tecniche matematiche e statistiche, metodi propri delle scienze esatte.
1
S.A.
Introduzione (2)
Per quanto attiene in particolare all’Archeologia , l’informatica è intervenuta sia nei processi metodologici, sia nello sviluppo di tecniche connesse a tali processi per:
sistematizzare e ottimizzare operazioni di catalogazione e gestione dell’informazione
definire strumenti idonei ad un trattamento scientifico dei dati
1
S.A.
*
I sistemi informatici che rispondono a queste esigenze sono rispettivamente quelli di tipo documentario per il trattamento descrittivo degli oggetti (Sistemi di gestione di basi di dati) e sistemi basati su tecniche matematico-statistiche.
Le basi di dati richiedono una strutturazione organica e sistematica dell’informazione; i dati rispecchiano in generale caratteri di omogeneità basati su informazioni intrinseche (specifiche dell’oggetto) ed estrinseche (relazionali).
1
S.A.
Fattuale,inerente alla realtà, per la raccolta di elementi concernenti oggetti mobili, edifici, iscrizioni, decorazioni,etc. allo scopo di costituire inventari (assumono quindi una funzione amministrativa)
bibliografico con lo scopo di arrivare alla schedatura di diverse pubblicazioni per fornire informazioni sistematiche.
Le basi di dati si limitano però a trattare i dati in maniera descrittiva, e non permettono una analisi e una interpretazione dei dati stessi.
1
S.A.
Sistemi statistici
Tenuto conto anche del fatto che i dati di scavo (geografici, stratigrafici, immobili,materiali mobili, etc.) non sono completamente omogenei, l’archeologia si è rivolta ai sistemi basati su tecniche matematico – statistiche.
I primi esempi di applicazione si sono avuti negli anni ’50 in archeologia preistorica attraverso l’uso di tecniche grafiche e di statistiche descrittive.
Questo approccio ha dato luogo, a partire dagli anni ’60, ad una branca di ricerca definita “Archeologia Quantitativa”, considerata da alcuni ricercatori una disciplina autonoma nell’ambito di un movimento culturale detto New Archaeology.
1
S.A.
Origini della statistica(1)
I primi rilevamenti statistici risalgono all’antichità e derivano dalla naturale esigenza umana della classificazione di tutto ciò che è presente nell’ambiente in cui vive .
Alcuni esempi:
indagini per la previsione delle piene del Nilo (Egitto)
I due esempi hanno caratteristiche completamente
diverse.
1
S.A.
Origini della statistica(2)
Il censimento ha infatti lo scopo di evidenziare una situazione di fatto e rientra nella logica del certo,fotografando lo stato della popolazione in quel preciso periodo, mentre il secondo rientra nella logica del probabile, gli unici approcci che rispecchiano il comportamento dell’uomo di fronte a qualunque fenomeno.
La logica del probabile è il contesto nel quale si pone la statistica, che si avvale del calcolo delle probabilità per studiare i fenomeni, evidenziarne le caratteristiche e stabilire associazioni e relazioni tra fatti.
1
S.A.
*
Il campo di interesse della statistica è quello dei fenomeni collettivi che richiedono, per la loro valutazione , grandi quantità di osservazioni.
Le tecniche e i metodi statistici si pongono l’obiettivo di ridurre queste grandi quantità di osservazioni a pochi elementi , valori di sintesi che rappresentino la totalità e tengano conto delle variazioni delle osservazioni. Il metodo statistico facilita quindi il confronto tra valori e fenomeni e rende possibile la scoperta di regole nella apparente irregolarità.
1
S.A.
*
 
Tecnico, relativamente alla raccolta, elaborazione e presentazione dei dati, anche in forma grafica;
Logico che si propone di formulare leggi, trarre deduzioni e conseguenze e mettere in evidenza le cause dei fenomeni.
1
S.A.
statistica descrittiva: raccogliere ed elaborare dati per ricavare informazioni sintetiche e significative, secondo le esigenze del problema di interesse.
statistica inferenziale o induttiva : definire metodi per passare dall’osservazione di casi particolari a leggi generali
L’estensione dei risultati di un campione rappresentativo alla totalità della popolazione è detta inferenza, la cui analisi è detta Inferenza statistica.
1
S.A.
*
Quando si deduce un parametro di una popolazione sulla base delle corrispondenti osservazioni (statistiche) effettuate su un campione casuale si dice che si effettua una stima che rappresenta una approssimazione statistica dei risultati di una indagine sulla intera popolazione.
I risultati tratti dal campione ed estesi alla popolazione evidenziano la presenza di un trade-off (scambio-compromesso) tra costi/tempi e accuratezza della stima.
1
S.A.
Statistica descrittiva
Studio e sintesi de fenomeni collettivi, che sono caratterizzati da risultati incerti.
Descrivere e prevedere questa variabilità
Popolazione o universo.
(fonte : Mike Flechter and Gary R. Lock)
40 Punte di lancia con o senza anello (loop) per stringere la punta sulla immanicatura e spinotto, ribattino (peghole) per bloccare la punta sulla immanicatura.
Caratteristiche , attributi di interesse archeologico:
Tipo di materiale
Variabile: ogni caratteristica che può manifestarsi
in modo diverso in unità diverse
Valori, modalità: diversi modi nei quali una
variabile può manifestarsi.
peso in gr.
condizione
Missing (mancante)
Numero ord. 1
1
S.A.
Abbiamo considerato la misura delle caratteristiche
delle variabili, o , come si dice, il livello di misura o
scala.
categorie,per un processo di classificazione.
E’ il livello più basso di misurazione.
Tipo di materiale, loop, peghole.
Permette di classificare le unità: tutte le punte di
ferro, etc e formare quindi nuove classi.
1
S.A.
Possiamo formare classi e metterle anche in ordine,
ma senza che vi sia una distanza tra le categorie o
tra i singoli individui
Es.: stato di conservazione
unità di misura
Manca però il punto iniziale: lo zero assoluto
(Temperatura)
1
S.A.
In più esiste anche lo zero assoluto
Pesi, distanze etc.
- continue:i valori sono numeri positivi,
negativi , decimali (reali)
Sconnesse quando non esiste alcun ordine.
Es: colore dei capelli
Sintetizzare i dati
Medie:
Aritmetica
Geometrica
Ponderata
Moda: modalità più ricorrente
Indici di dispersione
Campo di variazione: differenza tra il valore più grande xl e il più piccolo xs
E’ poco significativo: le distribuzioni hanno lo stesso campo di variazione, ma sono molto diverse in quanto a variabilità
Varianza
è la radice quadrata della varianza
1
S.A.
Tabella
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Tabella
16.8
6.6
13.3
3.1
14.1
5.8
0
6.1
22.5
9.2
16.9
4.5
19.1
6.4
25.8
8.6
22.5
8.4
27.6
8.7
38
9.6
72.4
14.4
37.5
10.2
10.2
3
11.6
4.6
10.8
8.1
11.4
4.2
16.6
7.2
10.2
3.4
18.6
6.6
24.4
7.5
23.5
8
24.8
8.1
14.1
3.4
24.6
6
30.9
5.1
20.2
5.9
12.8
3.5
16.9
5.5
14.2
4.3
18
4.5
11.7
8.6
14.1
5.4
17.7
4.8
36.6
13.5
12.3
2.4
&A
Foglio1
1
167
2
342.1
3
322.9
4
154.8
5
358.1
6
227.9
7
323.8
8
285.2
9
613.8
10
254.3
11
310.1
12
426.8
13
521.2
14
765.1
15
1217.2
16
2446.5
17
675.7
18
90.9
19
86.8
20
109.1
21
67.7
22
204.5
23
170.3
24
176.8
25
543.2
26
628.2
27
401
28
302.4
29
623.5
30
978.9
31
607.9
32
165.6
33
307.9
34
192.4
35
524.7
36
111.2
37
178.7
38
273.4
39
1304.4
40
233.8
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Coefficiente di correlazione
0.6744351959
La distribuizone evidenzia che esiste una correlazione positiva tra i dati delle colonne 8 e 13:
aumentando i valori di una aumentano anche i valori dell'altra
11.4
6.1
11.6
5.6
12.4
6.2
11.7
6.6
12.3
7.2
10.8
5.4
14.1
6.8
10.2
5.8
8
13
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
13
8
S.A.
Tabella
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Tabella
16.8
6.6
13.3
3.1
14.1
5.8
0
6.1
22.5
9.2
16.9
4.5
19.1
6.4
25.8
8.6
22.5
8.4
27.6
8.7
38
9.6
72.4
14.4
37.5
10.2
10.2
3
11.6
4.6
10.8
8.1
11.4
4.2
16.6
7.2
10.2
3.4
18.6
6.6
24.4
7.5
23.5
8
24.8
8.1
14.1
3.4
24.6
6
30.9
5.1
20.2
5.9
12.8
3.5
16.9
5.5
14.2
4.3
18
4.5
11.7
8.6
14.1
5.4
17.7
4.8
36.6
13.5
12.3
2.4
&A
Foglio1
1
167
2
342.1
3
322.9
4
154.8
5
358.1
6
227.9
7
323.8
8
285.2
9
613.8
10
254.3
11
310.1
12
426.8
13
521.2
14
765.1
15
1217.2
16
2446.5
17
675.7
18
90.9
19
86.8
20
109.1
21
67.7
22
204.5
23
170.3
24
176.8
25
543.2
26
628.2
27
401
28
302.4
29
623.5
30
978.9
31
607.9
32
165.6
33
307.9
34
192.4
35
524.7
36
111.2
37
178.7
38
273.4
39
1304.4
40
233.8
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Coefficiente di correlazione
0.6744351959
La distribuizone evidenzia che esiste una correlazione positiva tra i dati delle colonne 8 e 13:
aumentando i valori di una aumentano anche i valori dell'altra
11.4
6.1
11.6
5.6
12.4
6.2
11.7
6.6
12.3
7.2
10.8
5.4
14.1
6.8
10.2
5.8
8
13
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
13
8
S.A.
1
lancia
variabili
quantitative
10
Foglio1
21
1
1
2
1
2
900
11.4
4.2
1.8
0.8
1.5
6.1
67.7
40
1
1
2
1
2
800
12.3
2.4
5.4
1.1
1.6
7.2
233.8
5
2
3
1
1
3
350
16.8
6.6
5.7
1.1
1.7
7
358.1
20
2
2
1
1
3
400
10.8
8.1
2.7
1.2
1.7
5.4
109.1
38
1
1
2
1
2
1200
17.7
4.8
3.9
1.2
1.8
9.6
273.4
7
2
3
1
2
2
450
14.1
5.8
5.8
1.2
1.8
6.8
323.8
18
2
2
1
2
3
450
10.2
3
2.7
1.4
1.5
5.8
90.9
24
1
1
2
1
1
1200
18.6
6.6
2.7
1.4
1.6
8.5
176.8
12
2
1
1
2
3
100
25.8
8.6
4.7
1.4
1.6
12.7
426.8
4
2
3
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Coefficiente di correlazione
0.6744351959
La distribuizone evidenzia che esiste una correlazione positiva tra i dati delle colonne 8 e 13:
aumentando i valori di una aumentano anche i valori dell'altra
11.4
6.1
11.6
5.6
12.4
6.2
11.7
6.6
12.3
7.2
10.8
5.4
14.1
6.8
10.2
5.8
8
13
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
13
8
S.A.
Si costruisce una partizione dei dati in classi:
la frequenza (assoluta) denota il numero di elementi per ciascuna classe.
Frequenze assolute, cumulate
Frequenze Relative: rapporto tra frequenze assolute e il numero totale di unità statistiche in esame.
Le distribuzioni di frequenze si rappresentano mediante tabelle e graficamente.
1
S.A.
intervalli
fr.assolute
fr.relative
Foglio2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
COND
Frequenza
Cav Int.
1.7
1.7
1.7
mediana
media
moda
1.7
1.5
1.4176470588
1.6
1.8
>2,2
0
£ 0,8
1
media = mediana = moda
area compresa tra la curva e l'asse x è uguale ad 1
media
Variabili
Normalizzate
media
scarto
Formula
tabella di contingenza
TABELLA DI CONTINGENZA
con frequenze assolute
contesto
terreno
sedimento
sepoltura
fr.marginali
1
2
3
fr.marginali
Mater.
bronzo
19
1
0
20
1
19
1
0
20
ferro
8
5
7
20
2
8
5
7
20
fr.marginali
27
6
7
40
fr.marginali
27
6
7
40
CAV_INT_
CAV_INT_
Lunghezza cavità interna
CAV_INT_
CAV_INT_
S.A.
Foglio2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
COND
Frequenza
Cav Int.
1.7
1.7
1.7
mediana
media
moda
1.7
1.5
1.4176470588
1.6
1.8
>2,2
0
£ 0,8
1
13
1.7
3
1.7
(media-2scarto ,
tabella di contingenza
TABELLA DI CONTINGENZA
con frequenze assolute
contesto
terreno
sedimento
sepoltura
fr.marginali
1
2
3
fr.marginali
Mater.
bronzo
19
1
0
20
1
19
1
0
20
ferro
8
5
7
20
2
8
5
7
20
fr.marginali
27
6
7
40
fr.marginali
27
6
7
40
CAV_INT_
CAV_INT_
S.A.
Foglio2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
N. ord.
Cav Int.
1.7
1.7
1.7
1.7
1.8
1.8
1.5
1.4176470588
1.6
1.5
>2,2
0
£ 0,8
1
tabella di contingenza
TABELLA DI CONTINGENZA
con frequenze assolute
contesto
terreno
sedimento
sepoltura
fr.marginali
1
2
3
fr.marginali
Mater.
bronzo
19
1
0
20
1
19
1
0
20
ferro
8
5
7
20
2
8
5
7
20
fr.marginali
27
6
7
40
fr.marginali
27
6
7
40
CAV_INT_
CAV_INT_
Lunghezza cavità interna
CAV_INT_
CAV_INT_
S.A.
Scarto = 1
Un numero nella tavola della distribuzione normale rappresenta l' area sottesa dalla curva che si trova tra il valore medio (Z = 0) e il valore standardizzato positivo Z. L'area tra il valore 0 e un valore negativo sarà identica all'area tra il valore medio e quello positivo per la simmetria della curva.
Se z non è intero, e quindi del tipo z = a,bc si cerca a,b nella prima colonna della tabella e si prende il valore intersezione della riga selezionata e della colonna 0,0b.
Es: z=1,82 area = 0,4656
1
S.A.
Media m = 6,0
2,3 -2,6 -2,8 -2,11- 3,6 -3,8 -3,11-6,8-6,11-8,11
Le medie dei campioni sono:
2,5-4-5-6,5-4,5-5,5-7-7-8,5-9,5
=6,0
campionarie è 4,05 e quindi lo scarto è:
= 2,01
1
S.A.
Distribuzione campionaria
Se si ripete il processo per i campioni di dimensione crescente si osserva che la media della distribuzione campionaria rimane la stessa, mentre lo scarto tende a diminuire.
Ad esempio per i 5 campioni di n=4 elementi si ottiene:
= 6,0
= 0,82
dei valori reali della popolazione in quanto hanno
assorbito i valori estremi che invece incidono
pesantemente nella popolazione, in conclusione lo
scarto quadratico medio della medie campionarie è
minore di quello delle medie campionarie.
1
S.A.
SE =
SE = 2,32
della distribuzione campionaria delle medie.
Poiché la dimensione del campione è piccola , un
valore migliore si ottiene applicando la formula
corretta:
SE =
da cui SE = 2,01 che coincide con il valore dello scarto
della distribuzione campionaria delle medie.
1
S.A.
Se la prima è normale lo sono anche le altre.
Nel caso della normalità si può ragionare su un
campione di almeno dieci elementi
In ogni caso, al crescere della dimensione del
campione, la distribuzione delle medie campionarie
tende ad essere normale. La dimensione minima
è 30. Le relazioni fondamentali sono:
=
=
, che abbiamo già denotato con SE, è detto errore standard
Sappiamo che nell’intervallo
(media- scarto, media + scarto)
considerazioni per la distribuzione campionaria.
L’intervallo in esame è:
( - , + )
- £ £ +
Come si interpreta?
La vera media della popolazione cadrà con probabilità 0,6826 nel suddetto intervallo
- L’errore standard non descrive la variabilità della popolazione, ma descrive il grado di certezza con il quale una media campionaria stima la vera media della popolazione.
Gli estremi dell’intervallo sono detti limiti di confidenza o fiduciari
Le stesse considerazioni si ripetono per gli intervalli introdotti nella diapositiva 40.
- Le relazioni di n.48 dicono che la media aritmetica
del campione è uno stimatore corretto della media della popolazione, mentre SE è uno stimatore distorto dello scarto della popolazione.
1
S.A.
Abbiamo valutato i parametri della popolazione a partire dai valori corrispondenti del campione: è questa la stima puntuale.
Altro aspetto è la stima per intervalli: piuttosto che chiedere quanto vale un parametro , ci domandiamo in quale intervallo cade.
Esempio di stima per intervalli
Campione ,estratto da popolazione normale, di
dimensione n=16 con media 1,71 e scarto 0,12.
Dal teorema del limite centrale sappiamo che 1,71 è una buona stima della media della popolazione.
La dimensione del campione del campione è sufficientemente grande per approssimare lo scarto della popolazione con quello del campione.
1
S.A.
*
Determiniamo ora l’intervallo in cui cadrà la media della popolazione al 95%.
L’area di riferimento è quindi 0,95 suddivisa in due parti di 0,4750
Il valore critico corrispondente è Z=1,96.
L’intervallo è :
da cui :
(1,6512 – 1,7688)
intervallo; d’altra parte avevamo già stimato che il suo
valore fosse 1,71
Campione di dimensione n=40 media 107
E’ casuale questa media?
Area a destra di 2,95 è 0,5-0,4984=0,0016 è molto
piccola e quindi la probabilità che l’evento sia
casuale è scarsa.
partendo da ipotesi relative ad un solo campione
Ipotesi nulla H0 : di solito formulata in modo da poter essere rifiutata
Ipotesi alternativa HA
modo significativo da quelli attesi.
Errori di valutazione:
di tipo I : si rifiuta ipotesi quando dovrebbe essere accettata
- di tipo II : si accetta ipotesi quando dovrebbe essere rifiutata
1
S.A.
*
Livello di significatività a : probabilità massima con la quale si accetta di compiere un errore di tipo I
1- a : livello di confidenza o di fiducia
Valori tipici: 0,05 (5%) , 0,01 (1%)
Metodo Grandi campioni : n³ 30
-Si sfrutta la normalità e quindi si usano le tavole relative alle variabili standardizzate
-Si fissa il livello: di solito 5% a cui corrisponde il valore critica Z=1,96
-Si considera il campione : media e scarto
-L’area tra -1,96 e +1,96 è l’area di accettazione dell’ipotesi
L’area esterna è la regione critica: i valori differiscono in modo significativo da quelli ipotizzati
L’area esterna è ripartita in due parti simmetriche (due code) oppure è costituisce un unico blocco (una coda)
1
S.A.
Popolazione con media 120 e scarto 10
Campione con n=36 e media 114
Domanda: il campione proviene da quella popolazione? Ipotesi : media =120 Livello = 5%
Due metodi
Metodo degli intervalli di confidenza
L’area di accettazione , che si denota con 95%IC è : (media ±1,96 )
ovvero:
da cui :
(110,73 ÷117,27)
*
120 non appartiene all’intervallo e quindi è improbabile che il campione provenga da una popolazione con media 120:Si accetta quindi l’ipotesi alternativa
B) Metodo del test statistico
Si calcola :
= (114-120)/SE = -3,6
dove SE = 10/ Ö 36
Ma -3,6 è molto più piccolo di -1,96 e quindi cade nella regione critica
L’ipotesi nulla è da scartare e quindi è improbabile che il campione provenga da una popolazione con media 120
1
S.A.
Nota: se avessimo formulato l’ipotesi media>120
la regione critica sarebbe stata tutta dalla parte destra della curva e avremmo quindi effettuato un test ad una coda.
In questo caso avremmo dovuto considerare solamente metà area 0,50 e quindi togliendo 5% del livello ,l’area di accettabilità sarebbe stata 0,45 a cui corrisponde il valore critico Z=1,64 invece di 1,96.
Il metodo sarebbe poi rimasto lo stesso.
1
S.A.
Non conoscenza dello scarto della popolazione
Distribuzione non normale (asimmetrica)
Soluzioni:
Teoria dei piccoli campioni:in questo contesto trovano soluzione i primi due problemi.
Se la distribuzione è asimmetrica il valore medio più appropriato è la mediana che non risente dei valori estremi. Si usa allora il test dei segni (test non-parametrico)
1
S.A.
Test di Student (t-test)
Si basa sul confronto della media campionaria con quella della popolazione
Si definisce la statistica:
t = (Ö n-1) ( )/s
n = n-1 sono i gradi di libertà
Anche in questo caso l’area sottesa dalla curva è 1.
Si usa la tabella di Student simile a quella della distribuzione normale.
La riga è determinata dai gradi di libertà e la colonna viene selezionata in base al valore del livello di significatività.
Si determinano i valori critici t in modo analogo ai valori z.
1
S.A.
Campione : n=15 media=10,64 scarto s= 7,26
a =5%
Test a due code: 0,05/2 =0,025
t = (Ö 14)(10,64-9,5)/7,26 =0,59
Gradi di libertà = 14
L’potesi nulla è accettabile.
1
S.A.
Foglio2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Stand
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
COND
Frequenza
Test Chi-quadro
Ricerca di associazione tra il tipo di materiale e la presenza di loop.
albero
Si usano due tabelle di contingenza :
la tabella dei valori osservati e la tabella dei valori attesi
Tabelle dei valori osservati O
Materiale
Fissando ad esempio il 3 gli altri valori
sono univocamente individuati mdiante
Ho: ipotesi nulla
quindi probabilità di avere loop è 13/40 indipendentementa dal materiale
Possibili errori:
tipo 1
tipo 2
Materiale
8.81
Livello di significatività a : probabilità massima di commettere errore di tipo 1
Da tabella del Chi-quadro:
(riga individuata dal grado di libertà e colonna da a )
livello
valore
Il valore calcolato è maggiore e l'ipotesi è da respingere.
(il valore cade nella regione critica)
Pertanto il tipo di materiale e la presenza di loop sono associati.
Calcolo manuale del
1
167
2
342.1
3
322.9
4
154.8
5
358.1
6
227.9
7
323.8
8
285.2
9
613.8
10
254.3
11
310.1
12
426.8
13
521.2
14
765.1
15
1217.2
16
2446.5
17
675.7
18
90.9
19
86.8
20
109.1
21
67.7
22
204.5
23
170.3
24
176.8
25
543.2
26
628.2
27
401
28
302.4
29
623.5
30
978.9
31
607.9
32
165.6
33
307.9
34
192.4
35
524.7
36
111.2
37
178.7
38
273.4
39
1304.4
40
233.8
Cav Int.
Esempio 2
Cav Int.
Precedenti studi hanno dimostrato che la media era 1,3 cm., e non era noto lo scarto.
1
Interessa sapere se il campione delle 40 punte ,relativemente a questa variabile,
1.3
1.7
In altre parole , poiché la media del campione è 1,4975 cm., e lo scarto 0,312547
1.4
interessa sapere se sono simili oppure cè una differenza rilevante.
1.1
1.6
1.3
1.6
t = (media del campione - media in origine)xradice quadrata di (N-1) / scarto del campione di N elementi
1.5
1.4
1.7
1.5
2
2
1.8
livello
valore
1.4
l'ipotesi deve essere respinta e quindi esiste una significativa diversità
0.8
1.6
1.9
1.4
1.7
1.8
1.8
1.7
2.1
1.9
1.7
1.5
1.6
1.5
1.6
1
1.5
1.2
1.6
1.1
v.centrale
fr
int
fr
100
1
97-102
1
48
105
3
103-107
3
66
110
6
108-112
6
50
115
9
113-117
9
47
120
11
118-122
11
57
125
20
123-127
20
48
130
31
128-132
31
58
135
44
133-137
44
140
38
138-142
38
53.4285714286
53.5
145
29
143-147
29
150
25
148-152
25
155
14
153-157
14
160
9
158-162
9
6.5869382191
165
4
163-167
4
7.1147064324
170
2
168-172
2
246
CAV_INT_
CAV_INT_
Lunghezza cavità interna
CAV_INT_
CAV_INT_
S.A.
Foglio2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
COND
Frequenza
Cav Int.
1.7
1.7
1.7
mediana
media
moda
1.7
1.5
1.4176470588
1.6
1.8
>2,2
0
£ 0,8
1
tabella di contingenza
TABELLA DI CONTINGENZA
con frequenze assolute
contesto
CAV_INT_
CAV_INT_
Lunghezza cavità interna
CAV_INT_
CAV_INT_
S.A.
Foglio2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Stand
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
COND
Frequenza
Test Chi-quadro
Ricerca di associazione tra il tipo di materiale e la presenza di loop.
albero
Si usano due tabelle di contingenza :
la tabella dei valori osservati e la tabella dei valori attesi
Tabelle dei valori osservati O
Materiale
Fissando ad esempio il 3 gli altri valori
sono univocamente individuati mdiante
Ho: ipotesi nulla
quindi probabilità di avere loop è 13/40 indipendentementa dal materiale
Possibili errori:
tipo 1
tipo 2
Materiale
8.81
Livello di significatività: probabilità massima di commettere errore di tipo 1
Da tabella del Chi-quadro:
Il valore calcolato è maggiore e l'ipotesi è da respingere.
(il valore cade nella regione critica)
Pertanto il tipo di materiale e la presenza di loop sono associati.
Calcolo manuale del
1
167
2
342.1
3
322.9
4
154.8
5
358.1
6
227.9
7
323.8
8
285.2
9
613.8
10
254.3
11
310.1
12
426.8
13
521.2
14
765.1
15
1217.2
16
2446.5
17
675.7
18
90.9
19
86.8
20
109.1
21
67.7
22
204.5
23
170.3
24
176.8
25
543.2
26
628.2
27
401
28
302.4
29
623.5
30
978.9
31
607.9
32
165.6
33
307.9
34
192.4
35
524.7
36
111.2
37
178.7
38
273.4
39
1304.4
40
233.8
Cav Int.
CAV_INT_
CAV_INT_
Lunghezza cavità interna
CAV_INT_
CAV_INT_
S.A.
Foglio2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Stand
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
COND
Frequenza
Test Chi-quadro
Ricerca di associazione tra il tipo di materiale e la presenza di loop.
albero
Si usano due tabelle di contingenza :
la tabella dei valori osservati e la tabella dei valori attesi
Tabelle dei valori osservati O
Materiale
Fissando ad esempio il 3 gli altri valori
sono univocamente individuati mdiante
Ho: ipotesi nulla
quindi probabilità di avere loop è 13/40 indipendentementa dal materiale
Possibili errori:
tipo 1
tipo 2
Materiale
8.81
Livello di significatività: probabilità massima di commettere errore di tipo 1
Da tabella del Chi-quadro:
Il valore calcolato è maggiore e l'ipotesi è da respingere.
(il valore cade nella regione critica)
Pertanto il tipo di materiale e la presenza di loop sono associati.
Calcolo manuale del
1
167
2
342.1
3
322.9
4
154.8
5
358.1
6
227.9
7
323.8
8
285.2
9
613.8
10
254.3
11
310.1
12
426.8
13
521.2
14
765.1
15
1217.2
16
2446.5
17
675.7
18
90.9
19
86.8
20
109.1
21
67.7
22
204.5
23
170.3
24
176.8
25
543.2
26
628.2
27
401
28
302.4
29
623.5
30
978.9
31
607.9
32
165.6
33
307.9
34
192.4
35
524.7
36
111.2
37
178.7
38
273.4
39
1304.4
40
233.8
Cav Int.
CAV_INT_
CAV_INT_
Lunghezza cavità interna
CAV_INT_
CAV_INT_
S.A.
Foglio2
Stand
COND
Frequenza
Test Chi-quadro
Ricerca di associazione tra il tipo di materiale e la presenza di loop.
albero
Materiale
Fissando ad esempio il 3 gli altri valori
sono univocamente individuati mdiante
Ho: ipotesi nulla
quindi probabilità di avere loop è 13/40 indipendentementa dal materiale
Possibili errori:
tipo 1
tipo 2
Materiale
8.81
Livello di significatività a : probabilità massima di commettere errore di tipo 1
Da tabella del Chi-quadro:
(riga individuata dal grado di libertà e colonna da a )
livello
valore
Il valore calcolato è maggiore e l'ipotesi è da respingere.
(il valore cade nella regione critica)
Pertanto il tipo di materiale e la presenza di loop sono associati.
Calcolo manuale del
1
167
2
342.1
3
322.9
4
154.8
5
358.1
6
227.9
7
323.8
8
285.2
9
613.8
10
254.3
11
310.1
12
426.8
13
521.2
14
765.1
15
1217.2
16
2446.5
17
675.7
18
90.9
19
86.8
20
109.1
21
67.7
22
204.5
23
170.3
24
176.8
25
543.2
26
628.2
27
401
28
302.4
29
623.5
30
978.9
31
607.9
32
165.6
33
307.9
34
192.4
35
524.7
36
111.2
37
178.7
38
273.4
39
1304.4
40
233.8
Cav Int.
CAV_INT_
CAV_INT_
Lunghezza cavità interna
CAV_INT_
CAV_INT_
MBD017AE70B.unknown
S.A.
correlazione
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Coefficiente di correlazione
0.6744351959
La distribuizone evidenzia che esiste una correlazione positiva tra i dati delle colonne 8 e 13:
ovvero aumentando i valori di una aumentano anche i valori dell'altra.
11.4
6.1
11.6
5.6
12.4
6.2
11.7
6.6
12.3
7.2
10.8
5.4
14.1
6.8
10.2
5.8
8
13
6.1
11.4
5.6
11.6
6.2
12.4
6.6
11.7
7.2
12.3
5.4
10.8
6.8
14.1
5.8
10.2
13
8
N
x
i
å
x
N. ord.COND
tabella di contingenza :almeno una variabile è qualitativa
TABELLA DI CONTINGENZAcon frequenze assolute
sono dette anche frequenze interne o congiunte
contestotabella codificata
terrenosedimento sepolturafr.marginali123fr.marginali
1234567891011121314
211121290011,44,21,80,81,56,167,7
192212220011,64,620,91,75,686,8
12312330012,43,13,611,76,2167,0
3611212100011,78,62,411,86,6111,2
401121280012,32,45,41,11,67,2233,8
202211340010,88,12,71,21,75,4109,1
72312245014,15,85,81,21,86,8323,8
182212345010,232,71,41,55,890,9
media11,813
Coefficiente di correlazione
0,674
La distribuizone evidenzia che esiste una correlazione positiva tra i dati delle colonne 8 e 13:
ovvero aumentando i valori di una aumentano anche i valori dell'altra.
0
2
4
6
8
10
12
14
16
0246810
8
13
0
5
10
15
20
25
12345678
8
13
Test Chi-quadro
Ricerca di associazione tra il tipo di materiale e la presenza di loop.
albero
Si usano due tabelle di contingenza :
la tabella dei valori osservati e la tabella dei valori attesi
Tabelle dei valori osservati O
MaterialeNo loopSi loop
10
gradi di libertà:1(scelta del valore iniziale in una delle caselle rosse)
Fissando ad esempio il 3 gli altri valori
sono univocamente individuati mdiante
c = numero colonne della tabella
Tabella dei valori attesi E
Ho: ipotesi nullaNon esiste alcuna associazione (le differenze sono casuali)
quindi probabilità di avere loop è 13/40 indipendentementa dal materiale
Possibili errori:
MaterialeNo loopSi loop
Chi-quadro = 7,978,81
Livello di significatività a : probabilità massima di commettere errore di tipo 1
Da tabella del Chi-quadro:(riga individuata dal grado di libertà e colonna da a )
livello valore
0,16,63
Il valore calcolato è maggiore e l'ipotesi è da respingere.(il valore cade nella regione critica)
Pertanto il tipo di materiale e la presenza di loop sono associati.
Calcolo manuale del
media = mediana = moda
area compresa tra la curva e l'asse x è uguale ad 1
Lunghezza cavità interna
CAV_INT_
Lunghezza cavità interna
CAV_INT_
media
351,61,188884,1,80611668,26%di 40è 27,308
131,7
311,7
271,8
171,8
261,8
231,9
301,9
152
162
292,1
CAV_INT_
m
Esempio 2
Cav Int.Precedenti studi hanno dimostrato che la media era 1,3 cm., e non era noto lo scarto.
1Interessa sapere se il campione delle 40 punte ,relativemente a questa variabile,
1,3appartiene oppure no alla stessa popolazione.
1,7In altre parole , poiché la media del campione è 1,4975 cm., e lo scarto 0,312547
1,4 interessa sapere se sono simili oppure cè una differenza rilevante.
1,1
1,3
1,6t = (media del campione - media in origine)xradice quadrata di (N-1) / scarto del campione di N elementi
1,5
1,7
2
1,8livello valore
0,9
1,2Poiché 3,95 > 2,02 l'ipotesi deve essere respinta e quindi esiste una significativa diversità
0,8
1,6
1,9
1,4
1,7
1,8
1,8
1,7
2,1
1,9
1,7
1,5
1,6
1,5
1,6
1
1,5
1,2
1,6
1,1