Statistica Non Parametrica

download Statistica Non Parametrica

of 32

Transcript of Statistica Non Parametrica

  • 8/18/2019 Statistica Non Parametrica

    1/32

    Introduzione alla statistica non parametrica

    Introduzione alla statistica non parametrica

  • 8/18/2019 Statistica Non Parametrica

    2/32

    Statistica parametrica e non parametrica

    PremessaEsempioMetodi non parametriciMediana e rango

    Metodi parametrici e non parametrici (1)

    I metodi parametrici utilizzati per la soluzione di problemi dicarattere univariato e multivariato hanno, come limitazione, lanecessità di dover ricorrere all’introduzione di ipotesi molto

    restrittive, spesso ingiustificate se non impossibili da giustificare,irrealistiche, non sempre chiare, difficilmente interpretabili,formulate  ad hoc  per poter fare inferenza. A questo si deveaggiungere che le assunzioni che rendono valida l’applicazione ditali metodi (normalità, omoschedasticità, indipendenza e identicadistribuzione della componente stocastica erratica) sono di normararamente soddisfatte e, quand’anche soddisfatte, i risultati sonospesso ottenuti tramite approssimazione.

    Introduzione alla statistica non parametrica

  • 8/18/2019 Statistica Non Parametrica

    3/32

    Statistica parametrica e non parametrica

    PremessaEsempioMetodi non parametriciMediana e rango

    Metodi parametrici e non parametrici (2)

    Sempre più spesso, per problemi multivariati complessi studiati inambito biomedico, ingegneristico, psicologico, farmacologico, negliesperimenti clinici, nel controllo della qualità, quando

    non è noto il modello distributivo,non si può invocare la normalità,

    l’inferenza riguarda variabili di tipo qualitativo,

    la numerosità del campione è inferiore al numero di variabili,

    ci sono dati mancanti non a caso,si passa da un approccio parametrico ad uno non parametrico,ovviando così, senza perdita sostanziale di efficienza, le limitazionisopra accennate.

    Introduzione alla statistica non parametrica

  • 8/18/2019 Statistica Non Parametrica

    4/32

    Statistica parametrica e non parametrica

    PremessaEsempioMetodi non parametriciMediana e rango

    Test parametrici

    Presentano la caratteristica comune di avere per oggetto ipotesiparametriche, cioè ipotesi riguardanti ad esempio il valore delparametro di una o più popolazioni come, per esempio la media e la

    varianza. La determinazione della zona di rifiuto è basata sulladistribuzione che la statistica test segue sotto l’ipotesi nulla,distribuzione che dipende da un modello distributivo dellapopolazione (in generale la normale); solo per ampiezze campionarieelevate è svincolata da tale modello distributivo. Nella pratica, la

    natura della distribuzione non è verificata, mentre sarebbe benesottoporre sempre i dati ad un test di normalità, controllando ilvalore assunto da parametri come simmetria e curtosi o verificandol’adattamento dell’istogramma alla curva di distribuzione.

    Introduzione alla statistica non parametrica

  • 8/18/2019 Statistica Non Parametrica

    5/32

    Statistica parametrica e non parametrica

    PremessaEsempioMetodi non parametriciMediana e rango

    Passaggio alla statistica non parametrica

    Tra i dati che non si adattano alla distribuzione normale vi sono ipunteggi (score) e le votazioni utilizzati da osservatori, come

    medici, psicologi, insegnanti, giudici di gara, ecc., per valutarefenomeni come l’intelligenza, la capacità di memoria, il rendimentoa scuola, la produttività nel lavoro, la prestazione atletica, ecc.In tutti questi casi la scala non è riferita a grandezze fisiche, bensì adiversi livelli qualitativi di espressione del fenomeno, trasformati

    numericamente solo in base a convenzione. Ad esempio, nei licei siattribuisce 6 per indicare la sufficienza, mentre all’università siattribuisce 18.

    Introduzione alla statistica non parametrica

  • 8/18/2019 Statistica Non Parametrica

    6/32

    Statistica parametrica e non parametrica

    PremessaEsempioMetodi non parametriciMediana e rango

    Parametri d’interesse

    In ambito non parametrico, indicatore rappresentativo di unadistribuzione è la  mediana  che, diversamente dalla media, è unostimatore robusto. Sfruttando l’informazione che, per una qualsiasiv.c. continua,

    Pr(X   M e) =  Pr(X   M e) = 1

    2,

    diventa più agevole derivare la distribuzione delle statistiche test. Inalternativa, si possono utilizzare le v.c.   rango  (rank ), definite come

    l’intero corrispondente al posto che la v.c. occupa quando si passadal campione casuale  (X 1, X 2, . . . , X  n)  al campione casualeordinato in senso crescente  (X (1), X (2), . . . , X  (n)). La v.c. rangoper un campione di dimensione  n  costituisce una permutazionecasuale degli interi  (1, 2, . . . , n).

    Introduzione alla statistica non parametrica

  • 8/18/2019 Statistica Non Parametrica

    7/32

    Test non parametriciIntroduzioneRegione criticaConclusioni

    Test sui segni (1)

    Sia M e  la mediana della v.c. continua  X  e si costruisca un test perverificare  H 0  : M e =  M e0  contro  H 1  : M e = M e0. Se è vera  H 0circa metà delle osservazioni dovrebbe essere superiore (inferiore) aM e0, per cui la regola di decisione dovrà essere costruita in modo

    che si rifiuti  H 0  se nel campione tale requisito non è soddisfatto.Per un campione casuale  (X 1, X 2, . . . , X  n), il numero delleosservazioni T n  superiori a  M e0  è una v.c. binomiale tale che

    T n

     ∼Bi(n, θ).

    Quindi verificare l’ipotesi nulla  H 0  : M e = M e0, equivale averificare

    H 0  : θ  = 1

    2  vs.   H 1  : θ = 1

    2.

    Introduzione alla statistica non parametrica

  • 8/18/2019 Statistica Non Parametrica

    8/32

    Test non parametriciIntroduzioneRegione criticaConclusioni

    Test sui segni (2)

    Sotto  H 0,  T n ∼ Bi(n, θ), per cui in media, il campione conterrà   n2osservazioni al di sopra (di sotto) di  M e0. Pertanto, si può definirela seguente  RC (α):

    |T n

    −n/2

    | cα/2

    ove il valore critico  cα/2  è determinato in modo che

    α   =   Pr(|T n − n/2| cα2

    )

    = 1 − Pr(n/2 − cα/2  < T n < n/2 + cα/2)

      2 1 − Φ2cα/2 + 1√ n

    utilizzando l’approssimazione alla normale della v.c. binomiale conla correzione per la continuità.

    Introduzione alla statistica non parametrica

  • 8/18/2019 Statistica Non Parametrica

    9/32

    Test non parametriciIntroduzioneRegione criticaConclusioni

    Test sui segni (3)

    Essendo Φ(zα/2) = 1 − α/2, si ha che

    cα/2  zα/2

    √ n − 1

    2  .

    Se T n  è la statistica test definita come il numero di unità superiorialla mediana  M e0, la regione critica  RC (α)  diventa:

      T n  

      n+12   −

      zα/2√ n

    2

    T n    n+1

    2   +

      zα/2√ n

    2

    Tale procedura è detta  test dei segni  perchè per il calcolo dellastatistica test si è soliti contrassegnare con  +  (−) i valori superiori(non superiori) a  M e0  e poi contare il numero di segni positivi

    presenti nella sequenza.Introduzione alla statistica non parametrica

  • 8/18/2019 Statistica Non Parametrica

    10/32

    Test non parametriciIntroduzioneRegione criticaConclusioni

    Test sui segni (4)

    Questo test può essere utilizzato nel caso di dati appaiati.Supponiamo di voler verificare l’effetto di un’azione nota(medicinale, messaggio pubblicitario, ecc.) sulla stessa unitàstatistica:   X i  è la variabile rilevata prima dell’esperimento e  Y i  è il

    risultato dell’esperimento sullo stesso individuo. Supponendo che levariabili oggetto dell’esperimento siano continue, possiamo indicarecon

    +   l’evento {X i  > Y i};

    −  l’evento

     {X i  < Y i

    };

    θ = Pr(X i > Y i).

    Se è vera  H 0  : X i = Y i, ovvero non vi è alcun effetto, si avràθ = 1/2. Il numero dei segni +  è equivalente al numero di successiin una successione di  n  prove indipendenti con probabilità costante

    pari a  θ; quindi, è una v.c.   Bi(n, θ).Introduzione alla statistica non parametrica

    Esempi

  • 8/18/2019 Statistica Non Parametrica

    11/32

    Test sui ranghi

    pIntroduzioneIpotesi e regioni criticheStatistica testUn altro test sui segni

    Calcolo dei ranghi (1)

    Si consideri il seguente vettore di dati:

    41 9 84 1 67 123 81

    Si ordinino le osservazioni in una graduatoria crescente e sisostituisca poi ad ogni valore il posto occupato nella graduatoria,cioè  1  al valore più piccolo,  2 al successivo, e così via. Questi nuovinumeri sono i ranghi. Il vettore contenente i ranghi associato al

    vettore di dati sopra considerato sarà:

    3 2 6 1 4 7 5

    Introduzione alla statistica non parametrica

    Esempi

  • 8/18/2019 Statistica Non Parametrica

    12/32

    Test sui ranghi

    pIntroduzioneIpotesi e regioni criticheStatistica testUn altro test sui segni

    Calcolo dei ranghi (2)

    Consideriamo ora alcune varianti:

    a)  sostituiamo il valore  123  con il valore  1230  e i ranghi noncambiano, infatti si ha

    41 9 84 1 67 1230 81

    3 2 6 1 4 7 5

    b)  sostituiamo il valore  123  con il valore  12.3  e alcuni ranghicambiano di una posizione, infatti

    41 9 84 1 67 12.3 81

    4 2 7 1 5 3 6

    c)  sostituiamo infine il valore  123  con il valore  0  e si ottiene

    41 9 84 1 67 0 81

    4 3 7 2 5 1 6Introduzione alla statistica non parametrica

    Esempi

  • 8/18/2019 Statistica Non Parametrica

    13/32

    Test sui ranghiIntroduzioneIpotesi e regioni criticheStatistica testUn altro test sui segni

    Calcolo dei ranghi (3)

    Questi esempi dimostrano come i ranghi siano molto robusti anchein presenza di variazioni notevoli nei dati. Nel caso in cui tutti i dativengano trasformati in modo lineare (additivo o moltiplicativo) onon lineare (esponenziale o logaritimico), i ranghi non cambiano in

    quanto i dati mantengono la stessa posizione. In generale, qualsiasitrasformazione, purchè monotona, non altera i ranghi. Come ultimoesempio si consideri il caso in cui i dati sopra considerati sono tuttielevati al quadrato. I ranghi non cambiano e in particolare si ha:

    412

    92

    842

    12

    672

    1232

    812

    1681 81 7056 1 4489 15129 6561

    3 2 6 1 4 7 5

    Introduzione alla statistica non parametrica

    Esempid

  • 8/18/2019 Statistica Non Parametrica

    14/32

    Test sui ranghiIntroduzioneIpotesi e regioni criticheStatistica testUn altro test sui segni

    Calcolo dei ranghi (4)

    Con riferimento all’ultimo esempio, bisogna prestare attenzionequando ci sono dei numeri negativi. Infatti in tal caso i quadrati deivalori negativi si rifletterebbero sulla scala dei valori positivisconvolgendo completamente l’ordine originario. Infine, quando

    esistono valori uguali, a ciascuno di essi si attribuisce la media deiranghi che spetterebbero agli stessi valori se questi fossero diversi.per esempio, per il vettore di dati

    32 63 41 85 32 51 85 79 85 27 68

    il vettore contentente i ranghi ad esso associato sarà:

    2.5 6 4 10 2.5 5 10 8 10 1 7

    Introduzione alla statistica non parametrica

    EsempiI d i

  • 8/18/2019 Statistica Non Parametrica

    15/32

    Test sui ranghiIntroduzioneIpotesi e regioni criticheStatistica testUn altro test sui segni

    Test dei ranghi con segno di Wilcoxon (1)

    Questo test può essere utilizzato per verificare se un campionecasuale possiede una certa mediana o se le differenze appaiatehanno mediana pari a  0. E’ l’equivalente non parametrico del test  tdi Student per campioni appaiati (dipendenti). Se si considera il

    campione casuale (X 1, Y 1), (X 2, Y 2), . . . , (X n, Y n)  delleosservazioni appaiate, indichiamo con  Di = (Y i −X i)   lecorrispondenti differenze, mentre se si tratta di un solo campioneindichiamo con  Di = (X i − M e0)  le differenze rispetto ad unvalore prefissato  M e0  per la mediana. Si assuma che le v.c.   Di

    siano continue, simmetriche, indipendenti e tutte con la stessamediana. Supponiamo che |Di|, i = 1, 2, . . . , n  siano le differenzein valore assoluto non nulle a cui si attribuiscono i ranghi da 1 (permin |Di|  ad  n  (per  max |Di|). Nel caso di ranghi coincidenti siprovvede a sostituirle con la loro media artitmetica.

    Introduzione alla statistica non parametrica

    EsempiI t d i

  • 8/18/2019 Statistica Non Parametrica

    16/32

    Test sui ranghiIntroduzioneIpotesi e regioni criticheStatistica testUn altro test sui segni

    Test dei ranghi con segno di Wilcoxon (2)

    Le ipotesi da verificare sono:

    1 H 0  : M e(Di) = 0 vs.  H 1  : M e(Di) >  0,

    2

    H 0  : M e(Di) = 0 vs.  H 1  : M e(Di) <  0,3 H 0  : M e(Di) = 0 vs.  H 1  : M e(Di) = 0,

    e le corrispondenti  RC   sono:

    1 T n   cα,

    2 T n   c∗α,

    3 cα/2   T n   c∗α/2.

    Introduzione alla statistica non parametrica

    EsempiIntroduzione

  • 8/18/2019 Statistica Non Parametrica

    17/32

    Test sui ranghiIntroduzioneIpotesi e regioni criticheStatistica testUn altro test sui segni

    Test dei ranghi con segno di Wilcoxon (3)

    In tutti i casi, la statistica test è data dalla somma dei ranghir(|Di|)  corrispondenti alle differenze  Di > 0, ovvero

    T n  =n

    i=1r(|Di|)I (Di > 0),

    dove  I (·)  è la funzione indicatrice. Si può dimostrare che sottol’ipotesi nulla

    E(T n) = n(n + 1)

    4  V(T n) =

     n(n + 1)(2n + 1)

    24  .

    Se n  è abbastanza grande  (n > 15), si può ricorrereall’approssimazione normale (modificata per la correzione dicontinuità)

    T n − n(n + 1)/4 − 1/2

     n(n + 1)(2n + 1)/24d

    →N (0, 1).

    Introduzione alla statistica non parametrica

    EsempiIntroduzione

  • 8/18/2019 Statistica Non Parametrica

    18/32

    Test sui ranghiIntroduzioneIpotesi e regioni criticheStatistica testUn altro test sui segni

    Test sui segni di McNemar

    Consideriamo ancora il caso di dati appaiati. Siano

    U  = #(Di > 0) =

    i I(Di > 0)   il numero di differenzepositive,

    ν  = #(Di 

    = 0)  il numero di differenze non nulle.

    Allora, sotto  H 0, la statistica  U  ha distribuzione binomiale conparametri  ν   e 1/2, ovvero  U  ∼ Bin(ν, 1/2). Sotto l’ipotesialternativa H 1,  U  ha ancora distribuzione binomiale, ma conparametri  ν   e θ > 1/2. Per esempio, con  ν  = 20 e  U  = 17, si ha

    chePr(U   17|D) =

    i17

      20

    i

    2−20 = 0.0013,

    che è significativo a livello  α = 0.005.

    Introduzione alla statistica non parametrica

    IntroduzioneE i

  • 8/18/2019 Statistica Non Parametrica

    19/32

    Dati appaiatiEsempioIpotesi e modelloAltri modelli

    Un problema con dati appaiati nel caso univariato (1)

    Consideriamo il caso in cui si vuole verificare l’efficacia deltrattamento nella riduzione dell’ansia in campione di  9  soggetti. Sipresuma che i soggetti siano omogenei rispetto ad altre importanticondizioni, quali età e stato di salute, che in genere sono le variabiliesplicative in questo tipo di esperimenti. Si assuma poi che la v.c.risposta  Y  misuri l’ansia: in particolare rappresenta il punteggioottenuto in un test psicologico somministrato ai  9  soggetti.

    Ciascuna unità viene osservata prima del trattamento, al tempo A(baseline observation), e dopo il trattamento, al tempo  B. Ci siaspetta che il trattamento riduca l’ansia.

    Introduzione alla statistica non parametrica

    IntroduzioneE i

  • 8/18/2019 Statistica Non Parametrica

    20/32

    Dati appaiatiEsempioIpotesi e modelloAltri modelli

    Un problema con dati appaiati nel caso univariato(2)

    Le risposte bivariate sono dipendenti con rispetto alle unità, datoche le misurazioni vengono fatte in tempi diversi ma negli stessi

    soggetti, mentre le  n  coppie di osservazioni sono indipendenti, inquanto relative ad unità diverse. Se si assume che gli individui sianoomogenei in relazione alle condizioni sperimentali, l’insieme dei datiappaiati {(Y Ai, Y Bi), i = 1,...,n}  può essere visto come uncampione casuale di  n  coppie i.i.d. di osservazioni estratte da una

    variabile bivariata  (Y A, Y B). Sia  X i = Y Ai − Y Bi, i = 1, 2, . . . , 9, ladifferenza pre-post trattamento osservata.

    Introduzione alla statistica non parametrica

    IntroduzioneEsempio

  • 8/18/2019 Statistica Non Parametrica

    21/32

    Dati appaiatiEsempioIpotesi e modelloAltri modelli

    I dati

    I valori osservati sono riportati nella tabella sottostante:

    i Y A   Y B   X 

    1 19 16 3

    2 22 23 -13 18 13 54 18 17 15 24 20 46 30 22 87 26 30 -48 28 21 79 15 11 4

    Introduzione alla statistica non parametrica

    IntroduzioneEsempio

  • 8/18/2019 Statistica Non Parametrica

    22/32

    Dati appaiatiEsempioIpotesi e modelloAltri modelli

    Formalizzazione del problema

    Le ipotesi d’interesse sono

    H 0  : Y Ad= Y B   vs.   H 1  : Y A

    d> Y B.

    dove  H 1  rappresenta l’ipotesi di  dominanza stocastica. Uno deimodelli utilizzati per descrivere la variabile risposta osservata, è ilmodello con  effetti additivi fissi , in cui

    Y Ai = µ + Z Ai   e   Y Bi  = µ− δ  + Z Bi, i = 1, . . . , n ,dove  µ  è la costante di popolazione;  δ  è l’effetto del trattamento,assunto sotto  H 1  finito e strettamente positivo,  Z Ai  e  Z Bi   sonocomponenti d’errore casuali identicamente distribuite, indipendentitra le unità, ma non necessariamente indipendenti entro le unità.

    Introduzione alla statistica non parametrica

    IntroduzioneEsempio

  • 8/18/2019 Statistica Non Parametrica

    23/32

    Dati appaiatiEsempioIpotesi e modelloAltri modelli

    Modelli alternativi

    Tra i modelli più utilizzati per descrivere la variabile rispostaosservata sono da citare:

    i modelli con  effetti additivi fissi e unità non omogenee   in cui

    Y Ai = µ + ηi + Z Ai   e   Y Bi  = µ + ηi − δ  + Z Bi,i modelli con  effetti additivi che variano da individuo aindividuo  del tipo

    Y Ai

     = µ + ηi + Z 

    Ai  e   Y 

    Bi = µ + η

    i −δ i + Z 

    Bi,

    i modelli con  effetti stocastici generalizzati  dove

    Y Ai = µ + ηi + Z Ai   e   Y Bi  = µ + ηi + Z Bi − ∆Bi.

    Introduzione alla statistica non parametrica

    D i i i

    IntroduzioneEsempio

  • 8/18/2019 Statistica Non Parametrica

    24/32

    Dati appaiatiEsempioIpotesi e modelloAltri modelli

    Confronto tra modelli

    Prendendo come modello di riferimento il modello con effettiadditivi fissi, sotto  H 0  la variabile differenza  X  = δ  + Z A − Z B   èsimmetrica rispetto allo  0, mentre sotto  H 1  è simmetrica rispetto alparametro  δ , indicatore dell’effetto del trattamento. Quando si usacome variabile di riferimento la variabile differenza  X   il modello aeffetti additivi fissi  e il modello ad  effetti additivi fissi e unita nonomogenee  coincidono, infatti si ha che

    X i = Y Ai−

    Y Bi  = δ  + Z Ai−

    Z Bi.

    Dunque se non vi è un reale effetto del trattamento ed eventualivariazioni osservate sono apportate solo da  ηi, si dice che X   ècovariate-free .

    Introduzione alla statistica non parametrica

    S l i i d l bl  Soluzione parametrica

  • 8/18/2019 Statistica Non Parametrica

    25/32

    Soluzioni del problemap

    Soluzione non parametrica

    Il test   t di Student (1)

    Una soluzione al problema dei dati appaiati può essere ottenuta inun contesto parametrico solo se si assume che le variabili sianonormalmente distribuite e abbiano varianza ignota. Il modello con

    effetti additivi fissi può essere scritto come

    {Y Ai = µ + σ · Z Ai, Y Bi  = µ − σ · δ  + Z Bi, i = 1, . . . , n}

    in cui  µ è la costante di popolazione,  δ  è l’effetto del trattamento,

    σ   la deviazione standard, ignota, indipendente dalle unità e dallivello del trattamento e tale che  0 < σ

  • 8/18/2019 Statistica Non Parametrica

    26/32

    Soluzioni del problemap

    Soluzione non parametrica

    Il test   t di Student (2)

    La statistica test più usata è data da

    T   = X  · √ n

     σ

    in cui  σ̂2 = i(X i − X )2/(n− 1)  e  X  = i X ij/n  con leX i ∼ N (δ, σ2X ). Sotto  H 0  la statistica  T  ha distribuzione  t  diStudent centrale con  (n − 1)  g.d.l, mentre sotto  H 1  è distribuitacome una  t  di Student non centrale con un parametro di non

    centralità positivo così che valori grandi diventano significativi. Ilparametro ignoto  σX  è solo un parametro di disturbo e  T   è unastatistica invariante rispetto al valore assunto da questa quantità.Per i dati dell’esempio precedente, il valore della statistica èT 0  = 2.3635 e il  p-value  è pari a  p = 0.0229 (test a una coda).

    Introduzione alla statistica non parametrica

    Soluzioni del problema  Soluzione parametrica

  • 8/18/2019 Statistica Non Parametrica

    27/32

    Soluzioni del problemaSoluzione non parametrica

    Metodi non parametrici di permutazione

    Caratteristica dei test di permutazione è il condizionamentoall’insieme dei dati osservati che è un insieme di statistichesufficienti qualunque sia il modello sottostante di riferimento. I testdi permutazioni vengono chiamati  distribution free , ossia le

    distribuzioni dei test prescindono completamente dalla legge chegoverna la variabile aleatoria su cui si vuol fare inferenza e non ènecessario fare assunzioni stringenti sulla distribuzione dei terminid’errore. I metodi non parametrici di permutazione non sono unapanacea

     per tutti i problemi inferenziali di interesse. Se, sotto  H 0,1 non ci si condiziona ad un insieme di statistiche sufficienti,

    2 assume l’ipotesi di scambiabilità dei dati,

    le soluzioni ottenute sono tutt’altro che esatte.

    Introduzione alla statistica non parametrica

    Metodi non parametrici di permutazioneUn pò di teoriaMonte Carlo condizionato

  • 8/18/2019 Statistica Non Parametrica

    28/32

    Metodi non parametrici di permutazione Monte Carlo condizionatoStep algoritmo

    Definizione dello spazio di permutazione campionario (1)

    Si osservi innanzitutto che l’ipotesi  H 0  : {Y A d= Y B}   implica lascambiabilità delle variabili  Y A  e Y B  entro ciascuna unità rispetto aidue tempi di rilevazione  A e  B. Il segno di ciascuna differenza  X i,per  i = 1, . . . , n, si può pensare sia attribuito con probabilità  1/2.Si consideri inoltre la statistica test  T   = i X i. La distribuzionecondizionata  F T (t|X)  di  T , quando i punti osservatiX = {X i, i = 1, . . . , n}  sono fissati, si ottiene sotto l’ipotesi cheH 0  sia vera, cioè attribuendo casualmente e in tutti i modi possibili

    i segni +  e − a ciascuna differenza con uguale probabilità. Per farequesto, si può considerare la distribuzione di  T ∗  = i X ∗i , in cui leX ∗i   sono ottenute attribuendo casualmente il segno  +  o − alladifferenza  X i, i = 1, . . . , n, con probabilità  1/2.

    Introduzione alla statistica non parametrica

    Metodi non parametrici di permutazioneUn pò di teoriaMonte Carlo condizionato

  • 8/18/2019 Statistica Non Parametrica

    29/32

    Metodi non parametrici di permutazione Monte Carlo condizionatoStep algoritmo

    Definizione dello spazio di permutazione campionario (2)

    La distribuzione di probabilità di  X∗  = {X ∗i , i = 1, . . . , n} ,condizionatamente a  X, è uniforme dentro lo spazio dipermutazione X /X, ovvero tutti i punti sono equiprobabili. Inparticolare, per il nostro problema, lo spazio campionario di

    permutazione X /X  contiene  M  = 2ν  punti, perchè la permutazionedei segni sulle  n− ν  differenze nulle non produce effetto. Sia

    F (z|X) = Pr{T ∗ ≤ z|X}

    la funzione di ripartizione condizionata (c.d.f.) ottenuta viapermutazione, indotta da  T dato  X. Indicato  T o = T (X)  il valoreosservato di T , se il p-value  λ = Pr{T ∗ ≥ T o|X}  è superiore allivello di soglia fissato  α,  H 0  viene accettata, secondo le usualiregole dei test per la verifica d’ipotesi.

    Introduzione alla statistica non parametrica

    Metodi non parametrici di permutazioneUn pò di teoriaMonte Carlo condizionato

  • 8/18/2019 Statistica Non Parametrica

    30/32

    p pStep algoritmo

    Tecniche di ricampionamento condizionato

    Vi sono due criteri per permutare i dati: si permutano in modosistematico tutti i dati o si prende in considerazione solo uncampione estratto casualmente dallo spazio di permutazione. Ingenere, lo spazio di permutazione

     X /X  ha cardinalità così grande

    che non si possono esaminare tutti i suoi punti. Quindi, la sceltadel secondo metodo comporta una riduzione dei calcoli, senzaperdita di attendibilità del risultato o potenza del test. Il metodo disimulazione di Monte Carlo Condizionato (C.M.C.) consente di

    effettuare, tramite simulazione, un campionamento di puntidall’orbita di permutazione condizionale all’insieme dei datiossservati. Il campionamento C.M.C. altro non è se non lareplicazione dei campionamenti senza reinserimento.

    Introduzione alla statistica non parametrica

    Metodi non parametrici di permutazioneUn pò di teoriaMonte Carlo condizionato

  • 8/18/2019 Statistica Non Parametrica

    31/32

    p pStep algoritmo

    Descrizione dell’algoritmo

    Il metodo C.M.C. opera secondo l’algoritmo sotto riportato:

    s.1)  calcolo del valore osservato  T o  della statistica  T   : T o = T (X),

    sull’insieme  X osservato;s.2)   per ciascuna delle  n  differenze in  X, si consideri

    un’attribuzione casuale dei segni in modo tale da ottenere  X∗;

    s.3)   calcolo di  T ∗  = T (X∗);

    s.4)   si ripetano B  volte, in maniera indipendente, i passi descritti ins.2) e s.3).

    Introduzione alla statistica non parametrica

    Metodi non parametrici di permutazioneUn pò di teoriaMonte Carlo condizionato

  • 8/18/2019 Statistica Non Parametrica

    32/32

    Step algoritmo

    Conclusione dell’algoritmo

    Per concludere, i  B   insiemi  X∗  contenenti le permutazioni, sono uncampionamento casuale da X /X. I corrispondenti  B  valori  T ∗simulano la distribuzione nulla di permutazione di  T  e consentonodi stimare la c.d.f. di permutazione  F (z|X)  e la funzione del livellodi significatività  L(z|X) = Pr{T ∗ ≥ z|X}  tramite la e.d.f. F ∗B(z) = #(T ∗ ≤ z)/B  e la funzione L∗B(z) = #(T ∗ ≥ z)/Brispettivamente. All’aumentare del numero  B  di iterazioni MonteCarlo, migliorano le stime delle funzioni F (·|X)  e L(·|X). Il p-valuestimato a partire dal valore osservato  T o  è dato da λ = L∗B(T o) = #(T ∗ ≥ T o)/B.Se

     λ ≤ α, si rifiuta  H 0  secondo le usuali regole della verifica

    d’ipotesi.

    Introduzione alla statistica non parametrica