App Unti Rsm

7

description

appunti

Transcript of App Unti Rsm

  • RSM RSM t-1

    Modelli di regressione

    Supponiamo che un fenomeno sico, o i risultati di un esperimento siano:

    descrivibile da una variabile dipendente o risposta y

    y dipenda da un insieme di variabili indipendenti o regressori x

    i

    il numero di regressori sia k

    Chiameremo modello di regressione la relazione:

    y = (x

    1

    ; x

    2

    ; : : : ; x

    k

    )

    indicheremo la funzione con il termine supercie di riposta.

    Normalmente la vera forma della funzione non e nota, viene approssimata con una funzione appropriata,

    il piu possibile semplice.

    Il modello impiegato (accostato) rappresentera la risposta a meno di un errore:

    y =

    0

    (x

    1

    ; x

    2

    ; : : : ; x

    k

    ) + (x

    1

    ; x

    2

    ; : : : ; x

    k

    )

    Tra i modelli di regressione concentreremo l'attenzione sui modelli lineari del tipo:

    y =

    0

    +

    1

    x

    1

    + : : :

    k

    x

    k

    +

    Il modello si dice lineare in quanto funzione lineare dei parametri chiamati coecienti di regressione,

    indipendentemente dalla forma della supercie di risposta.

    Il generico coeciente di regressione

    i

    rappresenta il cambiamento della risposta per unita di cambia-

    mento del regressore corrispondente (x

    i

    ) quando le altre variabili indipendenti sono tenute costanti.

    La stima dei coecienti di regressione che minimizzano l'errore globale commesso (model tting) puo

    essere svolta con diverse tecniche.

    Stima dei coecienti di regressione: il metodo dei minimi quadrati

    Il metodo tipicamente utilizzato per la stima dei coecienti di regressione e il metodo dei minimi quadrati.

    Si considerino una risposta y caratterizzata da un insieme di k regressori x

    ij

    (j = 1 : : : k).

    L'esperimento per una generico insieme di regressori (osservazione) fornisce una risposta y

    i

    Il modello accostato sara:

    y

    i

    =

    0

    +

    k

    X

    j=1

    j

    x

    ij

    +

    i

    i = 1; 2; ; n

    Il termine d'errore

    i

    sia:

    valore atteso E(

    i

    ) = 0

    varianza V (

    i

    ) =

    2

    f

    i

    g siano variabili casuali non correlate.

    Consideriamo ora

    n osservazioni

    sia n > k.

    ciascuna osservazione e caratterizzata da un insieme di k regressori x

    ij

    (j = 1 : : : k),

    per ciascuna osservazione i (i = 1 : : : n) si ottiene una risposta y

    i

    Il metodo dei minimi quadrati determina i del polinomio di regressione in modo da minimizzare la somma

    dei quadrati dell'errore.

    La funzione dei minimi quadrati e quindi denita:

    L =

    n

    X

    i=1

    2

    i

    =

    n

    X

    i=1

    0

    @

    y

    i

    0

    k

    X

    j=1

    j

    x

    ij

    1

    A

    2

  • RSM RSM t-2

    L deve esser minimizzata rispetto

    0

    ;

    1

    ; :::

    k

    , ossia i

    ^

    j

    risultanti dalla stima ai minimi quadrati (stimatori)

    devono soddisfare:

    @L

    @

    i

    ^

    0

    ;

    ^

    1

    ;:::

    ^

    k

    = 0 (i = 0 : : : k)

    Si ottengono (k+ 1) equazioni:

    @L

    @

    0

    ^

    0

    ;

    ^

    1

    ;:::

    ^

    k

    = 2

    n

    X

    i=1

    0

    @

    y

    i

    ^

    0

    k

    X

    j=1

    ^

    j

    x

    ij

    1

    A

    = 0

    e

    @L

    @

    j

    ^

    0

    ;

    ^

    1

    ;:::

    ^

    k

    = 2

    n

    X

    i=1

    0

    @

    y

    i

    ^

    0

    k

    X

    j=1

    ^

    j

    x

    ij

    1

    A

    x

    ij

    = 0 j = 1 k

    Riorganizzando i termini delle due equazioni otteniamo:

    n

    ^

    0

    +

    ^

    1

    n

    X

    i=1

    x

    i1

    + +

    ^

    k

    n

    X

    i=1

    x

    ik

    =

    n

    X

    i=1

    y

    i

    e

    ^

    0

    n

    X

    i=1

    x

    i1

    +

    ^

    1

    n

    X

    i=1

    x

    2

    i1

    + +

    ^

    k

    n

    X

    i=1

    x

    i1

    x

    ik

    =

    n

    X

    i=1

    x

    i1

    y

    i

    Scrivendo in forma compatta:

    n

    ^

    0

    +

    k

    X

    h=1

    ^

    j

    n

    X

    i=1

    x

    ih

    =

    n

    X

    i=1

    y

    i

    e

    ^

    0

    n

    X

    i=1

    x

    ij

    +

    k

    X

    h=1

    ^

    j

    n

    X

    i=1

    x

    ij

    x

    ih

    =

    n

    X

    i=1

    x

    ij

    y

    i

    j = 1 : : : k

    si ottiene un totale di p = k + 1 equazioni (una per ogni coeciente della regressione

    0

    compreso)

    dette equazioni normali ai minimi quadrati le cui soluzioni sono gli stimatori ai minimi quadrati dei

    coecienti di regressione

    ^

    0

    ;

    ^

    1

    ; ;

    ^

    k

    .

    Risulta piu agile la risoluzione della stima ai minimi quadrati esprimendo il modello in forma matriciale,

    in tal modo si ottiene:

    Y = X +

    con:

    Y =

    2

    6

    6

    6

    4

    y

    1

    y

    2

    .

    .

    .

    y

    n

    3

    7

    7

    7

    5

    ; X =

    2

    6

    6

    6

    4

    1 x

    11

    x

    12

    x

    1k

    1 x

    21

    x

    22

    x

    2k

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    1 x

    n1

    x

    n2

    x

    nk

    3

    7

    7

    7

    5

    =

    2

    6

    6

    6

    4

    1

    2

    .

    .

    .

    k

    3

    7

    7

    7

    5

    ; =

    2

    6

    6

    6

    4

    1

    2

    .

    .

    .

    n

    3

    7

    7

    7

    5

    ove Y e il vettore (n 1) delle osservazioni, X e la matrice (n p) contenente le variabili indipendenti,

    e il vettore (p 1) dei coecienti di regressione e e il vettore (n 1) contenente i termini inerenti

    gli errori casuali.

    L'intento e determinare il vettore degli stimatori ai minimi quadrati che minimizzino la somma dei quadrati

    degli errori, in notazione matriciale e possibile scrivere:

    L =

    n

    X

    i=1

    2

    i

    =

    0

    = (Y X)

    0

    (Y X)

    = Y

    0

    Y Y

    0

    X

    0

    X

    0

    Y +

    0

    X

    0

    X

    = Y

    0

    Y 2

    0

    X

    0

    Y +

    0

    X

    0

    X

  • RSM RSM t-3

    in cui si ha (

    0

    X

    0

    Y)

    0

    = Y

    0

    X essendo

    0

    X

    0

    Y una matrice 1 1 (ossia uno scalare).

    Gli stimatori devono ancora soddisfare:

    @L

    @

    ^

    = 2X

    0

    Y + 2X

    0

    X

    ^

    = 0

    si ottiene:

    X

    0

    X

    ^

    = X

    0

    Y

    che rappresenta la forma matriciale compatta delle equazioni normali ai minimi quadrati.

    Scrivendo in dettaglio:

    X

    0

    X =

    2

    6

    6

    6

    4

    n

    P

    n

    i=1

    x

    i1

    P

    n

    i=1

    x

    i2

    P

    n

    i=1

    x

    ik

    P

    n

    i=1

    x

    i1

    P

    n

    i=1

    x

    2

    i1

    P

    n

    i=1

    x

    i1

    x

    i2

    P

    n

    i=1

    x

    i1

    x

    ik

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    P

    n

    i=1

    x

    ik

    P

    n

    i=1

    x

    ik

    x

    i1

    P

    n

    i=1

    x

    ik

    x

    i2

    P

    n

    i=1

    x

    2

    ik

    3

    7

    7

    7

    5

    Si nota come la matrice X

    0

    X sia quadrata (p p) e simmetrica e X

    0

    Y un vettore colonna (p 1).

    Si ricava quindi il vettore degli stimatori ai minimi quadrati

    ^

    :

    ^

    = (X

    0

    X)

    1

    X

    0

    Y

    Il modello di regressione accostato e:

    y^ = X

    ^

    in notazione scalare:

    y^

    i

    =

    ^

    0

    +

    k

    X

    j=1

    ^

    j

    x

    ij

    i = 1; 2; ; n

    La dierenza tra le osservazioni reali y

    i

    ed i reciproci valori stimati y^

    i

    viene denominata residuo: e

    i

    =

    y

    i

    y^

    i

    . Il vettore (n 1) dei residui e:

    e = y

    ^

    y

    Stima della varianza

    Se si considera la somma dei quadrati dei residui:

    SS

    E

    =

    n

    X

    i=1

    (y

    i

    y^

    i

    )

    2

    =

    n

    X

    i=1

    (e

    2

    i

    ) = e

    0

    e

    Ponendo: e = y

    ^

    y = y X

    ^

    nella relazione appena esposta si ha:

    SS

    E

    = (y X

    ^

    0

    )(y X

    ^

    )

    = y

    0

    y y

    0

    X

    ^

    X

    0

    ^

    0

    y +

    ^

    0

    X

    0

    X

    ^

    essendo X

    0

    X

    ^

    = X

    0

    y, si ottiene:

    SS

    E

    = y

    0

    y

    ^

    X

    0

    y

    La relazione ha n p gradi di liberta, si puo dimostrare che....

    Verica della validita del modello di regressione

    Importante, a valle della determinazione del modello di regressione, e la valutazione della bonta del

    modello scelto: occorre vericare che il modello si adatti correttamente ai dati a cui verra applicato,

    ossia dimostri un certo grado di adabilita.

    I Coecienti di determinazione

    Si consideri la somma dei quadrati totali SS

    T

    , e scomponibile in due contributi:

    SS

    R

    : somma dei quadrati dovuta allo specico modello di regressione scelto,

    SS

    E

    : somma dei quadrati dovuta all'errore (ai residui)

  • RSM RSM t-4

    SS

    T

    = SS

    R

    + SS

    E

    Somma dei quadrati dovuti all'errore ottenibile dalla relazione:

    SS

    E

    =

    n

    X

    i=1

    (y

    i

    y^

    i

    )

    2

    =

    n

    X

    i=1

    e

    2

    i

    = e

    0

    e

    Ponendo: e = y

    ^

    y = y X

    ^

    nella relazione appena esposta si ha:

    SS

    E

    = (y X

    ^

    0

    )(y X

    ^

    )

    = y

    0

    y y

    0

    X

    ^

    X

    0

    ^

    0

    y +

    ^

    0

    X

    0

    X

    ^

    essendo X

    0

    X

    ^

    = X

    0

    y, si ottiene:

    SS

    E

    = y

    0

    y

    ^

    X

    0

    y

    Somma dei quadrati totali puo esser scritta:

    SS

    T

    =

    n

    X

    i=1

    y

    2

    i

    (

    P

    n

    i=1

    y

    i

    )

    2

    n

    = y

    0

    y

    (

    P

    n

    i=1

    y

    i

    )

    2

    n

    Manipolando l'espressione della somma dei quadrati dei residui sommando e sottraendo il termine

    (

    P

    n

    i=1

    y

    i

    )

    2

    n

    ,

    tenendo presente che: SS

    E

    = SS

    T

    SS

    R

    ; la somma dei quadrati dovuta alla regressione e esprimibile

    come:

    SS

    R

    =

    ^

    0

    X

    0

    y

    (

    P

    n

    i=1

    y

    i

    )

    2

    n

    Al ne di vericare l'adeguatezza dei termini inseriti nel modello, una prima valutazione di massima puo

    essere compiuta tramite l'utilizzo del coeciente di determinazione multiplo R

    2

    :

    R

    2

    =

    SS

    R

    SS

    T

    = 1

    SS

    E

    SS

    T

    Il coeciente R

    2

    fornisce una misura della stima generale dell'adeguatezza del modello di regressione,

    fornisce un'indicazione di massima di quanto della variabilita totale dei dati viene spiegata dal modello

    creato: un fattore R

    2

    del valore di 0.8 indica come il modello `spieghi' l'ottanta percento della variabilita

    dei dati; valori del coeciente R

    2

    > 0; 8 sono indici di una buona adabilita del modello.

    Tuttavia, l'aggiunta di nuovi termini al modello porta sempre ad un aumento di R

    2

    (senza correlazione

    col fatto che la variabile aggiunta sia o meno signicativa), da questa osservazione discendono dubbi

    sulla completa adabilita del coeciente di determinazione multiplo. L'aggiunta di ulteriori parametri

    al modello, infatti, non sempre si traduce in una accresciuta sensibilita del modello, si corrono due rischi

    principalmente: in primis l'inserimento di termini che non arrecano conoscenze aggiuntive a quelle gia

    possedute ed hanno come unica conseguenza l'appesantimento del modello, non di meno e un rischio

    reale la possibilita di integrare nella regressione errori, cosa che inquinerebbe i risultati ottenuti dal

    modello creato (condizione denominata overt).

    Si preferisce quindi utilizzare la statistica R

    2

    aggiustata (R

    2

    adjusted):

    R

    2

    adj

    = 1

    SS

    E

    =(n p)

    SS

    T

    =(n 1)

    = 1

    n 1

    n p

    (1 R

    2

    )

    R

    2

    adj

    che non aumenta con l'aggiunta di nuove variabili al modello, anzi, se al modello si sommano termini

    superui R

    2

    adj

    molto spesso decresce, compensando l'aggiunta di nuovi termini con il diminuire dei gradi

    di liberta. Nel caso che R

    2

    e R

    2

    adj

    dieriscano radicalmente, si hanno elevate probabilita che nel modello

    siano stati inclusi termini non signicativi.

    Test di signicativita

    L'analisi della varianza identica un metodo per vericare l'uguaglianza di piu medie di popolazione. La

    relazione fondamentale su cui questa tecnica si basa scompone la variabilita totale del sistema studiato

    nella somma della variabilita spiegata dalla regressione e della variabilita residua non spiegata dal modello

  • RSM RSM t-5

    che viene associata all'errore compiuto nella regressione. Tale relazione e formalizzata tramite le somme

    dei quadrati come precedentemente visto:

    SS

    T

    = SS

    R

    + SS

    E

    Parallelamente e possibile scrivere un'analoga relazione tra i gradi di liberta (numero degli elementi

    indipendenti presenti in ogni somma dei quadrati) del sistema:

    GdL

    T

    = GdL

    R

    + GdL

    E

    Dal rapporto di ogni somma dei quadrati rispetto al relativo grado di liberta e possibile ricavare i quadrati

    medi associati alla regressione e all'errore:

    MS

    R

    =

    SS

    R

    GdL

    R

    MS

    E

    =

    SS

    E

    GdL

    E

    Dalle due `identita notevoli' sopra esposte derivano un insieme di statistiche, che ci si appresta ad introdurre

    dei seguenti paragra, nalizzate a guidare all'identicazione dell'adabilita della regressione applicata

    ad un insieme di dati; i risultati delle analisi condotte mediante dali statistiche vengono solitamente

    riassunte in una tabella di analisi della varianza. Tale tabella pone in ingresso solitamente:

    le componenti della variabilita del sistema,

    le somme dei quadrati,

    i GdL associati alle somme dei quadrati,

    i quadrati medi,

    test sulla signicativita dei regressori.

    Test su singoli coecienti di regressione e su gruppi di coecienti

    Si e spesso interessati alla verica di ipotesi su singoli coecienti di regressione al ne di vericare se il

    modello possa essere piu ecace con l'inclusione di variabili aggiuntive o con la soppressione di termini

    gia presenti nel modello ma inecaci.

    L'aggiunta di una variabile al modello porta

    incremento della somma dei quadrati della regressione SS

    R

    diminuzione della somma dei quadrati dovuti ai residui SS

    E

    se il regressore e ininuente porta ad un aumento di SS

    E

    Le ipotesi per valutare la signicativita di un singolo coeciente di regressione

    j

    sono:

    H

    0

    :

    j

    = 0

    H

    1

    :

    j

    6= 0

    Se l'ipotesi H

    0

    risulta valida allora il regressore associato x

    j

    puo essere eliso dal modello. La statistica

    test per la valutazione di questa ipotesi e il test t:

    t

    0

    =

    ^

    j

    p

    ^

    2

    C

    jj

    ove C

    jj

    e l'elemento sulla diagonale di (X

    0

    X)

    1

    corrispondente a

    ^

    j

    e ^

    2

    (stimatore della varianza) e dato

    da:

    ^

    2

    =

    SS

    E

    n p

    Si riuta H

    0

    se jt

    0

    j > t

    =2;np

    , ossia: il regressore associato al coeciente su cui si esegue il test risulta

    essere signicativo per il modello.

  • RSM RSM t-6

    Metodo della somma dei quadrati aggiuntiva

    E da notare che il test e parziale in quanto il coeciente di regressione

    ^

    j

    dipende anche da tutti gli altri

    regressori presenti nel modello.

    Si puo tener conto di cio attraverso il metodo della somma dei quadrati aggiuntiva, utilizzabile anche

    per valutare il contributo di un sottoinsieme di variabili di regressione al modello.

    Si considerino ad esempio i due modelli:

    y =

    0

    y =

    0

    +

    1

    x

    1

    Se SS

    R

    del secondo modello e `grande' rispetto quello del primo modello, allora l'inclusione del regressore

    1

    risulta importante.

    Il problema che si presenta e introdurre una stima, un metodo che consenta di quanticare il termine

    \grande" precedentemente utilizzato relativamente a SS

    R

    .

    Generalizzando, e possibile vericare se un modello del tipo y =

    0

    +

    P

    k

    i=1

    i

    x

    i

    con l'aggiunta dei

    termini

    i

    accresce la bonta del modello y =

    0

    , ovvero anche se solo una parte di tali regressori ha

    eetti beneci sulla regressione.

    Per vericare l'importanza dei termini inclusi nel modello si utilizzera un rapporto tra varianze.

    L'operatore varianza restituisce un valore non negativo per denizione, essendo un valore elevato al

    quadrato, cio fa si che la distribuzione della varianza non sia del tipo normale bens del tipo

    2

    .

    Il test che consente di vericare la dipendenza della regressione da un sottoinsieme di regressori, con-

    gurandosi anch'esso come il rapporto di due varianze, ossia come il rapporto di due distribuzioni

    2

    , avra

    una forma del tipo:

    2

    1

    =k

    1

    2

    2

    =k

    2

    dove k

    1

    k

    2

    siano i gradi di liberta relativi a

    2

    1

    e

    2

    2

    . Il rapporto tra due distribuzioni

    2

    denisce un nuovo

    tipo di distribuzione: Distribuzione-F.

    Si consideri il modello con k regressori:

    y = X +

    ove le dimensioni delle matrici sono: y(n 1), X(n p), (p 1), (n 1).

    L'intento e di vericare se il sottoinsieme x

    1

    ; x

    2

    ; :::; x

    r

    (r < k) e signicativo per il modello di regressione.

    A tal ne si scompone il vettore colonna dei coecienti nel seguente modo:

    =

    1

    2

    ove le dimensioni dei due vettori sono

    1

    (r 1) e

    2

    [(p r) 1].

    Le ipotesi che si vogliono valutare sono:

    H

    0

    :

    1

    = 0

    H

    1

    :

    1

    6= 0

    E possibile a questo punto riscrivere il modello mettendo in evidenza le due componenti del vettore :

    y = X

    1

    1

    + X

    2

    2

    +

    ove X

    1

    e X

    2

    rappresentano le colonne di X associate rispettivamente a

    1

    e

    2

    .

    Per il modello completo (ossia il modello comprendente tutti i k+1 regressori) vale:

    ^

    = (X

    0

    X)

    1

    X

    0

    y.

    La somma dei quadrati della regressione per tutte le variabili, intercetta compresa (

    0

    ), e:

    SS

    R

    () =

    ^

    0

    X

    0

    y

    tale somma dei quadrati e detta somma dei quadrati della regressione dovuta a (con p gradi di liberta,

    dal momento che viene onsiderata anche l'intercetta). SS

    R

    () e legata ai quadrati medi dei residui

    tramite:

    MS

    E

    =

    SS

    E

    n p

    =

    y

    0

    y

    ^

    X

    0

    y

    n p

    =

    y

    0

    y SS

    R

    ()

    n p

    Per valutare il contributo di

    1

    si costruisce il modello considerando vera l'ipotesi H

    0

    :

    1

    = 0, utilizzando

    quindi solo i coecienti appartenenti a

    2

    ossia i p r coecienti estranei al sottoinsieme di regressori

    di cui si vuole valutare la signicativita. Il modello ridotto avente tali caratteristiche si ottiene ponendo

  • RSM RSM t-7

    1

    = 0:

    y = X

    2

    2

    +

    Attraverso il metodo dei minimi quadrati e ottenibile lo stimatore

    ^

    2

    = (X

    0

    2

    X

    2

    )

    1

    X

    0

    2

    y, e da questo il

    relativo:

    SS

    R

    (

    2

    ) =

    ^

    0

    2

    X

    0

    2

    y

    a cui sono associati p r gradi di liberta. Si hanno ora tutti gli elementi per ricavare la somma dei

    quadrati della regressione dovuti ai soli coecienti di regressione appartenenti a

    1

    (non compresi nel

    modello ridotto):

    SS

    R

    (

    1

    j

    2

    ) = SS

    R

    () SS

    R

    (

    2

    )

    La somma dei quadrati determinata e la somma dei quadrati aggiuntiva dovuta a

    1

    , con r gradi di liberta.

    SS

    R

    (

    1

    j

    2

    ) e indipendente da MS

    E

    e l'ipotesi H

    0

    puo esser valutata tramite il test F parziale:

    F

    0

    =

    SS

    R

    (

    1

    j

    2

    )=r

    MS

    E

    Se F

    0

    > F

    ;r;np

    H

    0

    viene riutata, ossia: almeno uno dei coecienti di regressione

    1

    e diverso da zero

    e di conseguenza almeno uno dei regressori x

    1

    ; x

    2

    ; :::; x

    r

    appartenenti a X

    1

    e signicativo per il modello

    di regressione.

    0.0.1 Test di signicativita

    Consente di vericare la presenza di relazioni lineari fra la variabile di risposta Y ed un sottoinsieme di

    variabili indipendenti (regressori) x

    1

    ; x

    2

    ; :::; x

    k

    .

    Si formulano due ipotesi:

    H

    0

    :

    1

    =

    2

    = =

    k

    = 0

    H

    1

    :

    j

    6= 0 per almeno un j

    Nel caso H

    0

    sia vericata allora nessuno dei regressori x

    1

    ; x

    2

    ; :::; x

    k

    contribuisce signicativamente al model-

    lo, viceversa, nel caso risulti vericata H

    1

    almeno una delle variabili indipendenti ha un eetto determinante

    sulla variabile di risposta Y .

    La procedura per la verica dell'ipotesi H

    0

    si eettua tramite il test-F, il calcolo si compie:

    F

    0

    =

    SS

    R

    =k

    SS

    E

    =(n p)

    =

    MS

    R

    ^

    2

    =

    MS

    R

    MS

    E

    ove con MS

    R

    e MS

    E

    si sono indicati i quadrati medi della regressione e dei residui deniti a partire dalla

    somma dei relativi quadrati divisi per i propri gradi di liberta (numero degli elementi indipendenti presenti

    in ogni somma dei quadrati). Bisogna quindi denire un termine di confronto per stimare la validita dell'i-

    potesi compiuta, il parametro di confronto dipende dall'adabilita con cui si intende accettare o confutare

    l'ipotesi H

    0

    . Il parametro che fornisce l'adabilita cercata e il termine , ponendo che l'attendibilita

    ricercata sia denita come il complemento a 1 di si puo dire come: ricercando una attendibilita del

    test pari al 90% (ossia 0,9) il valore di da porre in considerazione sia 0,10. Scelto , si riuta H

    0

    se:

    F

    0

    > F

    ;k;np

    , ossia: la variabile di risposta Y mostra una dipendenza lineare rispetto ad un sottoinsieme

    di regressori. I risultati possono essere ecacemente riassunti in una tabella di analisi della varianza come

    la seguente:

    Origine della Somma dei Gradi di Quadrati

    Variabilita Quadrati Liberta Medi F

    0

    Regressione SS

    R

    k MS

    R

    MS

    R

    =MS

    E

    Errori (Residui) SS

    E

    n (k+ 1) = n p MS

    E

    Totale SS

    T

    n 1