Schema_definizioni_statistica

5
OPsonline.it – la principale web community italiana per studenti e professionisti della Psicologia Appunti d’esame, tesi di laurea, articoli, forum di discussione, eventi, annunci di lavoro, esame di stato, ecc… E-mail: [email protected] – Web: http://www.opsonline.it Gestito da Obiettivo Psicologia srl, via Castel Colonna 34, 00179, Roma - p.iva: 07584501006 CAPITOLO 7 1-analisi multivariata: stabilisce la quantità di dipendenza esistente tra due variabili al netto degli effetti imputabili esercitati da altri fattori (variabili supplementari o concorrenti);si studiano fenomeni aleatori attraverso più variabili 2-variabili supplementari :sono introdotto nell’analisi della relazione tra variabile dipendente e variabile indipendente per chiarire la vera relazione che esiste tra questi due,infatti la COVARIAZIONE tra due variabili può infatti manifestarsi a causa degli effetti esercitati da altre variabili e per stabilire la vera quantità di covariazione esistente tra due variabili è necessario rimuovere quella parte della covariazione esistente tra due variabili è necessario rimuovere quella parte della covariazione stessa che è attribuibile ad altri fattori. 3-relazione spuria :due variabili sono associate in modo spurio quando l’unica ragione della loro correlazione è che entrambe sono causate da una terza variabile,definita VARIABILE DI CONTROLLO 4-relazioni interpretabili :le due variabili d’interesse sono legate causalmente e una o più variabili intervenienti contribuiscono a interpretare il loro legame (ACB: C è una variabile interveniente che rende più intelligibile il meccanismo causale che lega A e B) 5-equazione di regressione multipla: Y=a+bxyX+ε 6-coefficiente di correlazione: è un indice di dipendenza ma dà conto solo delle relazioni lineari;misura l’associazione tra due variabili continue esprimendo la direzione e la forza della loro relazione lineare 7-variabili dicotomiche :si utilizzano perché la metrica si ha sulle frequenze e si parla di presenza del carattere =1 e assenza del carattere=0 il coefficiente di correlazione può essere usato come eccezione con variabili qualitative,nel caso di variabili dicotomiche;in questo caso ci dà la relazione che sussiste tra assenza e presenza del carattere. 8-coefficiente di correlazione parziale :per capire la relazione tra due variabili al netto dell’influenza che esercita un’altra variabile. 9-odd :rapporto tra la frequenza di appartenenza d una categoria e la frequenza di non appartenenza a tale categoria quando per ogni unità la variabile indipendente è formata da un insieme di categorie discrete odds ratio :rapporto tra due odds,serve per valutare l’indipendenza stocastica,dà la misura della dipendenza o indipendenza,indica l’indipendenza tra 2 variabili al netto di altre variabili variano tra 0 e infinito 1<OR<infinito:odds più grandi nel gruppo2; 0<OR<1:odds più piccoli nel gruppo 2 man mano che OR si allontana dall’unità per valori maggiori o minori si hanno livelli di associazione maggiori in una direzione o nell’altra. 10-tavola di ordine zero :quando non c’è variabile di controllo 11-tavola di ordine uno :include una sola variabile di controllo 12-effetto nullo :la variabile di controllo non modifica né la direzione né la forza della relazione tra le due variabili oggetto di studio la relazione tra la variabile dipendente e quella indipendente non varia al variare del valore della variabile di controllo 13-spiegazione completa :la variabile di controllo spiega completamente l’associazione osservata nella tavola di ordine zero OR=1,rxy=0 14-effetto parziale :l’introduzione della variabile di controllo spiega parte dell’associazione tra le altre due variabili,quindi sarebbe opportuno introdurre ulteriori variabili di controllo 15-effetto di interazione :l’associazione tra due variabili varia secondo il valore della variabili di controllo dal punto di vista statistico ci interessa l’effetto do relazione,cioè il fatto che 2 variabili messe insieme hanno un effetto molto forte. 16-dato un campione di numerosità N,il valore di r ottenuto è significativo dal punto di vista statistico? 0<rxy.z<1 Ho:rxy.z=0 H1:rxy.z>0 F1,N-3=rxy.z (N-3)/1-rxy.z tN-3=rxy.z N-3/1-rxy.z

description

statstica

Transcript of Schema_definizioni_statistica

Page 1: Schema_definizioni_statistica

OPsonline.it – la principale web community italiana per studenti e professionisti della Psicologia Appunti d’esame, tesi di laurea, articoli, forum di discussione, eventi, annunci di lavoro, esame di stato, ecc… E-mail: [email protected] – Web: http://www.opsonline.it Gestito da Obiettivo Psicologia srl, via Castel Colonna 34, 00179, Roma - p.iva: 07584501006

CAPITOLO 7

1-analisi multivariata:stabilisce la quantità di dipendenza esistente tra due variabili al netto degli effetti imputabili esercitati da altri fattori (variabili supplementari o concorrenti);si studiano fenomeni aleatori attraverso più variabili

2-variabili supplementari:sono introdotto nell’analisi della relazione tra variabile dipendente e variabile indipendente per chiarire la vera relazione che esiste tra questi due,infatti la COVARIAZIONE tra due variabili può infatti manifestarsi a causa degli effetti esercitati da altre variabili e per stabilire la vera quantità di covariazione esistente tra due variabili è necessario rimuovere quella parte della covariazione esistente tra due variabili è necessario rimuovere quella parte della covariazione stessa che è attribuibile ad altri fattori. 3-relazione spuria:due variabili sono associate in modo spurio quando l’unica ragione della loro correlazione è che entrambe sono causate da una terza variabile,definita VARIABILE DI CONTROLLO 4-relazioni interpretabili:le due variabili d’interesse sono legate causalmente e una o più variabili intervenienti contribuiscono a interpretare il loro legame (A�C�B: C è una variabile interveniente che rende più intelligibile il meccanismo causale che lega A e B) 5-equazione di regressione multipla: Y=a+bxyX+ε 6-coefficiente di correlazione:è un indice di dipendenza ma dà conto solo delle relazioni lineari;misura l’associazione tra due variabili continue esprimendo la direzione e la forza della loro relazione lineare 7-variabili dicotomiche:si utilizzano perché la metrica si ha sulle frequenze e si parla di presenza del carattere =1 e assenza del carattere=0 �il coefficiente di correlazione può essere usato come eccezione con variabili qualitative,nel caso di variabili dicotomiche;in questo caso ci dà la relazione che sussiste tra assenza e presenza del carattere. 8-coefficiente di correlazione parziale:per capire la relazione tra due variabili al netto dell’influenza che esercita un’altra variabile.

9-odd:rapporto tra la frequenza di appartenenza d una categoria e la frequenza di non appartenenza a tale categoria � quando per ogni unità la variabile indipendente è formata da un insieme di categorie discrete �odds ratio:rapporto tra due odds,serve per valutare l’indipendenza stocastica,dà la misura della dipendenza o indipendenza,indica l’indipendenza tra 2 variabili al netto di altre variabili �variano tra 0 e infinito �1<OR<infinito:odds più grandi nel gruppo2; 0<OR<1:odds più piccoli nel gruppo 2 �man mano che OR si allontana dall’unità per valori maggiori o minori si hanno livelli di associazione maggiori in una direzione o nell’altra.

10-tavola di ordine zero:quando non c’è variabile di controllo 11-tavola di ordine uno:include una sola variabile di controllo 12-effetto nullo:la variabile di controllo non modifica né la direzione né la forza della relazione tra le due variabili oggetto di studio �la relazione tra la variabile dipendente e quella indipendente non varia al variare del valore della variabile di controllo 13-spiegazione completa:la variabile di controllo spiega completamente l’associazione osservata nella tavola di ordine zero �OR=1,rxy=0 14-effetto parziale:l’introduzione della variabile di controllo spiega parte dell’associazione tra le altre due variabili,quindi sarebbe opportuno introdurre ulteriori variabili di controllo 15-effetto di interazione:l’associazione tra due variabili varia secondo il valore della variabili di controllo �dal punto di vista statistico ci interessa l’effetto do relazione,cioè il fatto che 2 variabili messe insieme hanno un effetto molto forte. 16-dato un campione di numerosità N,il valore di r ottenuto è significativo dal punto di vista statistico? 0<rxy.z<1 �Ho:rxy.z=0 H1:rxy.z>0 � F1,N-3=rxy.z (N-3)/1-rxy.z � tN-3=rxy.z N-3/1-rxy.z

Page 2: Schema_definizioni_statistica

OPsonline.it – la principale web community italiana per studenti e professionisti della Psicologia Appunti d’esame, tesi di laurea, articoli, forum di discussione, eventi, annunci di lavoro, esame di stato, ecc… E-mail: [email protected] – Web: http://www.opsonline.it Gestito da Obiettivo Psicologia srl, via Castel Colonna 34, 00179, Roma - p.iva: 07584501006

CAPITOLO 8

1-variabili studiate:continue ed alcune discrete (es:livelli,dosi)

2-regressione multipla:finalizzata all’analisi delle relazioni esistenti fra una variabile dipendente e due o più variabili indipendenti 3-indice:variabile formata combinando altre variabili che si ritiene rappresentino lo stesso concetto soggiacente 4-equazione di regressione multipla a due variabili:Y=α+β Χ +β Χ +ε �α è il valore dell’intercetta che dà la media,ε è la componente aggiuntiva che dà conto di ciò che non è incluso nel modello 5-P(Y/X ,X ):probabilità di Y dati X e X 6-ipotesi di base:la relazione tra la variabile dipendente e quelle indipendenti è di tipo lineare;le variabili prese in esame sono misurate senza errore;gli errori e si distribuiscono normalmente a media nulla e a varianza costante (omoschedasticità);sono indipendenti tra loro;non sono correlati con alcuna delle variabili indipendenti incluse nel modello di regressione. 7-i valori di b1 e b2 sono dipendenti dall’unità di misura di X1 e X2. 8-teorema del limite centrale:indipendentemente dalla distribuzione delle osservazioni,all’aumentare delle osservazioni la forma della distribuzione tende alla normale 9-coefficienti di regressione b1 e b2:un coefficiente di regressione multipla esprime la quantità di cambiamento nella variabile dipendente che si verifica quando la variabile indipendente corrispondenti varia di una unità,mentre l’altra variabile indipendente rimane costante. 10-pesi beta:coefficienti di regressione che otterremmo se tutte le variabili incluse nel modello fossero trasformate in variabili Z prima di stimare l’equazione di regressione. 11-somma quadrati regressione:è maggiore nel caso multivariato che in quello bivariato;non può mai essere minore,in quanto una delle ragioni che spingono a introdurre in un modello di regressione ulteriori variabili indipendenti è quello di spiegare una quota maggiore di varianza della variabile dipendente. 12-test di significatività del coefficiente di determinazione con due variabili indipendenti:H0:ρy.xx=0 H1:ρy.xx>0 �utilizzo un test F �gdlSQtotali:N-1 gdlSQregressione:2 gdlSQerrore:N-3 �se Femp supera Fcrit,rifiuto l’ipotesi nulla 13-test di significatività per b1 e b2:per verificare se il coefficiente b1 è significativamente diverso da zero si costruisce una variabile t=b1-0/sb1 se assumiamo che nella popolazione dalla quale è stato estratto il campione,la variabile Y è distribuita normalmente per ogni possibile combinazione di valori di X e X ,allora possiamo assumere che,per N sufficientemente grande, la distribuzione campionaria di b1 è anch’essa di tipo normale. 14-regressione multipla con K variabili indipendenti: il coefficiente di regressione multipla associato a una data variabile indipendente esprime il cambiamento nella variabile dipendente prodotto da un cambiamento di una unità nella variabile indipendente in questione,tendendo costanti gli effetti esercitati dalle altre K-1 variabili indipendenti incluse nel modello;l’intercetta rappresenta il valore atteso della variabile dipendente quando tutte le variabili indipendenti assumono valore zero. 15-coefficiente di determinazione rettificato: tiene conto del rapporto tra numero di variabili indipendenti e numero di osservazioni �più variabili aggiungiamo a un’equazione di regressione,maggiore è la probabilità di aumentare il valore di R per il solo effetto della covariazione casuale 16-test di significatività per i parametri: H0:ρy.xx=0 H1:ρy.xx>0 �gdlSQtotali:N-1 gdlSQregressione:K gdlSQerrore:N-K-1 �test F;se Femp >Fcrit si rifiuta l’ipotesi nulla e quindi il coefficiente di determinazione multipla è maggiore di 0

Page 3: Schema_definizioni_statistica

OPsonline.it – la principale web community italiana per studenti e professionisti della Psicologia Appunti d’esame, tesi di laurea, articoli, forum di discussione, eventi, annunci di lavoro, esame di stato, ecc… E-mail: [email protected] – Web: http://www.opsonline.it Gestito da Obiettivo Psicologia srl, via Castel Colonna 34, 00179, Roma - p.iva: 07584501006

17-multicollinearità:quando la correlazione tra le variabili indipendenti è molto elevata;se due delle K variabili indipendenti sono fortemente correlate tra loro la stima dei rispettivi errori standard è distorta,in quanto dipende da (1-R xj.x1…xk-1),pertanto anche i test sulla significatività dei parametri sono distorti;l’errore standard di un coefficiente di regressione aumenta quando la correlazione fra la variabile indipendente corrispondenti e le rimanenti K-1 variabili indipendenti è molto elevata;quando una variabile indipendente può essere predetta esattamente dalla combinazione lineare delle altre si ha una multicollinearità perfetta,alla quale corrisponde l’impossibilità di stimare l’equazione prescelta,più comune è l’equazione di multicollinearità non perfetta 18-per riportare in modo chiaro le statistiche,suddividiamo tutto in 4 righe:1)coefficienti di regressione multipla,sotto forma di equazione e seguiti dal coefficiente di determinazione rettificato;2)i coefficienti di regressione standardizzati sotto forma di equazione;3)errori standard tra parentesi;4)i valori t e F posti tra parentesi.

CAPITOLO 9

1-limite del modello lineare:la curva non può mai andare oltre 1,qualunque sia il valore della covariata sulle ascisse,con un modello lineare non si può gestire una situazione di salti di livelli;è necessario introdurre modelli non lineari;nella regressione non lineare studio variabili discrete dicotomiche ed alcune continue 2-funzioni non lineari:occorre distinguere tra funzioni non lineari nella variabile indipendente e funzioni non lineari nei parametri 3-funzioni non lineari nella variabile indipendente:funzione quadratica,Y=β +β (X),funzioni reciproche Y=β +β /X,funzione logaritmo Y=β +β ln(X) 4-funzioni non lineari nei parametri:funzione esponenziale Y=exp (1+1X) 5-se X ha una relazione sia lineare sia quadratica con Y,l’equazione di regressione della popolazione assume la seguente forma Y=α+β Χ +β Χ 6-statistica R :misura la variabilità della variabile indipendente spiegata dalla relazione lineare con la variabile indipendente

7-quoziente di correlazione η :misura l’associazione presente tra una variabile continua e una discreta,la proporzione della varianza della variabile dipendente spiegata dalla sua relazione non lineare con la variabile indipendente 8-particolarità:poiché i parametri esprimono relazioni lineari multivariate che legano le variabili indipendenti a quella dipendente,i valori attesi in corrispondenza di qualche particolare combinazione delle variabili indipendenti possono ricadere al di fuori dell’intervallo 0-1;il modello lineare logistico si applica quando si presume un legame lineare tra il logit e una variabile esplicativa �Logit [pi]=ln(pi/1-pi)=β +β Χ 9-trasformazione logistica:le percentuali e le proporzioni non rappresentano gli unici modi per misurare una variabile dipendente;il logit si ottiene formando l’odds di pi rispetto al suo reciproco 1-pi e calcolando il logaritmo naturale di questo rapporto;il logit appartiene a tutta la retta reale,infatti gli odds sono sempre non negativi e assumono valori maggiori di 1 se il successo è più probabile dell’insuccesso;pertanto i logit sono positivi se pi<0.5 e negativi altrimenti 10-la probabilità attesa in base al modello lineare risulta minore di zero e maggiore di 1 in corrispondenza dei valori estremi di Z;la probabilità attesa in base al modello logistico non supera mai questi limiti,qualunque sia il valore di Z.

Page 4: Schema_definizioni_statistica

OPsonline.it – la principale web community italiana per studenti e professionisti della Psicologia Appunti d’esame, tesi di laurea, articoli, forum di discussione, eventi, annunci di lavoro, esame di stato, ecc… E-mail: [email protected] – Web: http://www.opsonline.it Gestito da Obiettivo Psicologia srl, via Castel Colonna 34, 00179, Roma - p.iva: 07584501006

11-stima e test delle equazioni di regressione logistica: la regressione logistica ha molti punti in comune con l’analisi della regressione multipla;la differenza fra le due tecniche consiste nel fatto che nella prima la variabile dipendente è il logit di una classificazione dicotomica,nella seconda una misura continua 12-regressione logistica: le variabili indipendenti possono essere di tipo continuo.dicotomico o discreto a K categorie,nonché comprendere termini interattivi 13-metodo di massima verosimiglianza: si utilizza per la stima dei parametri del modello di regressione logistica ipotizzato;la funzione di verosimiglianza L misura la probabilità di osservare i valori della variabile dipendente presenti nel campione;la stima consiste nel trovare i coefficienti β che rendono ln(L) più grande possibile. 14-bontà di adattamento ai dati:tre modi�1)rapporto di verosimiglianza,si basa su un confronto tra il modello stimato ed il modello saturo,quello che ha tanti parametri quante sono le osservazioni e fornisce una descrizione completa dei dati ed un adattamento perfetto e per il confronto si utilizza la devianza;una stima simile è utilizzare il test G,distribuita come una variabile χ con un numero di gradi di libertà pari alla differenza fra il numero di variabili indipendenti presenti nella prima equazione e il numero di variabili indipendenti incluse nella seconda equazione,cioè gdl=k1-k2;l’applicazione più comune consiste nel verificare l’ipotesi che tutti i parametri di un’equazione di regressione logistica siano uguali a zero,ad eccezione dell’intercetta α che equivale al logit della proporzione di casi che assumono valore 1 in corrispondenza della variabile dipendente;la distribuzione G è tanto più buona quanto maggiore è la numerosità campionaria �2)si basa sui residui del modello standardizzato,questa misura corrisponde alla somma dei residui al quadrato divisi per la loro deviazione standard stimata;si distribuisce come una variabile χ con un numero di gdl uguale a N-K-1 �3)pseudo-R,tiene conto del fatto che la distribuzione x è proporzionale alla dimensione del campione,non ha una distribuzione campionaria propria e quindi non può essere sottoposta a test,dovrebbe essere vista solo come misura descrittiva che esprime in modo approssimativo la proporzione di varianza della variabile spiegata dalle K variabili indipendenti incluse nel modello 15-modello probit:deriva dall’integrale della funzione normale,ha lo stesso andamento della funzione logit ma differisce sulle code in quanto approssima i valori estremi in modo più lento rispetto al logit 16-regressione logistica politomica:si analizzano le variabili dipendenti politomiche,cioè di variabili discrete a M categorie;la regola di classificazione delle osservazioni consiste nell’assegnare il caso i alla categoria della variabile dipendente j alla quale è associata la probabilità attesa pij più elevata.

CAPITOLO 10

1-analisi log-lineare:determina se le due variabili di interesse covariano sistematicamente,nonché stabilisce la probabilità che la covariazione osservata nel campione rifletta un fenomeno reale presente nella popolazione dalla quale il campione è stato estratto;si studiano solo variabili qualitative discrete

2-obiettivi:1)riprodurre i dati con una qualche approssimazione, 2)evidenziare che cosa ha effetto sulle frequenze �si verifica se c’è dipendenza tra le variabili 3-il modello log lineare esprime il logaritmo naturale del valore atteso delle frequenza di cella � lnFij=µ+λi+λj+λij �Fij=exp(µ).exp(λi ).exp(λj).exp(λij) dove i e j rappresentano il numero delle categorie delle variabili X e Y mentre l’esponente dei lambda indica la variabile che esercita l’effetto esercitato dal parametro. 4-modello saturo:include tutti gli effetti che le due variabili implicate possono esercitare individualmente e in relazione tra loro. 5-µ:è la media dei logaritmi naturali delle frequenze,questo parametro rappresenta una costante e serve per far sì che la somma delle frequenze attese corrisponda alla numerosità campionaria. 6-i modelli log-lineari sono simmetrici,perché non stimo 1 variabile di interesse rispetto a variabili note,non predico 1 variabile sulla base di altre ma le frequenze di incrocio

Page 5: Schema_definizioni_statistica

OPsonline.it – la principale web community italiana per studenti e professionisti della Psicologia Appunti d’esame, tesi di laurea, articoli, forum di discussione, eventi, annunci di lavoro, esame di stato, ecc… E-mail: [email protected] – Web: http://www.opsonline.it Gestito da Obiettivo Psicologia srl, via Castel Colonna 34, 00179, Roma - p.iva: 07584501006

7-λ:rappresentano gli effetti esercitati dalle variabili implicate sui logaritmi naturali delle frequenze di celle attese;se λ assume un valore positivo,la frequenza di cella corrispondente aumenta,se assume un valore negativo diminuisce,se è uguale a zero la corrispondente categoria non esercita alcun effetto sulla frequenza di cella;il valore assunto da l associato ad una determinata categoria di una data variabile si discosta da zero nella misura in cui tale categoria ha una frequenza superiore o inferiore a 1/K del numero totale dei casi;i parametri λ esprimono la misura in cui le variabili S e I sono associate;se i valori sono uguali a 0,le due variabili non sono correlate,valori positivi indicano che fra le due variabili esiste un’associazione diretta,valori negativi suggeriscono l’esistenza di un’associazione inversa. 8-modello di indipendenza:postula l’assenza del termine di interazione,viene detto modello additivo o insaturo,in quanto gli effetti di ogni variabile si sommano,infatti si assume che le due variabili oggetto dell’analisi siano indipendenti. 9-modelli log lineari gerarchici:quando includono una relazione multivariata complessa,includono tutte le relazioni meno complesse subordinate;modello in cui l’effetto d’interazione tra due variabili può essere presente se e solo se è presente anche l’efetto marginale dell’una e dell’altra variabile. 10-notazione standard:sistema di notazione che racchiude all’interno delle parentesi graffe le combinazioni di lettere maiuscole che rappresentano le variabili che si ipotizza siano reciprocamente associate 11-rapporto do verosimiglianza:si utilizza L per confrontare i modelli stimati;si usa per verificare il grado di somiglianza fra le frequenze attese e quelle osservata,per determinare se l’esistenza delle relazioni fra variabili ipotizzate da un dato modello è corroborata dai dati campionari osservati,si distribuisce come un χ con gdl pari al numero di parametri lambda posti a zero. 12-modello logit:quando si assume che una variabile dicotomica dipende da altre variabili dicotomiche o

categoriali allora una particolare specificazione del modello log lineare si chiama logit;tutte le variabili

indipendenti sono di tipo discreto;invece di predire le frequenze di cella attese,il modello logit predice i

logaritmi naturali degli odds della variabile dipendente

13-particolarità:quando si ha a che fare con variabili che presentano un elevato numero di categorie oppure nel caso in cui siano presenti nell’analisi molte variabili,le tabelle di contingenza che si possono costruire hanno un numero elevato di celle,alcune delle quali potrebbero presentarsi vuote 14-zero casuali:si hanno celle vuote per effetto di combinazioni rare di variabili;in questo caso per analizzare la tabella si incrementa il valore di tutte le celle di 0,5 15-zero strutturali:si hanno delle combinazioni di variabili che non si possono logicamente verificare 16-modello di quasi indipendenza:gli zeri strutturali devono essere considerati come valori fissi nell’analisi,si verifica l’indipendenza ignorando le celle con zero strutturali;nel conteggio dei gradi di libertà della statistica L occorre sottrarre anche il numero di zeri strutturali Z,pertanto in una tabella 2X2 i gradi saranno (R-1)(C-1)-Z.