Stata Básico Intermedio

download Stata Básico Intermedio

of 79

Transcript of Stata Básico Intermedio

Stata Bsico Intermedio a Aplicado a la Investigacin Econmica o o

Juan Carlos Abanto Orihuela 5 de febrero de 2009

UdecomBooks

2

Stata Bsico Intermedio a Aplicado a la Investigacin Econmica o o

www.iddeasac.com [email protected]

Indice general Indice general 1. Introduccin al Stata o 1.1. Iniciando Stata . . . . . . . . . . . 1.2. Tipos de Archivos en Stata . . . . . 1.3. Estructura Bsica de Stata . . . . . a 1.4. Principales Comandos de Trabajo y 1.4.1. Las Bitcoras . . . . . . . . a 1.4.2. La Base de Datos . . . . . . 1.4.3. Append, Merge, Collapse . . 2. Manejo de Datos 2.1. Cargando los Datos en Stata . . . . 2.2. Etiquetas . . . . . . . . . . . . . . 2.3. Comando IF . . . . . . . . . . . . . 2.4. Comando SUMMARIZE . . . . . . 2.5. Comando SPLIT . . . . . . . . . . 2.6. Creando Variables . . . . . . . . . . 2.7. KEEP y DROP . . . . . . . . . . . 2.8. Reestructurando los Datos . . . . . 2.9. Muestreos Probabil sticos . . . . . . 2.10. Generacin de Nmeros Aleatorios o u 2.11. Percentiles, Cuartiles, Deciles . . .

3 5 5 6 6 7 7 7 9 15 15 15 17 18 18 19 22 24 26 26 27 31 31 33 38 40 40 40 43 47

. . . . . . . . . . . . . . . Anlisis a . . . . . . . . . . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

3. Anlisis Graco con Stata a 3.1. Visualizando Algunos Comandos . . . . . . . . . 3.2. TWOWAY . . . . . . . . . . . . . . . . . . . . . . 3.3. TWOWAY y SCATTERPLOT . . . . . . . . . . 3.4. Combinando TWOWAY Y SCATTERPLOT . . . 3.4.1. Filtro de Grcos . . . . . . . . . . . . . . a 3.4.2. Unin de Grcos . . . . . . . . . . . . . . o a 3.5. Opciones para Edicin de Grcos . . . . . . . . . o a 3.6. Trabajando con Esquemas y Grcos Adicionales a 3

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

UdecomBooks

4 3.6.1. 3.6.2. 3.6.3. 3.6.4. 3.6.5. Esquemas . . . . . . . . . . . . Grcos de Barras Verticales . . a Grcos de Barras Horizontales a Grcos de Cajas . . . . . . . . a Grcos de Pastel . . . . . . . . a . . . . . . . . . . . . . . . . . . . .

INDICE GENERAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 49 49 50 51 55 55 59 59 62 63 64 64 65 66 69 69 70 72 75 75 81

4. Anlisis de Regresin Lineal a o 4.1. Regresin Lineal . . . . . . . o 4.2. Diagnostico de los Resultados 4.2.1. Efecto Inuencia . . . 4.3. Normalidad del Residuo . . . 4.4. Homocedasticidad del Residuo 4.5. Multicolinealidad . . . . . . . 4.6. Linealidad . . . . . . . . . . . 4.7. Especicacin del modelo . . o 4.8. Independencia . . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

5. Variables Categricas o 5.1. Estimacin con Variables Categricas o o 5.2. El Comando Xi . . . . . . . . . . . . 5.3. Pruebas de Hiptesis . . . . . . . . . o 5.4. Creacin de Variables Dummys . . . o 5.5. Bucles y Programas . . . . . . . . . . Bibliograf a

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

Stata Bsico Intermedio a Aplicado a la Investigacin Econmica o o

www.iddeasac.com [email protected]

Sesin 1 o Introduccin al Stata o1.1. Iniciando Stata

Stata es una poderosa herramienta en aplicaciones econmicas. Puede ayuo darnos a analizar fcil y ecientemente, series de tiempo, paneles, y data de a seccin cruzada. Nos dar las herramientas que necesitamos para organizar y o a manejar un gran tamao de data, obteniendo resultados de anlisis estad n a sticos. En esta sesin introduciremos las nociones bsicas del software, para poso a teriormente realizar un anlisis estad a stico y familiarizarnos con el manejo y modicacin de la base de datos. o Veamos como se presenta Stata al iniciarse. (ver Figura 1.1)

Figura 1.1: Pantalla de Inicio 5

UdecomBooks

6

1. Introduccin al Stata o

Los comandos de stata estn implementados en el men el cual esta organizado a u por tpicos. As nosotros podemos trabajar interactivamente y de manera muy o simple, sin embargo sigue siendo util el uso de comandos para realizar el anlisis a dado que da pie al manejo de programas, o estructuras de programacin. (ver o Figura 1.2)

Figura 1.2: Barra de Comandos

1.2.Tipos de Archivos en StataEn STATA, distinguimos 3 tipos de archivos importantes: Archivo de extensin dta, para la generacin de base de datos, en ella se o o almacenara informacin de las variables con su respectiva extensin. o o Archivo de extensin log, smcl, para la generacin de bitcoras, en ella se o o a guardaran los resultados de manera ordenada, sin tener que pasarlos a ningn u tipo de archivo de texto. Archivo de extensin do, que es un archivo de ejecucin, donde se elabora o o el programa. Archivo de extensin gph, para la generacin de grcos almacenados en o o a la carpeta de trabajo

1.3.Estructura Bsica de Stata aSiempre que trabajemos en STATA, es recomendable que mantengamos cierta estructura. (ver Figura 1.3)

1.4. Principales Comandos de Trabajo y Anlisis a

7

Figura 1.3: Estructura Bsica a

1.4.Principales Comandos de Trabajo y Anlia sisAhora veamos los principales comandos de trabajo, los cuales harn que a los futuros anlisis economtricos sean simples de realizar. a e

1.4.1.Las Bitcoras aEn estos objetos se guardara la informacin tal y cual aparecen en la veno tana Result, aunque tambin podr e amos indicarle al programa que deseamos solo guardar los comandos y no los resultados. log using clase1.log o tambin e cmdlog using clase1.log

1.4.2.La Base de DatosEl uso de la base de datos es vital para nuestro anlisis, a continuacin a o presentamos los comandos que nos enseara a trabajar con esta. n

use auto.dta

UdecomBooks

8 use auto.dta if foreign==1 use auto.dta in 1/10 use make mpg using auto.dta save auto01.dta

1. Introduccin al Stata o

Repasemos lo que hemos aprendido: Ya sabemos como limpiar la memoria de Stata, tambin sabemos como ampliar e esta memoria para trabajar con data de gran capacidad. Sabemos como jar el path de trabajo, como crear una rutina y como cargar la base de datos a nuestro espacio de trabajo. Ahora vamos a trabajar con la base de datos para empezar nuestro anlisis. a use auto01.dta browse replace mpg=20 if mpg==19 save, replace list make list make price describe codebook summarize summarize summarize summarize summarize mpg weight mpg weight if foreign price if mpg=21.3 price, detail

tabulate mpg table table table table mpg rep78, contents(n mpg) rep78, contents(n mpg mean mpg sd mpg median mpg) rep78, c(n mpg mean mpg sd mpg median mpg) format(%9.2f)

sort mpg gsort mpg gsort -mpg sort foreign by foreign: summarize price

1.4. Principales Comandos de Trabajo y Anlisis a

9

count count if foreign==0 count if foreign==1 by foreign: count generate orden=_n rename orden num_obs by foreign: egen prom_mill=mean(mpg) drop num_obs keep make price mpg prom_mill

1.4.3.Append, Merge, CollapseEl comando append y merge nos ayudara a unir bases de datos integrndolas en una sola. Append, pegara hacia abajo o verticalmente y Merge, a pegara hacia el costado o de forma horizontal. clear use base1, list use base2, list use base3, list use base4, list

clear clear clear clear

Vamos a empezar observando cada una de las bases de datos que tenemos, veamos la gura1.4 Empecemos nuestra tarea en Stata, podemos observar que

Figura 1.4: Bases de Datos

UdecomBooks

10

1. Introduccin al Stata o

la base de datos Base1 tiene los mismos campos (columnas) que la base de datos Base2, pero diferentes las, seria util, unir ambas bases. Abramos entonces, la base de datos Base1 y peguemosla con la base de datos Base2, una unin vertical. o use base1.dta, clear list append using base2 list save base12.dta, replace list Hagamos lo mismo con las bases de datos Base3 y Base4 y observemos los resultados: use base3.dta, clear list append using base4 list save base34.dta, replace list Por qu la variable la variable sexo se aadi 2 veces como columna?por e n o qu no se uni en una sola columna? e o use base3.dta, clear list rename Sexo sexo list save base03.dta, replace use base03.dta, clear list append using base4 list save base034.dta, replace Ahora si resulto bien la unin vertical. Veamos la base12 que ten o amos antes. Ahora mi inters es fusionar ambas bases de datos, para ello, primero debee mos ordenar ambas bases segn la variable con la que vamos a fusionar (la u variable comn). u use base034.dta, clear list sort nombre list

1.4. Principales Comandos de Trabajo y Anlisis a save base034s.dta, replace use base12.dta, clear list sort nombre list save base12s.dta, replace Ya tenemos las 2 bases de datos ordenadas, ahora vamos a fusionarlas clear use base12s.dta, clear list merge nombre using base034s.dta list save basetotal.dta, replace La gura1.5 nos muestra la base de datos total.

11

Figura 1.5: Base Total El comando collapse sirve para convertir una base de datos que contiene variables para diversas unidades de estudio, en una base de datos que contiene estad sticos de dichas variables (medias, medianas, sumas etc). Permite obtener estad sticos para unidades ms grandes (en un sentido jerrquico), como a a por ejemplo, pasar de datos por individuo a datos por hogar, de datos por distritos a datos por provincia (agregacin) o En el comando se especican aquellas variables que se colapsan y las condiciones que se imponen para dicha transformacin. Algunas variables pueden o ser colapsadas segn su suma, otras segn su media, etc. (ver gura1.6) u u Aquellas variables que no se especican desaparecen automticamente de a la base de datos. Este comando crea una nueva base de datos y cierra la base de partida. Si deseamos quedarnos con esta base debemos grabarla.

UdecomBooks

12

1. Introduccin al Stata o

Figura 1.6: Estructura del comando split

use kids, clear list collapse age list use kids, clear collapse age, by(famid) list use kids, clear collapse(mean) avgage=age, by(famid) list use kids, clear collapse (mean) avgage=age avgwt=wt, by(famid) list use kids, clear collapse (mean) avgage=age avgwt=wt (count) numkids=birth, by(famid) list use kids, clear tabulate sex, generate(sexdum)

1.4. Principales Comandos de Trabajo y Anlisis a

13

list famid sex sexdum1 sexdum2 collapse (count) numkids=birth (sum) girls=sexdum1 boys=sexdum2, by(famid) list famid boys girls numkids

Basado en los WDI, genere una base de datos con los totales de CO2 emitidos por regin, para el ao 2002. Genere tambin una base con la poblacin o n e o mundial a lo largo del tiempo.

UdecomBooks

14 RETO 1

1. Introduccin al Stata o

La base enaho01-2004-300-oct-nov.dta contiene datos del mdulo 300 de o la ENAHO recopilados entre octubre y noviembre de 2004, mientras que enaho01-2004-300-dic.dta contiene los datos del mismo mdulo para dio ciembre de ese mismo ao. Ambas bases estn a nivel de individuos. Se pide n a juntar estos datos en un solo archivo que debe ser grabado con el nombre: Personas.dta. A la base Personas.dta aada las siguientes variables: n Las 5 variables de Necesidades Bsicas Insatisfechas (nbi1 al nbi5) desde a la base de datos enaho01-2004-100.dta. Recuerde que esta base fue recopilada a nivel de hogares en el mismo periodo. La variable sobre tipo de vivienda (p101). Usando el archivo enaho01-2004-300-oct-nov.dta (mdulo de educacin a o o nivel de individuos) realice las siguiente tarea: Obtenga una nueva base (colapsada) que contenga para cada hogar: el promedio de edad de sus miembros (ver p208a), el porcentaje de hombres en el hogar (ver p207), el mximo nivel educativo aprobado a por algn miembro del hogar (ver p301a). u

Sesin 2 o Manejo de Datos2.1. Cargando los Datos en Stata

Ahora vamos a empezar el tratamiento de los datos pero antes, hagamos un pequeo ejercicio con la base de datos auto.dta n use auto.dta describe summarize generate price2=2*price describe save auto2.dta generate price3=3*price save auto2.dta save auto2.dta, replace generate price4=4*price use auto.dta use auto.dta, clear clear

2.2.

Etiquetas

Aprendamos a etiquetar a nuestras bases de datos o variables para poder identicarlas en un futuro y as poder trabajar de forma mas ordenada. use auto.dta describe label data "Este archivo contiene datos de autos para el a~o 1978" n describe label variable rep78 "Record de reparacin en 1978" o label variable price "Precio del carro en 1958" label variable mpg "Millas por galon para el carro" 15

UdecomBooks

16

2. Manejo de Datos

label variable foreign "Origen del carro, extranjero o domestico" describe label define foreignl 0 "domestico" 1 "extranjero" label values foreign foreignl describe table foreign ttest mpg, by(foreign) save auto3.dta Hagamos un ejercicio similar con la base de datos iraninos.dta clear use iraninos.dta set more off label define sexow 0 "mujer" label define sexow 1 "hombre", add describe browse label values sexo sexow describe browse label drop sexow label label label label label define define define define values getareow 0 "prematuro" getareow 1 "rec.nac.", add getareow 2 "lactante", add getareow 3 "escolares", add getareo getareow

label define oliguriaw 0 "no oliguria" label define oliguriaw 1 "oliguria", add label values oliguria oliguriaw label define congenitow 0 "no congenito" label define congenitow 1 "congenito", add label values congenito congenitow label define sepsisw 0 "no sepsis" label define sepsisw 1 "sepsis", add label values sepsis sepsisw label define tipodaow 0 "asfixia neonat"

2.3. Comando IF label label label label define define define values tipodaow 1 "nta", add tipodaow 2 "nti", add tipodaow 3 "nefro tox", add tipodao tipodaow

17

label define finalw 0 "vivo" label define finalw 1 "muerto", add label values final finalw Observemos que la variable dependiente en esta base de datos es nal, muerte de una persona debido a una falla renal aguda. Las variables explicativas serian sepsis y tipodao, mientras que las de control serian sexo, getareo. n Probablemente oliguria y congenito sean variables que me indiquen el nivel especico de la enfermedad (serian variables no tan claras en este ejemplo).

2.3.Comando IFLa estructura del comando IF es fcil de recordar, la gura2.1 nos muestra a el esquema base.

Figura 2.1: Estructura del comando if clear use auto.dta keep make rep78 foreign mpg price tabulate rep78 foreign tabulate rep78 foreign if (rep78 >=4) tabulate rep78 foreign if (rep78 >=4), column nofreq list if (rep78 >= 4) list if (rep78 >= 4) summarize summarize summarize summarize summarize price price price price price if if if if if

&

!missing(rep78) == = >= 1) | (rep78 == 2) 2) 3) | (rep78 == 4) | (rep78 == 5) 3) 3) & !missing(rep78)

(rep78 (rep78 (rep78 (rep78 (rep78

Cabe resaltar que luego de la sentencia if usamos & para decir y, usamos == para decir igual a, y usamos ! para negar algo o decir no.

UdecomBooks

18

2. Manejo de Datos

2.4.Comando SUMMARIZEEsta estructura es mas compleja y ms dif de recordar, sin embargo la a cil siguiente forma general (ver gura2.2), nos ayudara a recordarla y usarla de manera ms apropiada. a

Figura 2.2: Estructura del comando summarize

use auto summarize summarize summarize summarize summarize

price mpg mpg price if (foreign == 1) mpg price if (foreign == 1) & (mpg