Dpto. de Economa CuantitativaUniversidad Complutense de Madrid
ECONOMETRIAIntroduccion a la econometra; y analisis grafico
y estadstico de relaciones
Marcos Bujosa
Trasparencias de clase para la asignatura econometra de los
grados en Economa y Administracion y Direccion de Empresas
de la Universidad Complutense de Madrid.
20102012 Marcos Bujosa [email protected]
Actualizado el: 8 de marzo de 2012 Version 0.1.03
Copyright 20102012 Marcos Bujosa [email protected]
Este material docente se distribuye bajo la Creative Commons Attribution-Share Alike 3.0 Spain. Para ver una copia de esta licencia, visite http://creativecommons.
org/licenses/by-sa/3.0/es/.
Tabla de Contenido
Bibliografa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
Transparencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
Introduccion: Por que modelar? 1
Modelado consiste en intentar ajustar un modelo matematico a un conjunto de datos
(la muestra)
Introduccion: Por que modelar? 1
Modelado consiste en intentar ajustar un modelo matematico a un conjunto de datos
(la muestra)
El modelo sera util, si resulta mas simple que los datos que representa
Introduccion: Por que modelar? 1
Modelado consiste en intentar ajustar un modelo matematico a un conjunto de datos
(la muestra)
El modelo sera util, si resulta mas simple que los datos que representa, pero captura
las caractersticas mas interesantes de los datos.
Introduccion: Por que modelar? 1
Modelado consiste en intentar ajustar un modelo matematico a un conjunto de datos
(la muestra)
El modelo sera util, si resulta mas simple que los datos que representa, pero captura
las caractersticas mas interesantes de los datos.
Se pueden construir modelos para satisfacer diferentes necesidades, tales como:
Estimacion
Prevision
Simulacion
Control
El objetivo de la econometra 2
Econometra aplica inferencia estadstica en modelos economicos.
El objetivo de la econometra 2
Econometra aplica inferencia estadstica en modelos economicos. Objetivos:
Estimacion; por ejemplo
sensibilidad de un valor financiero a movimientos de un ndice de
referencia, para evaluar su exposicion al riesgo y cobertura con
derivados sobre el ndice
El objetivo de la econometra 2
Econometra aplica inferencia estadstica en modelos economicos. Objetivos:
Estimacion; por ejemplo
sensibilidad de un valor financiero a movimientos de un ndice de
referencia, para evaluar su exposicion al riesgo y cobertura con
derivados sobre el ndice
Previsiones; por ejemplo,
probabilidad de incumplimiento futuro de un prestamo, en funcion de
las caractersticas de la operacion y del solicitante
El objetivo de la econometra 2
Econometra aplica inferencia estadstica en modelos economicos. Objetivos:
Estimacion; por ejemplo
sensibilidad de un valor financiero a movimientos de un ndice de
referencia, para evaluar su exposicion al riesgo y cobertura con
derivados sobre el ndice
Previsiones; por ejemplo,
probabilidad de incumplimiento futuro de un prestamo, en funcion de
las caractersticas de la operacion y del solicitante
Simulacion; por ejemplo
rendimiento de una cartera de valores en diferentes escenarios
El objetivo de la econometra 2
Econometra aplica inferencia estadstica en modelos economicos. Objetivos:
Estimacion; por ejemplo
sensibilidad de un valor financiero a movimientos de un ndice de
referencia, para evaluar su exposicion al riesgo y cobertura con
derivados sobre el ndice
Previsiones; por ejemplo,
probabilidad de incumplimiento futuro de un prestamo, en funcion de
las caractersticas de la operacion y del solicitante
Simulacion; por ejemplo
rendimiento de una cartera de valores en diferentes escenarios
control; por ejemplo,
bancos centrales: nivel de tipos de intervencion para controlar la
inflacion
Poblacion y variable estadstica 3
Poblacion El universo de objetos estudiados
Conjunto de hogares; alumnos de un curso; automoviles fabricados este ano. . .
Poblacion y variable estadstica 3
Poblacion El universo de objetos estudiados
Conjunto de hogares; alumnos de un curso; automoviles fabricados este ano. . .
Variable estadstica Cada rasgo o caracterstica de los elementos de la poblacion.
Gasto anual en alimentacion; color de ojos; consumo de combustible por km. . .
Poblacion y variable estadstica 3
Poblacion El universo de objetos estudiados
Conjunto de hogares; alumnos de un curso; automoviles fabricados este ano. . .
Variable estadstica Cada rasgo o caracterstica de los elementos de la poblacion.
Gasto anual en alimentacion; color de ojos; consumo de combustible por km. . .
cualitativas El rasgo descrito no es de naturaleza numerica
color de ojos, sexo, nombre de la empresa. . .
cuantitativas El rasgo es numerico
peso, temperatura, ingresos anuales, precio. . .
Variables estadsticas cualitativas 4
Con cierta frecuencia las variables cualitativas se expresan con numeros
nominales La asignacion de numeros a las categoras es arbitraria
mujer=1, hombre=0; Europa=1, EEUU=2; Japon=3; Otros=4. . .
ordinales Indican un orden
producto preferido=3, siguiente en preferencia=2, menos deseado=1
En ambos casos las operaciones aritmeticas entre estos numeros carecen de sentido
Variables estadsticas cuantitativas 5
discretas Suelen ser el resultado de contar
n de descendientes de una pareja, lavadoras producidas. . .
continuas Suelen ser medidas y tener decimales
temperatura, peso, superficie de una vivienda. . .
Ejercicios 6
Ejercicio 1. Clasificar las siguientes variables
(a) Temperatura maxima diaria
(b) Numero de dorsal de la camiseta de los jugadores de un equipo de baloncesto
(c) Calificacion obtenida en un examen
(d) Marca de refresco consumido
(e) Codigo postal que aparece en una carta
(f) Estado civil de una persona
(g) Salario
(Pena y Romo, 1997, ejercicio 2.1 de la seccion 2.6.)
Ejercicio 2. Se plantea un estudio para ordenar las cien mayores empresas de un
pas. Determinar razonadamente tres variables en que basar la clasificacion. Que tipo
de variables es cada una de ellas?
(Pena y Romo, 1997, ejercicio 2.5 de la seccion 2.6.)
Tipos de datos en funcion del ndice 7
Seccion cruzada
Datos temporales (series de tiempo)
Datos de panel
Descripcion de variables cualitativas. Ejemplo de distribucion de frecuencias 8
Fichero de datos bweight.gdt
Poblacion: Mujeres gestantes y sus bebes recien nacidos
Muestra: N = 1832 mujeres
Variable estadstica: raza
Numero de categoras; k = 3
1 = raza blanca; 2 =raza negra; 3=otras razas
Descripcion de variables cualitativas. Ejemplo de distribucion de frecuencias 8
Fichero de datos bweight.gdt
Poblacion: Mujeres gestantes y sus bebes recien nacidos
Muestra: N = 1832 mujeres
Variable estadstica: raza
Numero de categoras; k = 3
1 = raza blanca; 2 =raza negra; 3=otras razas
k ni ni/N diagrama de barras
1 1624 88,65 % *******************************
2 109 5,95 % **
3 99 5,40 % *
Descripcion de variables cualitativas. Ejemplo de distribucion de frecuencias 8
Fichero de datos bweight.gdt
Poblacion: Mujeres gestantes y sus bebes recien nacidos
Muestra: N = 1832 mujeres
Variable estadstica: raza
Numero de categoras; k = 3
1 = raza blanca; 2 =raza negra; 3=otras razas
k ni ni/N diagrama de barras
1 1624 88,65 % *******************************
2 109 5,95 % **
3 99 5,40 % *
Moda La clase de mayor frecuencia
Ejercicios 9
Ejercicio 3. Con Gretl abra el fichero de datos bweight.gdt,
(a) genere un diagrama de barras, y observe las frecuencias absolutas y relativas de
la variable raza de la madre
(b) Cual es la moda en esta distribucion?
bweight.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Gretl
# leemos el archivo de datos bweight.gdtopen datos/bweight.gdt# o pinchando en 'Archivo' -> 'Abrir datos' -> 'Archivo de usuario'
# generamos un diagrama de fecuencias de la variable 'race' freq race # tambien lo podemos hacer asifreq 2# ya que 'race' tiene asignado el numero 2; # o pinchando con el boton derecho sobre 'race', y selecionando 'Distribucion de frecuencias'
Marcos Bujosa
Descripcion de variables cuantitativas discretas: distribucion de frecuencias 10
Ejercicio 4. Con Gretl abra el fichero de datos cholesterol.gdt,
(a) genere un diagrama de barras, y observe las frecuencias absolutas, relativas, y
acumuladas del nivel de colesterol en la sangre de los individuos de la muestra
(cholest).
(b) Cual es la moda en esta distribucion?
(c) genere un diagrama de barras, y observe las frecuencias absolutas, y relativas de
los sexos de los individuos de la muestra (gender).
(d) Cual es el tamano de la muestra?
cholesterol.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
# leemos el archivo de datos cholesterol.gdtopen datos/cholesterol.gdt# o pinchando en 'Archivo' -> 'Abrir datos' -> 'Archivo de usuario'
# generamos un diagrama de fecuencias de la variable 'cholest' freq cholest# tambien lo podemos hacer asifreq 1# o pinchando con el boton derecho sobre 'cholest', y selecionando 'Distribucion de frecuencias'
# diagrama de frecuencias del genero de los individuos de la muestrafreq gender
Marcos Bujosa
Descripcion de variables cuantitativas continuas: distribucion de frecuencias (Histograma) 11
Este caso es mas complejo, ya que las clases no estan definidas de manera natural
Hay que dividir el recorrido de la muestra en intervalos no solapados
El punto central de cada intervalo se denomina marca de clase ci
Representamos por
n1, n2, . . . , nk
el n de observaciones en cada clase (en cada intervalo).
Las definiciones de frecuencias absolutas, relativas y acumuladas son identicas
al caso anterior
Ejercicios 12
Ejercicio 5. Con Gretl abra el fichero de datos bweight.gdt,
(a) genere un histograma de la variable peso del bebe al nacer (bweight), y observe
las frecuencias absolutas y relativas
(b) Cuanto ninos pesaron al nacer mas de 2003.5 gramos y menos de 2349.5?
(c) Que porcentaje de ninos pesaron al nacer mas de 2003.5 gramos y menos de
2349.5?
(d) Empleando la interfaz grafica genere un histograma con 7 clases o intervalos,
(e) Genere otro histograma mas con 75 intervalos. Observe las frecuencias de los
intervalos en este caso. Si tuviera que anunciar un peso como el mas frecuente
al nacer que peso dira?
bweight2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
# leemos el archivo de datos bweight.gdtopen datos/bweight.gdt
# generamos un histograma de la variable 'bweight' freq bweight
# hagalo de nuevo pinchando con el boton derecho sobre 'bweight', y selecionando # 'Distribucion de frecuencias'.# Seleccione el numero de intervalos y# desmarque la opcion 'mostrar el grafico' si quiere ver las distribuciones # de frecuencias absolutas, relativas y acumuladas.
Marcos Bujosa
Histograma y caractersticas de la distribucion 13
El histograma pone de relieve rasgos de la variable como son la simetra, si es unimodal,
o bimodal, etc.
Ejercicios 14
Ejercicio 6.
(a) En el dibujo que distribuciones son simetricas? Cual es
asimetrica hacia la izquierda (o negativamente asimetrica)? Cuales son
unimodales? Cuales bimodales?
(b) Simetrica o asimetrica? unimodal o bimodal?
Ejercicios 15
Ejercicio 7.
(a) Que variable tiene una media mayor? la roja o la azul?
(b) Que distribucion tiene una mayor desviacion tpica? La verde
o la azul?
Ejercicios 16
Ejercicio 8. Mire cual es la media, y la desviacion tpica del peso de los recien
nacidos del ejercicio anterior.
bweight3.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
(a) Coincide la media con el peso mas frecuente al nacer que usted encontro?
(b) Cual es el maximo peso registrado en la muestra? Y el mnimo?
(c) Tiene sentido calcular estos estadsticos en el caso de la variable race?
(d) En el caso de los datos de colesterol; para que variable tiene sentido calcular los
estadsticos, y para cual no?
# leemos el archivo de datos bweight.gdtopen datos/bweight.gdt
# estadisticos principalessummary bweight
# tambien vale con indicar el numero de la variable (1 en este caso)summary 1# otra forma es pinchando con el boton derecho sobre 'bweight', y selecionando # 'Estadisticos descriptivos'.
Marcos Bujosa
Ejercicios 17
Ejercicio 9. Coteje los estadsticos descriptivos de los datos de peso de recien nacidos
y de niveles de colesterol con sus respectivos histogramas o diagramas de frecuencia.
Ejercicio 10. Con Gretl abra el fichero de datos cholesterol.gdt. Vamos a ver las
diferencias en los niveles de colesterol entre lo hombres y las mujeres de la muestra.
(a) Restrinja la muestra a los datos de las mujeres (gender=1)
Genere un diagrama de barras, y observe los estadsticos descriptivos relativos a
los niveles de colesterol (cholest).
No cierre las ventanas del diagrama y los estadsticos descriptivos de la
distribucion.
(b) Restaure la muestra inicial y repita de nuevo los pasos, pero ahora para los hombres
(gender=0)
(c) Compare ambas distribuciones Hay diferencias?
cholesterol2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
# leemos el archivo de datos cholesterol.gdtopen datos/cholesterol.gdt# o pinchando en 'Archivo' -> 'Abrir datos' -> 'Archivo de usuario'
# restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict # Tambien podemos restringir la muestra abriendo el menu # despleglabe 'Muestra' -> 'Restringir a partir de criterio'# y escribiendo en la ventana que se abre # gender = 1
# informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest
# restauramos la muestra completasmpl full# Para restaurar la muestra tambien podemo abrir el menu # despleglabe 'Muestra' y pinchar en 'Recuperar el rango completo'.
# restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict
# informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest
Marcos Bujosa
Mediana 18
Mediana El centro de los datos (otra medida de posicion)
El dato (o datos) que separa la muestra (ordenada de menor a mayor) en dos
grupos con igual numero de elementos
Mediana 18
Mediana El centro de los datos (otra medida de posicion)
El dato (o datos) que separa la muestra (ordenada de menor a mayor) en dos
grupos con igual numero de elementos
Ejercicio 11.
(a) Cual es el peso mediano en la muestra de recien nacidos?
(b) Coincide con el peso medio?
ZCodigo: bweight3.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
Cuartiles, Rango, rango intercuartlico 19
La mediana divide en dos mitades el conjunto ordenado de observaciones
(separa los datos mas pequenos de los mayores)
Primer cuartil Q1 Es la mediana de la primera mitad (divide en dos los datos menores)
Tercer cuartil Q3 Es la mediana de la segunda mitad (divide en dos los datos mayores)
Cuartiles, Rango, rango intercuartlico 19
La mediana divide en dos mitades el conjunto ordenado de observaciones
(separa los datos mas pequenos de los mayores)
Primer cuartil Q1 Es la mediana de la primera mitad (divide en dos los datos menores)
Tercer cuartil Q3 Es la mediana de la segunda mitad (divide en dos los datos mayores)
Si usted ha tenido hijos seguramente ya sabra que son los percentiles. . .
Cuartiles, Rango, rango intercuartlico 19
La mediana divide en dos mitades el conjunto ordenado de observaciones
(separa los datos mas pequenos de los mayores)
Primer cuartil Q1 Es la mediana de la primera mitad (divide en dos los datos menores)
Tercer cuartil Q3 Es la mediana de la segunda mitad (divide en dos los datos mayores)
Si usted ha tenido hijos seguramente ya sabra que son los percentiles. . .
Rango Diferencia entre la observacion mas grande y la mas pequena
Rango intercuartlico Diferencia entre el tercer y el primer cuartil
Ambos rangos son medidas de dispersion (como la varianza, la desviacion tpica y el
coeficiente de variacion)
Diagrama de cajas 20
El diagrama de caja (boxplot) es un grafico que representa los valores maximo,
mnimo, la mediana y los cuartiles
Ejercicio 21
Ejercicio 12.
(a) Genere un diagrama de cajas de la variable peso de los recien nacidos.
(b) Compruebe los cuartiles en la muestra (pinchando en el grafico).
(c) Compruebe que el rango es de casi 5 kilos! pero el rango intercuartlico es de
menos de 700 gramos.
(d) Genere un grafico con tres diagramas de cajas de la variable peso, uno por cada
grupo de ninos con madres de raza distinta (observe el resumen numerico)
bweight4.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
# leemos el archivo de datos bweight.gdtopen datos/bweight.gdt
# diagrama de cajasboxplot bweight --output="display"# Gretl tambien entenderia lo siguiente: # boxplot 1# (la opcion '--output="display" ' solo es necesaria para ejecutar un scrip en ``batch'').# Tambien es posible pinchar con el boton derecho sobre la variable # y seleccionar -> 'Grafico de cajas'
# Pinchando con el boton derecho sobre el grafico puede seleccionar en el# menu desplagable -> 'resumen numerico' para ver los valores numericos
# Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output="display" # Tecleando # boxplot bweight (race=1) bweight (race=2) bweight (race=3)# realizaria lo mismo
Marcos Bujosa
Diagramas de cajas con distintos bigotes 22
Diagramas de cajas con distintos bigotes 22
Robustez de la mediana frente a la media en presencia de atpicos 23
La media se ve afectada por datos extremos, pero no la mediana
# leemos el archivo de datos bweight.gdtopen datos/bweight.gdt
# calculo de estadisticos descriptivos "uno a uno"pmedio=mean(bweight)# o tambien pinchar en 'Anadir' -> 'Definir nueva variable' y escribir "pmedio=mean(bweight)"varianza=var(bweight)# o tambien pinchar en 'Anadir' -> 'Definir nueva variable' y escribir "varianza=var(bweight)"desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight,0.25)q3=quantile(bweight,0.75)rango=q3-q1
# definimos un nuevo peso dato_anomalo=700000
# guardamos el peso del bebe mas grandegordito=max(bweight)
# generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweight,gordito,dato_anomalo)# o defnimos una nueva variable "nuevos_pesos" igual a "bweight"# o mas sencillo a "sort(bweight)" y editamos el valor a mano...
# calculo de estadisticos descriptivos "uno a uno"pmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos,0.25)q3_n=quantile(nuevos_pesos,0.75)rango_n=q3-q1
# escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n # tambien podemos "pinchar" en 'Ver' -> 'Escalares'
Marcos Bujosa
Robustez de la mediana frente a la media en presencia de atpicos 23
La media se ve afectada por datos extremos, pero no la mediana
Ejercicio 13.
(a) Calcule los estadsticos descriptivos de la variable peso
(b) Calcule el rango intercuartlico
(c) Modifique el peso del bebe mas pesado (obs 1013), ponga un peso de 700 kg
(700000)
(d) Calcule de nuevo los estadsticos descriptivos de la variable peso y el rango
intercuartlico
(e) Observe el efecto sobre la media y la mediana
(f) Observe el efecto sobre la varianza y el rango intercuartlico
bweight5.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
# leemos el archivo de datos bweight.gdtopen datos/bweight.gdt
# calculo de estadisticos descriptivos "uno a uno"pmedio=mean(bweight)# o tambien pinchar en 'Anadir' -> 'Definir nueva variable' y escribir "pmedio=mean(bweight)"varianza=var(bweight)# o tambien pinchar en 'Anadir' -> 'Definir nueva variable' y escribir "varianza=var(bweight)"desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight,0.25)q3=quantile(bweight,0.75)rango=q3-q1
# definimos un nuevo peso dato_anomalo=700000
# guardamos el peso del bebe mas grandegordito=max(bweight)
# generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweight,gordito,dato_anomalo)# o defnimos una nueva variable "nuevos_pesos" igual a "bweight"# o mas sencillo a "sort(bweight)" y editamos el valor a mano...
# calculo de estadisticos descriptivos "uno a uno"pmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos,0.25)q3_n=quantile(nuevos_pesos,0.75)rango_n=q3-q1
# escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n # tambien podemos "pinchar" en 'Ver' -> 'Escalares'
Marcos Bujosa
Robustez de la mediana frente a la media en presencia de atpicos 23
La media se ve afectada por datos extremos, pero no la mediana
Ejercicio 13.
(a) Calcule los estadsticos descriptivos de la variable peso
(b) Calcule el rango intercuartlico
(c) Modifique el peso del bebe mas pesado (obs 1013), ponga un peso de 700 kg
(700000)
(d) Calcule de nuevo los estadsticos descriptivos de la variable peso y el rango
intercuartlico
(e) Observe el efecto sobre la media y la mediana
(f) Observe el efecto sobre la varianza y el rango intercuartlico
bweight5.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
La mediana y los cuartiles solo tienen en cuenta el orden, y no la magnitud de los
datos
En presencia de datos anomalos, es mejor usar la mediana y el rango intercuartlico.
# leemos el archivo de datos bweight.gdtopen datos/bweight.gdt
# calculo de estadisticos descriptivos "uno a uno"pmedio=mean(bweight)# o tambien pinchar en 'Anadir' -> 'Definir nueva variable' y escribir "pmedio=mean(bweight)"varianza=var(bweight)# o tambien pinchar en 'Anadir' -> 'Definir nueva variable' y escribir "varianza=var(bweight)"desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight,0.25)q3=quantile(bweight,0.75)rango=q3-q1
# definimos un nuevo peso dato_anomalo=700000
# guardamos el peso del bebe mas grandegordito=max(bweight)
# generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweight,gordito,dato_anomalo)# o defnimos una nueva variable "nuevos_pesos" igual a "bweight"# o mas sencillo a "sort(bweight)" y editamos el valor a mano...
# calculo de estadisticos descriptivos "uno a uno"pmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos,0.25)q3_n=quantile(nuevos_pesos,0.75)rango_n=q3-q1
# escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n # tambien podemos "pinchar" en 'Ver' -> 'Escalares'
Marcos Bujosa
Ejercicios 24
Ejercicio 14.
(a) Usando la funcion quantile del anterior ejercicio calcule unos cuantos percentiles
(los que usted quiera) de la distribucion de pesos de los ninos.
bweight6.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
(b) Haga lo mismo con la variable colesterol. . . si calcula percentiles que esten
proximos (por ejemplo 94, 95, y 96) enseguida notara que esta variable es
discreta. . . (observaciones concentradas en unos pocos puntos).
(c) Compare las distribuciones en los niveles de colesterol entre hombres y mujeres
empleando sendos diagramas de cajas.
cholesterol3.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
# leemos el archivo de datos bweight.gdtopen datos/bweight.gdt
# percentilesp90=quantile(bweight,0.90)p91=quantile(bweight,0.91)
p94=quantile(bweight,0.94)p95=quantile(bweight,0.95)p96=quantile(bweight,0.96)
p97=quantile(bweight,0.97)p98=quantile(bweight,0.98)
p01=quantile(bweight,0.01)
Marcos Bujosa
# leemos el archivo de datos cholesterol.gdtopen datos/cholesterol.gdt
# percentilesp90=quantile(cholest,0.90)p91=quantile(cholest,0.91)
p94=quantile(cholest,0.94)p95=quantile(cholest,0.95)p96=quantile(cholest,0.96)
p97=quantile(cholest,0.97)p98=quantile(cholest,0.98)
# diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output="display"
# estadisticos principalessummary cholest --by=gender
Marcos Bujosa
Ejercicios 25
Ejercicio 15. En distribuciones perfectamente simetricas media y mediana coinciden
(el centro de la distribucion es el mismo con ambos criterios)
Puesto que la mediana solo tiene en cuenta el orden, y no la magnitud de los datos,
un dato anomalo muy muy grande arrastrara la media a la derecha, y aumentara el
coeficiente de asimetra (aumentara la asimetra hacia la derecha).
(a) En tal caso (distribuciones asimetricas hacia la derecha) a que lado de la mediana
esperamos ver a la media?
(b) Y si la distribucion es asimetrica hacia la izquierda?
(c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol). A
la luz de las posiciones relativas de la media (cruz) y la mediana, las distribuciones
tanto para hombre como para mujer son asimetricas hacia. . . Verifique su respuesta
mirando el signo del coeficiente de asimetra de ambas distribuciones
Ejercicios 26
Ejercicio 16. Los datos siguientes expresan el numero de das transcurridos hasta la
primera avera en cierto tipo de electrodomestico:
534 873 435 654 432 984 321 765 453
765 564 982 873 567 871 658 564 399
(a) Calcular la media, desviacion tpica, mediana y rango intercuartlico de las
observaciones.
(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion
en semanas.
(c) Obtener la media, desviacion tpica, mediana y rango intercuartlico de los datos
transformados. Que relacion guardan con los valores originales?
averias.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
averias2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
# leemos el archivo de datos averias.txtopen datos/averias.txt
# estadisticossummary v1 --simpleboxplot v1 --output="display"
# o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1,0.50)q1 = quantile(v1,0.25)q3 = quantile(v1,0.75)rango_inter_q = quantile(v1,0.75) - quantile(v1,0.25)
#trasformamos en semanasgenr v2=v1/7
# y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output="display"
# o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2,0.50)q1_2 = quantile(v2,0.25)q3_2 = quantile(v2,0.75)rango_inter_q_2 = quantile(v2,0.75) - quantile(v2,0.25)
Marcos Bujosa
# leemos el archivo de datos averias.txtopen datos/averias.txt
#trasformamos en semanasgenr v2=v1/7
# estadisticossummary v1 v2 boxplot v1 v2 --output="display"
Marcos Bujosa
Que grafico es mas informativo en el caso de una serie temporal? 27
A modo de resumen. Diagramas de barras e Histogramas 28
Cualitativas Clases definidas
de manera natural. Orden
arbitrario
Cuantitativas discretas Clases
definidas de manera natural.
Orden pre-establecido
Cuantitativas continuas Clases
definidas de arbitraria. Orden
pre-establecido0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
blanca negra otras
Fre
cuen
cia
rela
tiva
Raza de la madre
0
0,02
0,04
0,06
0,08
0,1
120 140 160 180 200
Fre
cuen
cia
rela
tiva
Niveles de colesterol
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
1000 2000 3000 4000 5000
Fre
cuen
cia
rela
tiva
Peso del bebe al nacer (gramos)
A modo de resumen. Diagramas de caja 29
Tablas de contingencia: frecuencia absoluta conjunta y marginal 30
Datos de la poblacion de tu ciudad en miles de personas
renta \ edad joven maduro viejopobre 800 400 600
media 400 1000 200
rico 40 240 320
4000
Frecuencia absoluta conjunta (Distribucion bivariante)
Tablas de contingencia: frecuencia absoluta conjunta y marginal 30
Datos de la poblacion de tu ciudad en miles de personas
renta \ edad joven maduro viejopobre 800 400 600
media 400 1000 200
rico 40 240 320
Nedad 1240 1640 1120 4000
Frecuencia absoluta conjunta (Distribucion bivariante)
Frecuencia absoluta marginal de las edades (Distribucion univariante)
Tablas de contingencia: frecuencia absoluta conjunta y marginal 30
Datos de la poblacion de tu ciudad en miles de personas
renta \ edad joven maduro viejo Nrentapobre 800 400 600 1800
media 400 1000 200 1600
rico 40 240 320 600
Nedad 1240 1640 1120 4000
Frecuencia absoluta conjunta (Distribucion bivariante)
Frecuencia absoluta marginal de las edades (Distribucion univariante)
Frecuencia absoluta marginal de las rentas (Distribucion univariante)
Tablas de contingencia: frecuencia relativa conjunta y marginal 31
renta \ edad joven maduro viejo P1()pobre 0.20 0.10 0.15
media 0.10 0.25 0.05
rico 0.01 0.06 0.08
P2() 1
1. Quien soy?
Tablas de contingencia: frecuencia relativa conjunta y marginal 31
renta \ edad joven maduro viejo P1()pobre 0.20 0.10 0.15
media 0.10 0.25 0.05
rico 0.01 0.06 0.08
P2() 1
1. Quien soy?
2. Que edad tengo?
Tablas de contingencia: frecuencia relativa conjunta y marginal 31
renta \ edad joven maduro viejo P1()pobre 0.20 0.10 0.15
media 0.10 0.25 0.05
rico 0.01 0.06 0.08
P2() 0.31 0.41 0.28 1
1. Quien soy?
2. Que edad tengo?
Tablas de contingencia: frecuencia relativa conjunta y marginal 31
renta \ edad joven maduro viejo P1()pobre 0.20 0.10 0.15
media 0.10 0.25 0.05
rico 0.01 0.06 0.08
P2() 0.31 0.41 0.28 1
1. Quien soy?
2. Que edad tengo?
3. Que renta tengo?
Tablas de contingencia: frecuencia relativa conjunta y marginal 31
renta \ edad joven maduro viejo P1()pobre 0.20 0.10 0.15 0.45
media 0.10 0.25 0.05 0.40
rico 0.01 0.06 0.08 0.15
P2() 0.31 0.41 0.28 1
1. Quien soy?
2. Que edad tengo?
3. Que renta tengo?
Tablas de contingencia: frecuencia relativa conjunta y marginal 31
renta \ edad joven maduro viejo P1()pobre 0.20 0.10 0.15 0.45
media 0.10 0.25 0.05 0.40
rico 0.01 0.06 0.08 0.15
P2() 0.31 0.41 0.28 1
1. Quien soy?
2. Que edad tengo?
3. Que renta tengo?
Tu quedaste bien, pero tu Ferrari esta destrozado. . .
Tablas de contingencia: frecuencia relativa conjunta y marginal 31
renta \ edad joven maduro viejo P1()pobre 0.20 0.10 0.15 0.45
media 0.10 0.25 0.05 0.40
rico 0.01 0.06 0.08 0.15
P2() 0.31 0.41 0.28 1
1. Quien soy?
2. Que edad tengo?
3. Que renta tengo?
Tu quedaste bien, pero tu Ferrari esta destrozado. . .
Distribucion condicionada (Probabilidad de la edad condicionada a ser rico):[0.01 0.06 0.08
]
Tablas de contingencia: frecuencia relativa conjunta y marginal 31
renta \ edad joven maduro viejo P1()pobre 0.20 0.10 0.15 0.45
media 0.10 0.25 0.05 0.40
rico 0.01 0.06 0.08 0.15
P2() 0.31 0.41 0.28 1
1. Quien soy?
2. Que edad tengo?
3. Que renta tengo?
Tu quedaste bien, pero tu Ferrari esta destrozado. . .
Distribucion condicionada (Probabilidad de la edad condicionada a ser rico):[0.01 0.06 0.08
]/ 0.15 =
Tablas de contingencia: frecuencia relativa conjunta y marginal 31
renta \ edad joven maduro viejo P1()pobre 0.20 0.10 0.15 0.45
media 0.10 0.25 0.05 0.40
rico 0.01 0.06 0.08 0.15
P2() 0.31 0.41 0.28 1
1. Quien soy?
2. Que edad tengo?
3. Que renta tengo?
Tu quedaste bien, pero tu Ferrari esta destrozado. . .
Distribucion condicionada (Probabilidad de la edad condicionada a ser rico):[0.01 0.06 0.08
]/ 0.15 =
[0.07 0.40 0.53
]
Ejercicio. Diagrama de dispersion. Distribuciones marginales 32
Ejercicio 17. Abra el conjunto de datos ps2-1 (open ps2-1 o Archivo
->Abrir datos ->Archivo de muestra ->Rammanatham ->data2-1.
calificaciones.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Gretl
(a) Seleccione simultaneamente las variables vsat y msat (calificaciones en lengua
y matematicas)
# leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output="display"#freq msat --output="display" # pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output="display"#freq vsat --output="display" # pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
Marcos Bujosa
Ejercicio. Diagrama de dispersion. Distribuciones marginales 32
Ejercicio 17. Abra el conjunto de datos ps2-1 (open ps2-1 o Archivo
->Abrir datos ->Archivo de muestra ->Rammanatham ->data2-1.
calificaciones.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Gretl
(a) Seleccione simultaneamente las variables vsat y msat (calificaciones en lengua
y matematicas)
(b) Pinche sobre ellas con el boton derecho y seleccione Grafico de dos variables XY
Elija msat para el eje de abscisas (eje x)
(este tipo de grafico se llama diagrama de dispersion)
# leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output="display"#freq msat --output="display" # pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output="display"#freq vsat --output="display" # pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
Marcos Bujosa
Ejercicio. Diagrama de dispersion. Distribuciones marginales 32
Ejercicio 17. Abra el conjunto de datos ps2-1 (open ps2-1 o Archivo
->Abrir datos ->Archivo de muestra ->Rammanatham ->data2-1.
calificaciones.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Gretl
(a) Seleccione simultaneamente las variables vsat y msat (calificaciones en lengua
y matematicas)
(b) Pinche sobre ellas con el boton derecho y seleccione Grafico de dos variables XY
Elija msat para el eje de abscisas (eje x)
(este tipo de grafico se llama diagrama de dispersion)
(c) Seleccione msat, y pinchando sobre ella con el boton derecho genere un grafico
de Distribucion de frecuencias con 45 intervalos
# leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output="display"#freq msat --output="display" # pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output="display"#freq vsat --output="display" # pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
Marcos Bujosa
Ejercicio. Diagrama de dispersion. Distribuciones marginales 32
Ejercicio 17. Abra el conjunto de datos ps2-1 (open ps2-1 o Archivo
->Abrir datos ->Archivo de muestra ->Rammanatham ->data2-1.
calificaciones.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Gretl
(a) Seleccione simultaneamente las variables vsat y msat (calificaciones en lengua
y matematicas)
(b) Pinche sobre ellas con el boton derecho y seleccione Grafico de dos variables XY
Elija msat para el eje de abscisas (eje x)
(este tipo de grafico se llama diagrama de dispersion)
(c) Seleccione msat, y pinchando sobre ella con el boton derecho genere un grafico
de Distribucion de frecuencias con 45 intervalos
(d) Compare ambos graficos. El primero representa la distribucion conjunta, y el
segundo la distribucion marginal de las calificaciones en matematicas.
# leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output="display"#freq msat --output="display" # pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output="display"#freq vsat --output="display" # pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
Marcos Bujosa
Ejercicio. Diagrama de dispersion. Distribuciones marginales 32
Ejercicio 17. Abra el conjunto de datos ps2-1 (open ps2-1 o Archivo
->Abrir datos ->Archivo de muestra ->Rammanatham ->data2-1.
calificaciones.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Gretl
(a) Seleccione simultaneamente las variables vsat y msat (calificaciones en lengua
y matematicas)
(b) Pinche sobre ellas con el boton derecho y seleccione Grafico de dos variables XY
Elija msat para el eje de abscisas (eje x)
(este tipo de grafico se llama diagrama de dispersion)
(c) Seleccione msat, y pinchando sobre ella con el boton derecho genere un grafico
de Distribucion de frecuencias con 45 intervalos
(d) Compare ambos graficos. El primero representa la distribucion conjunta, y el
segundo la distribucion marginal de las calificaciones en matematicas.
(e) Repita el diagrama de dispersion pero con vsat en el eje de abscisas (eje x)
# leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output="display"#freq msat --output="display" # pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output="display"#freq vsat --output="display" # pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
Marcos Bujosa
Ejercicio. Diagrama de dispersion. Distribuciones marginales 32
Ejercicio 17. Abra el conjunto de datos ps2-1 (open ps2-1 o Archivo
->Abrir datos ->Archivo de muestra ->Rammanatham ->data2-1.
calificaciones.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Gretl
(a) Seleccione simultaneamente las variables vsat y msat (calificaciones en lengua
y matematicas)
(b) Pinche sobre ellas con el boton derecho y seleccione Grafico de dos variables XY
Elija msat para el eje de abscisas (eje x)
(este tipo de grafico se llama diagrama de dispersion)
(c) Seleccione msat, y pinchando sobre ella con el boton derecho genere un grafico
de Distribucion de frecuencias con 45 intervalos
(d) Compare ambos graficos. El primero representa la distribucion conjunta, y el
segundo la distribucion marginal de las calificaciones en matematicas.
(e) Repita el diagrama de dispersion pero con vsat en el eje de abscisas (eje x)
(f) Genere un grafico de Distribucion de frecuencias para vsat con 48 intervalos
# leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output="display"#freq msat --output="display" # pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output="display"#freq vsat --output="display" # pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
Marcos Bujosa
Ejercicio. Diagrama de dispersion. Distribuciones marginales 32
Ejercicio 17. Abra el conjunto de datos ps2-1 (open ps2-1 o Archivo
->Abrir datos ->Archivo de muestra ->Rammanatham ->data2-1.
calificaciones.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Gretl
(a) Seleccione simultaneamente las variables vsat y msat (calificaciones en lengua
y matematicas)
(b) Pinche sobre ellas con el boton derecho y seleccione Grafico de dos variables XY
Elija msat para el eje de abscisas (eje x)
(este tipo de grafico se llama diagrama de dispersion)
(c) Seleccione msat, y pinchando sobre ella con el boton derecho genere un grafico
de Distribucion de frecuencias con 45 intervalos
(d) Compare ambos graficos. El primero representa la distribucion conjunta, y el
segundo la distribucion marginal de las calificaciones en matematicas.
(e) Repita el diagrama de dispersion pero con vsat en el eje de abscisas (eje x)
(f) Genere un grafico de Distribucion de frecuencias para vsat con 48 intervalos
(g) Compare los dos ultimos graficos. El primero representa la distribucion conjunta,
y el segundo la distribucion marginal de las calificaciones en lengua. (No cierre)
# leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output="display"#freq msat --output="display" # pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output="display"#freq vsat --output="display" # pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)
Marcos Bujosa
Ejercicio. Distribuciones condicionadas 33
Ejercicio 18. Continuamos con la sesion de Gretl del ejercicio anterior. . . pero ya
puede cerrar los graficos (diagramas de dispersion y barras).
calificaciones2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
(a) Calcule los estadsticos principales de vsat y observe su diagrama de caja de
vsat junto con el resumen numerico (centre su atencion en la calificacion media).
open data2-1 # leemos el archivo de datos data2-1# recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msat>600) vsat (msat>650) --output="display"
summary vsat # estadisticossmpl msat>600 --restrict # restrinjamos la muestrasummary vsat # estadisticossmpl msat>650 --restrict # restrinjamos la muestra mas aunsummary vsat
Marcos Bujosa
Ejercicio. Distribuciones condicionadas 33
Ejercicio 18. Continuamos con la sesion de Gretl del ejercicio anterior. . . pero ya
puede cerrar los graficos (diagramas de dispersion y barras).
calificaciones2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
(a) Calcule los estadsticos principales de vsat y observe su diagrama de caja de
vsat junto con el resumen numerico (centre su atencion en la calificacion media).
(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (msat)
(c) Calcule de nuevo los estadsticos principales de vsat junto con el diagrama de
caja de vsat (y su resumen numerico). Ha cambiado algo?
open data2-1 # leemos el archivo de datos data2-1# recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msat>600) vsat (msat>650) --output="display"
summary vsat # estadisticossmpl msat>600 --restrict # restrinjamos la muestrasummary vsat # estadisticossmpl msat>650 --restrict # restrinjamos la muestra mas aunsummary vsat
Marcos Bujosa
Ejercicio. Distribuciones condicionadas 33
Ejercicio 18. Continuamos con la sesion de Gretl del ejercicio anterior. . . pero ya
puede cerrar los graficos (diagramas de dispersion y barras).
calificaciones2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
(a) Calcule los estadsticos principales de vsat y observe su diagrama de caja de
vsat junto con el resumen numerico (centre su atencion en la calificacion media).
(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (msat)
(c) Calcule de nuevo los estadsticos principales de vsat junto con el diagrama de
caja de vsat (y su resumen numerico). Ha cambiado algo?
(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (msat)
(e) Calcule de nuevo los estadsticos principales de vsat junto con el diagrama de
caja de vsat (y su resumen numerico). Ha cambiado algo?. . . En el mismo
sentido que en el caso anterior?
open data2-1 # leemos el archivo de datos data2-1# recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msat>600) vsat (msat>650) --output="display"
summary vsat # estadisticossmpl msat>600 --restrict # restrinjamos la muestrasummary vsat # estadisticossmpl msat>650 --restrict # restrinjamos la muestra mas aunsummary vsat
Marcos Bujosa
Ejercicio. Distribuciones condicionadas 33
Ejercicio 18. Continuamos con la sesion de Gretl del ejercicio anterior. . . pero ya
puede cerrar los graficos (diagramas de dispersion y barras).
calificaciones2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
(a) Calcule los estadsticos principales de vsat y observe su diagrama de caja de
vsat junto con el resumen numerico (centre su atencion en la calificacion media).
(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (msat)
(c) Calcule de nuevo los estadsticos principales de vsat junto con el diagrama de
caja de vsat (y su resumen numerico). Ha cambiado algo?
(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (msat)
(e) Calcule de nuevo los estadsticos principales de vsat junto con el diagrama de
caja de vsat (y su resumen numerico). Ha cambiado algo?. . . En el mismo
sentido que en el caso anterior?
(f) Dira usted que a los que se les da bien las matematicas no son buenos en
lengua, y viceversa? o por el contrario dira usted que los buenos estudiantes en
una asignatura suelen serlo tambien en otras?
open data2-1 # leemos el archivo de datos data2-1# recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msat>600) vsat (msat>650) --output="display"
summary vsat # estadisticossmpl msat>600 --restrict # restrinjamos la muestrasummary vsat # estadisticossmpl msat>650 --restrict # restrinjamos la muestra mas aunsummary vsat
Marcos Bujosa
Distribuciones absolutas conjunta y marginales. 34
Alturas de padres e hijos
Hijos
Padres < 160 160 164 165 169 170 174 175 179 180 184 185 189 > 190
< 160 4 4 1 9
160 164 2 7 10 3 22165 169 3 20 25 9 4 61170 174 4 18 26 30 19 1 98175 179 2 17 22 20 4 1 66180 184 5 15 17 8 2 47185 189 1 4 2 1 8> 190 1 1
6 18 51 76 77 64 16 4 3121
Distribuciones conjuntas. Distribuciones condicionadas. 35
Alturas de padres e hijos
Hijos
Padres < 160 160 164 165 169 170 174 175 179 180 184 185 189 > 190
< 160 0.013 0.013 0.003 0.029
160 164 0.006 0.022 0.032 0.010 0.070165 169 0.010 0.064 0.080 0.028 0.013 0.195170 174 0.013 0.058 0.083 0.096 0.061 0.003 0.314175 179 0.006 0.054 0.070 0.064 0.013 0.003 0.212180 184 0.016 0.048 0.054 0.026 0.006 0.151185 189 0.003 0.013 0.006 0.003 0.026> 190 0.003 0.003
0.019 0.058 0.163 0.244 0.247 0.205 0.051 0.013 1
Distribuciones conjuntas. Distribuciones condicionadas. 35
Alturas de padres e hijos
Hijos
Padres < 160 160 164 165 169 170 174 175 179 180 184 185 189 > 190
< 160 0.013 0.013 0.003 0.029
160 164 0.006 0.022 0.032 0.010 0.070165 169 0.010 0.064 0.080 0.028 0.013 0.195170 174 0.013 0.058 0.083 0.096 0.061 0.003 0.314175 179 0.006 0.054 0.070 0.064 0.013 0.003 0.212180 184 0.016 0.048 0.054 0.026 0.006 0.151185 189 0.003 0.013 0.006 0.003 0.026> 190 0.003 0.003
0.019 0.058 0.163 0.244 0.247 0.205 0.051 0.013 1
Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169:
Padres < 160 160 164 165 169 170 174 175 179 180 184 185 189 > 190
165 169 0.049 0.328 0.410 0.148 0.065
Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184
Padres < 160 160 164 165 169 170 174 175 179 180 184 185 189 > 190
185 189 0.059 0.255 0.510 0.117 0.059
(Regresion a la media)
Ejercicio. Diagrama de dispersion y relaciones entre variables 36
Diagrama de dispersion, nube de puntos o scatter.
Ejercicio 19. Cargue los datos de estatura entre padres e hijos
(estatura padre hijo.gdt)
estaturas.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
(a) Realice un diagrama de dispersion con la altura de los padres en el eje X
(b) Observe que la relacion entre alturas es aproximadamente lineal
# leemos el archivo de datos estatura_padre_hijo.gdtopen datos/estatura_padre_hijo.gdt# diagrama de dispersionscatters Estatura_Hijo; Estatura_Padre --output="display"# o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output="display"# otra forma es marcar las dos series y desplegar el menu # (pulsando boton derecho sobre ellas) y despues seleccionar # 'Grafico de dos variables XY' (pinchando el grafico, este se puede editar)
Marcos Bujosa
Ejercicio. Diagrama de dispersion y relaciones entre variables 37
Ejercicio 20. Cargue los datos de ventas (ventas.txt)
ventas.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
(a) Realice un grafico de las ventas, su histograma y diagrama de caja observa alguna
pauta?. . .
open datos/ventas.txtgenr index # agregamos variable "indice" para dibujar las "Ventas" de cada vendedor# grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output="display"boxplot Ventas --output="display"freq Ventas # Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output="display"
Marcos Bujosa
open datos/ventas2.txtgnuplot Ventas Antig --suppress-fitted --output="display" # Diagrama de dispersion
Marcos Bujosa
Ejercicio. Diagrama de dispersion y relaciones entre variables 37
Ejercicio 20. Cargue los datos de ventas (ventas.txt)
ventas.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
(a) Realice un grafico de las ventas, su histograma y diagrama de caja observa alguna
pauta?. . .
(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama
de dispersion entre ventas y antiguedad (con Antig en eje de abscisas (X))
(c) observa alguna relacion entre antiguedad y ventas? de que tipo?
open datos/ventas.txtgenr index # agregamos variable "indice" para dibujar las "Ventas" de cada vendedor# grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output="display"boxplot Ventas --output="display"freq Ventas # Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output="display"
Marcos Bujosa
open datos/ventas2.txtgnuplot Ventas Antig --suppress-fitted --output="display" # Diagrama de dispersion
Marcos Bujosa
Ejercicio. Diagrama de dispersion y relaciones entre variables 37
Ejercicio 20. Cargue los datos de ventas (ventas.txt)
ventas.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
(a) Realice un grafico de las ventas, su histograma y diagrama de caja observa alguna
pauta?. . .
(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama
de dispersion entre ventas y antiguedad (con Antig en eje de abscisas (X))
(c) observa alguna relacion entre antiguedad y ventas? de que tipo?
Ejercicio 21. Cargue los datos ventas2 correspondientes a otra empresa
(ventas2.txt)
ventas2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Gretl
(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad.
(b) Que diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)?
open datos/ventas.txtgenr index # agregamos variable "indice" para dibujar las "Ventas" de cada vendedor# grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output="display"boxplot Ventas --output="display"freq Ventas # Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output="display"
Marcos Bujosa
open datos/ventas2.txtgnuplot Ventas Antig --suppress-fitted --output="display" # Diagrama de dispersion
Marcos Bujosa
Media y varianza condicionadas 38
VentasMCondS2Cond
0
50
100
150
200
250
10 20 30 40 50 60 70
Ven
tas
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentas.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
include EstadCond.inp # cargamos la funcion "EstadCond"open datos/ventas.txt # cargamos los datos de "ventas"# calculamos los estadisticos de "Ventas" en intervalos de la variable "Antig" # (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(Ventas,Antig,10)
Marcos Bujosa
Media y varianza condicionadas 39
Ventas (izquierda)MCond (izquierda)S2Cond (derecha)
0
200
400
600
800
1000
1200
1400
1600
10 20 30 40 50 60 700
10000
20000
30000
40000
50000
60000V
enta
s
Var
ian
zaco
nd
icio
na
da
Antiguedad
Media y varianza por intervalos (condicionandas)
EstCondVentas2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Gretl
include EstadCond.inp # cargamos la funcion "EstadCond"open datos/ventas2.txt # cargamos los datos de "ventas2"# calculamos los estadisticos de "Ventas" en intervalos de la variable "Antig" # (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(Ventas,Antig,10)
Marcos Bujosa
ejercicios 40
Reproduzcamos los dos graficos anteriores:
Ejercicio 22. Abra el conjunto de datos ps2-1 (open ps2-1 o Archivo
->Abrir datos ->Archivo de muestra ->Rammanatham ->ps2-1.
calificaciones3.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
(a) Calcule la media en la nota en lengua, condicionada a las calificaciones en
matematicas (en intervalos de 100 puntos por ejemplo).
(b) Calcule la media en la nota en matematicas, condicionada a las calificaciones en
lengua.
(c) Dira usted que a los que se les da bien las matematicas no son buenos en
lengua, y viceversa? o por el contrario dira usted que los buenos estudiantes en
una asignatura suelen serlo tambien en otras?
include EstadCond.inp # cargamos la funcion "EstadCond"open data2-1 # cargamos los datos de las calificacionesEstadCond(vsat,msat,100) # media lengua condicionada a nota en matesEstadCond(msat,vsat,100) # media en mates condicionada a nota en lengua
Marcos Bujosa
Diagramas de dispersion y relacion entre variables 41
La nubes de puntos sugieren la posible existencia de relaciones entre variables.
Diagramas de dispersion y relacion entre variables 42
Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables:
1. Relacion lineal positiva
2. Relacion lineal negativa
3. Relacion lineal aparente, pero debida a observaciones atpicas
4. Relacion no lineal
5. Sin relacion aparente entre las variables
Primer intento de medicion de asociacion lineal entre variables: Covarianza 43
cov(x, y) =
(xi x)(yi y)
N
y
x
Est
atu
rad
elh
ijo
(y)
Estatura del padre (x)
Estaturas de nueve personas junto con las de sus padres
Covarianza 44
cov(x, y) =
(xi x)(yi y)
N
Mide el grado de asociacion lineal entre dos variable x e y.
Si es grande y positivo, fuerte asociacion lineal directa
Si es grande en valor absoluto y negativo, fuerte asociacion lineal inversa
Covarianza 44
cov(x, y) =
(xi x)(yi y)
N
Mide el grado de asociacion lineal entre dos variable x e y.
Si es grande y positivo, fuerte asociacion lineal directa
Si es grande en valor absoluto y negativo, fuerte asociacion lineal inversa
pero. . . que significa grande?
Covarianza 44
cov(x, y) =
(xi x)(yi y)
N
Mide el grado de asociacion lineal entre dos variable x e y.
Si es grande y positivo, fuerte asociacion lineal directa
Si es grande en valor absoluto y negativo, fuerte asociacion lineal inversa
pero. . . que significa grande?
La covarianza depende de las unidades de medida de x e y.
La covarianza depende de la dispersion de x e y.
Covarianza 44
cov(x, y) =
(xi x)(yi y)
N
Mide el grado de asociacion lineal entre dos variable x e y.
Si es grande y positivo, fuerte asociacion lineal directa
Si es grande en valor absoluto y negativo, fuerte asociacion lineal inversa
pero. . . que significa grande?
La covarianza depende de las unidades de medida de x e y.
La covarianza depende de la dispersion de x e y.
Es necesaria una normalizacion
Segundo intento de medicion de asociacion lineal entre variables: Correlacion 45
Coef. correlacion de Pearson: x,y =cov(x, y)
sxsy; 1 cor(x, y) 1
Ahora grande significa proximo a uno en valor absoluto.
Ejercicios 46
Ejercicio 23. Cargue los datos estatura padre hijo.gdt
estaturas2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
(a) Calcule la covarianza, la correlacion y genere el diagrama de dispersion de las
alturas (padrehijo).
# leemos el archivo de datos estatura_padre_hijo.gdtopen datos/estatura_padre_hijo.gdtcov_ph=cov(Estatura_Hijo, Estatura_Padre)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph=corr(Estatura_Hijo, Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output="display"
# en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0, Padre0)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph0=corr(Hijo0, Padre0)gnuplot Hijo0 Padre0 --output="display"
# en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0*100series Padre0cm=Padre0*100cov_ph0_cm=cov(Hijo0cm, Padre0cm)*($nobs-1)/$nobs corr_ph0_cm=corr(Hijo0cm, Padre0cm)gnuplot Hijo0cm Padre0cm --output="display"
# en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo0*1000series Padre0mm=Padre0*1000cov_ph0_mm=cov(Hijo0mm, Padre0mm)*($nobs-1)/$nobs corr_ph0_mm=corr(Hijo0mm, Padre0mm)gnuplot Estatura_Hijo Padre0mm --output="display"
print cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm
# Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_Hijo,Hijo0cm)*($nobs-1)/$nobs corr_hh0cm=corr(Estatura_Hijo,Hijo0cm)gnuplot Estatura_Hijo Hijo0cm --output="display"
print cov_hh0cm corr_hh0cm
Marcos Bujosa
Ejercicios 46
Ejercicio 23. Cargue los datos estatura padre hijo.gdt
estaturas2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
(a) Calcule la covarianza, la correlacion y genere el diagrama de dispersion de las
alturas (padrehijo).
(b) Transforme las alturas en desviaciones respecto a la media.
# leemos el archivo de datos estatura_padre_hijo.gdtopen datos/estatura_padre_hijo.gdtcov_ph=cov(Estatura_Hijo, Estatura_Padre)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph=corr(Estatura_Hijo, Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output="display"
# en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0, Padre0)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph0=corr(Hijo0, Padre0)gnuplot Hijo0 Padre0 --output="display"
# en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0*100series Padre0cm=Padre0*100cov_ph0_cm=cov(Hijo0cm, Padre0cm)*($nobs-1)/$nobs corr_ph0_cm=corr(Hijo0cm, Padre0cm)gnuplot Hijo0cm Padre0cm --output="display"
# en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo0*1000series Padre0mm=Padre0*1000cov_ph0_mm=cov(Hijo0mm, Padre0mm)*($nobs-1)/$nobs corr_ph0_mm=corr(Hijo0mm, Padre0mm)gnuplot Estatura_Hijo Padre0mm --output="display"
print cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm
# Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_Hijo,Hijo0cm)*($nobs-1)/$nobs corr_hh0cm=corr(Estatura_Hijo,Hijo0cm)gnuplot Estatura_Hijo Hijo0cm --output="display"
print cov_hh0cm corr_hh0cm
Marcos Bujosa
Ejercicios 46
Ejercicio 23. Cargue los datos estatura padre hijo.gdt
estaturas2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
(a) Calcule la covarianza, la correlacion y genere el diagrama de dispersion de las
alturas (padrehijo).
(b) Transforme las alturas en desviaciones respecto a la media.
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el
diagrama de dispersion).
# leemos el archivo de datos estatura_padre_hijo.gdtopen datos/estatura_padre_hijo.gdtcov_ph=cov(Estatura_Hijo, Estatura_Padre)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph=corr(Estatura_Hijo, Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output="display"
# en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0, Padre0)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph0=corr(Hijo0, Padre0)gnuplot Hijo0 Padre0 --output="display"
# en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0*100series Padre0cm=Padre0*100cov_ph0_cm=cov(Hijo0cm, Padre0cm)*($nobs-1)/$nobs corr_ph0_cm=corr(Hijo0cm, Padre0cm)gnuplot Hijo0cm Padre0cm --output="display"
# en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo0*1000series Padre0mm=Padre0*1000cov_ph0_mm=cov(Hijo0mm, Padre0mm)*($nobs-1)/$nobs corr_ph0_mm=corr(Hijo0mm, Padre0mm)gnuplot Estatura_Hijo Padre0mm --output="display"
print cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm
# Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_Hijo,Hijo0cm)*($nobs-1)/$nobs corr_hh0cm=corr(Estatura_Hijo,Hijo0cm)gnuplot Estatura_Hijo Hijo0cm --output="display"
print cov_hh0cm corr_hh0cm
Marcos Bujosa
Ejercicios 46
Ejercicio 23. Cargue los datos estatura padre hijo.gdt
estaturas2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
(a) Calcule la covarianza, la correlacion y genere el diagrama de dispersion de las
alturas (padrehijo).
(b) Transforme las alturas en desviaciones respecto a la media.
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el
diagrama de dispersion).
(d) Transforme las alturas en desviaciones a centmetros (cm); y calcule otra vez la
covarianza y la correlacion (y pinte otro diagrama de dispersion).
# leemos el archivo de datos estatura_padre_hijo.gdtopen datos/estatura_padre_hijo.gdtcov_ph=cov(Estatura_Hijo, Estatura_Padre)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph=corr(Estatura_Hijo, Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output="display"
# en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0, Padre0)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph0=corr(Hijo0, Padre0)gnuplot Hijo0 Padre0 --output="display"
# en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0*100series Padre0cm=Padre0*100cov_ph0_cm=cov(Hijo0cm, Padre0cm)*($nobs-1)/$nobs corr_ph0_cm=corr(Hijo0cm, Padre0cm)gnuplot Hijo0cm Padre0cm --output="display"
# en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo0*1000series Padre0mm=Padre0*1000cov_ph0_mm=cov(Hijo0mm, Padre0mm)*($nobs-1)/$nobs corr_ph0_mm=corr(Hijo0mm, Padre0mm)gnuplot Estatura_Hijo Padre0mm --output="display"
print cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm
# Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_Hijo,Hijo0cm)*($nobs-1)/$nobs corr_hh0cm=corr(Estatura_Hijo,Hijo0cm)gnuplot Estatura_Hijo Hijo0cm --output="display"
print cov_hh0cm corr_hh0cm
Marcos Bujosa
Ejercicios 46
Ejercicio 23. Cargue los datos estatura padre hijo.gdt
estaturas2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
(a) Calcule la covarianza, la correlacion y genere el diagrama de dispersion de las
alturas (padrehijo).
(b) Transforme las alturas en desviaciones respecto a la media.
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el
diagrama de dispersion).
(d) Transforme las alturas en desviaciones a centmetros (cm); y calcule otra vez la
covarianza y la correlacion (y pinte otro diagrama de dispersion).
(e) Transforme las alturas en desviaciones a milmetros (mm); y calcule de nuevo
covarianza, correlacion y la nube de puntos.
# leemos el archivo de datos estatura_padre_hijo.gdtopen datos/estatura_padre_hijo.gdtcov_ph=cov(Estatura_Hijo, Estatura_Padre)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph=corr(Estatura_Hijo, Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output="display"
# en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0, Padre0)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph0=corr(Hijo0, Padre0)gnuplot Hijo0 Padre0 --output="display"
# en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0*100series Padre0cm=Padre0*100cov_ph0_cm=cov(Hijo0cm, Padre0cm)*($nobs-1)/$nobs corr_ph0_cm=corr(Hijo0cm, Padre0cm)gnuplot Hijo0cm Padre0cm --output="display"
# en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo0*1000series Padre0mm=Padre0*1000cov_ph0_mm=cov(Hijo0mm, Padre0mm)*($nobs-1)/$nobs corr_ph0_mm=corr(Hijo0mm, Padre0mm)gnuplot Estatura_Hijo Padre0mm --output="display"
print cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm
# Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_Hijo,Hijo0cm)*($nobs-1)/$nobs corr_hh0cm=corr(Estatura_Hijo,Hijo0cm)gnuplot Estatura_Hijo Hijo0cm --output="display"
print cov_hh0cm corr_hh0cm
Marcos Bujosa
Ejercicios 46
Ejercicio 23. Cargue los datos estatura padre hijo.gdt
estaturas2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
(a) Calcule la covarianza, la correlacion y genere el diagrama de dispersion de las
alturas (padrehijo).
(b) Transforme las alturas en desviaciones respecto a la media.
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el
diagrama de dispersion).
(d) Transforme las alturas en desviaciones a centmetros (cm); y calcule otra vez la
covarianza y la correlacion (y pinte otro diagrama de dispersion).
(e) Transforme las alturas en desviaciones a milmetros (mm); y calcule de nuevo
covarianza, correlacion y la nube de puntos.
(f) Compare los valores de las covarianzas y las correlaciones.
# leemos el archivo de datos estatura_padre_hijo.gdtopen datos/estatura_padre_hijo.gdtcov_ph=cov(Estatura_Hijo, Estatura_Padre)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph=corr(Estatura_Hijo, Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output="display"
# en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0, Padre0)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph0=corr(Hijo0, Padre0)gnuplot Hijo0 Padre0 --output="display"
# en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0*100series Padre0cm=Padre0*100cov_ph0_cm=cov(Hijo0cm, Padre0cm)*($nobs-1)/$nobs corr_ph0_cm=corr(Hijo0cm, Padre0cm)gnuplot Hijo0cm Padre0cm --output="display"
# en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo0*1000series Padre0mm=Padre0*1000cov_ph0_mm=cov(Hijo0mm, Padre0mm)*($nobs-1)/$nobs corr_ph0_mm=corr(Hijo0mm, Padre0mm)gnuplot Estatura_Hijo Padre0mm --output="display"
print cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm
# Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_Hijo,Hijo0cm)*($nobs-1)/$nobs corr_hh0cm=corr(Estatura_Hijo,Hijo0cm)gnuplot Estatura_Hijo Hijo0cm --output="display"
print cov_hh0cm corr_hh0cm
Marcos Bujosa
Ejercicios 46
Ejercicio 23. Cargue los datos estatura padre hijo.gdt
estaturas2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
(a) Calcule la covarianza, la correlacion y genere el diagrama de dispersion de las
alturas (padrehijo).
(b) Transforme las alturas en desviaciones respecto a la media.
(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el
diagrama de dispersion).
(d) Transforme las alturas en desviaciones a centmetros (cm); y calcule otra vez la
covarianza y la correlacion (y pinte otro diagrama de dispersion).
(e) Transforme las alturas en desviaciones a milmetros (mm); y calcule de nuevo
covarianza, correlacion y la nube de puntos.
(f) Compare los valores de las covarianzas y las correlaciones.
(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales
de los hijos, con su version en desviaciones en centmetros (y pinte el diagrama
de dispersion).
# leemos el archivo de datos estatura_padre_hijo.gdtopen datos/estatura_padre_hijo.gdtcov_ph=cov(Estatura_Hijo, Estatura_Padre)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph=corr(Estatura_Hijo, Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output="display"
# en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0, Padre0)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph0=corr(Hijo0, Padre0)gnuplot Hijo0 Padre0 --output="display"
# en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0*100series Padre0cm=Padre0*100cov_ph0_cm=cov(Hijo0cm, Padre0cm)*($nobs-1)/$nobs corr_ph0_cm=corr(Hijo0cm, Padre0cm)gnuplot Hijo0cm Padre0cm --output="display"
# en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo0*1000series Padre0mm=Padre0*1000cov_ph0_mm=cov(Hijo0mm, Padre0mm)*($nobs-1)/$nobs corr_ph0_mm=corr(Hijo0mm, Padre0mm)gnuplot Estatura_Hijo Padre0mm --output="display"
print cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm
# Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_Hijo,Hijo0cm)*($nobs-1)/$nobs corr_hh0cm=corr(Estatura_Hijo,Hijo0cm)gnuplot Estatura_Hijo Hijo0cm --output="display"
print cov_hh0cm corr_hh0cm
Marcos Bujosa
Correlacion y heterogeneidad 47
-2
-1
0
1
2
3
4
5
6
1 2 3 4 5 6 7
y
x
Datos heterogeneos (dato atpico)
Correlacion y heterogeneidad 47
-2
-1
0
1
2
3
4
5
6
1 2 3 4 5 6 7
y
x
Datos heterogeneos (dato atpico)
300
350
400
450
500
550
600
650
30 40 50 60 70 80 90 100 110 120p
reci
osuperficie
Datos heterogenos
Ejercicios 48
Ejercicio 24. Cargue los datos CorrHeterogeneidad1.gdt
CorrHeterogeneidad1.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
open datos/CorrHeterogeneidad1.gdtrho=corr(x,y)gnuplot y x --output="display"smpl 1 5rho2=corr(x,y)gnuplot y x --output="display"print rho rho2
Marcos Bujosa
Ejercicios 48
Ejercicio 24. Cargue los datos CorrHeterogeneidad1.gdt
CorrHeterogeneidad1.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera que no incluya el ultimo dato
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Compare los coeficientes de correlacion
open datos/CorrHeterogeneidad1.gdtrho=corr(x,y)gnuplot y x --output="display"smpl 1 5rho2=corr(x,y)gnuplot y x --output="display"print rho rho2
Marcos Bujosa
Ejercicios 49
Ejercicio 25. Cargue los datos PrecioPisos.gdt
CorrHeterogeneidad2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
open datos/PrecioPisos.gdtrho=corr(precio,sup)gnuplot precio sup --output="display"smpl barrio_ciudad=1 --restrictrho1=corr(precio,sup)gnuplot precio sup --output="display"smpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(precio,sup)gnuplot precio sup --output="display"print rho rho1 rho2
Marcos Bujosa
Ejercicios 49
Ejercicio 25. Cargue los datos PrecioPisos.gdt
CorrHeterogeneidad2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera solo incluya pisos de la zona 1
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
open datos/PrecioPisos.gdtrho=corr(precio,sup)gnuplot precio sup --output="display"smpl barrio_ciudad=1 --restrictrho1=corr(precio,sup)gnuplot precio sup --output="display"smpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(precio,sup)gnuplot precio sup --output="display"print rho rho1 rho2
Marcos Bujosa
Ejercicios 49
Ejercicio 25. Cargue los datos PrecioPisos.gdt
CorrHeterogeneidad2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
(a) Calcule el coeficiente de correlacion y el diagrama de dispersion
(b) Reduzca la muestra de manera solo incluya pisos de la zona 1
(c) Calcule el coeficiente de correlacion y el diagrama de dispersion
(d) Reduzca la muestra de manera solo incluya pisos de la zona 2
(e) Calcule el coeficiente de correlacion y el diagrama de dispersion
(f) Compare los coeficientes de correlacion
open datos/PrecioPisos.gdtrho=corr(precio,sup)gnuplot precio sup --output="display"smpl barrio_ciudad=1 --restrictrho1=corr(precio,sup)gnuplot precio sup --output="display"smpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(precio,sup)gnuplot precio sup --output="display"print rho rho1 rho2
Marcos Bujosa
Correlacion y causalidad. Correlaciones espurias 50
Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo.
Es sensata la siguiente conclusion:?
Hoy llovera porque lo han dicho en las noticias
Correlacion y causalidad. Correlaciones espurias 50
Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo.
Es sensata la siguiente conclusion:?
Hoy llovera porque lo han dicho en las noticias
Temperatura media en Madrid y n de bodas
N de ciguenas observadas cada mes y numero de nacimientos en zonas rurales
de Alemania
Numero de emisoras de radio en cada ciudad y casos de locura
Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
o que la muestra presente poca variabilidad
300
350
400
450
500
550
600
650
700
750
800
82 84 86 88 90 92 94 96 98
pre
cio
superficie
Precio - superficie (pisos de 80 a 100 metros)
Correlacion pequena o nula no significa ausencia de relacion 51
puede ser que haya una relacion no lineal
o que la muestra presente poca variabilidad
300
350
400
450
500
550
600
650
700
750
800
82 84 86 88 90 92 94 96 98
pre
cio
superficie
Precio - superficie (pisos de 80 a 100 metros)
0
200
400
600
800
1000
1200
1400
1600
50 100 150 200 250 300 350
pre
cio
superficie
Precio - superficie (muestra ampliada)
Ejercicios 52
Ejercicio 26. Cargue los datos PrecioPisos2.gdt
pisos2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
open datos/PrecioPisos2.gdtsmpl superficie >= 80 --restrictsmpl superficie < 100 --restrictrho_80_100=corr(precio,superficie)gnuplot precio superficie --output="display"
smpl fullrho=corr(precio,superficie)gnuplot precio superficie --output="display"
print rho rho_80_100
Marcos Bujosa
Ejercicios 52
Ejercicio 26. Cargue los datos PrecioPisos2.gdt
pisos2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados
(b) Calcule el coeficiente de correlacion y el diagrama de dispersion
(c) Recupere la muestra completa y repita los calculos
(d) Compare los coeficientes de correlacion
open datos/PrecioPisos2.gdtsmpl superficie >= 80 --restrictsmpl superficie < 100 --restrictrho_80_100=corr(precio,superficie)gnuplot precio superficie --output="display"
smpl fullrho=corr(precio,superficie)gnuplot precio superficie --output="display"
print rho rho_80_100
Marcos Bujosa
Ejercicios 53
Ejercicio 27. Indicar cual de las dos variables de los siguentes pares es la variable
dependiente y si la relacion es positiva o negativa:
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicios 53
Ejercicio 27. Indicar cual de las dos variables de los siguentes pares es la variable
dependiente y si la relacion es positiva o negativa:
(a) Potencia de un coche y precio
(b) Peso de una persona y estatura
(c) Consumo de tabaco y duracion de vida
Ejercicio 28.
(a) Cual sera el coeficiente de correlacion entre las edades de los conyuges si las
mujeres siempre se casaran con un hombre dos anos mayor que ellas?
(b) Y si lo hiciesen con hombres que son cinco anos mayores?
Ejercicios 54
Ejercicio 29. El coeficiente de correlacion entre la estatura y el peso para un grupo
de estudiantes es de 0,7. Si consideramos por separado hombres y mujeres, este
coeficiente debera ser:
mas alto
mas bajo
aproximadamente igual
Justifique la respuesta.
Bibliografa
Pena, D. y Romo, J. (1997). Introduccion a la Estadstica para la Ciencias Sociales.
McGraw-Hill, Madrid. ISBN 84-481-1617-8. 9
Transparencias
1 [T-1] Introduccion: Por que modelar?
2 [T-2] El objetivo de la econometra
3 [T-3] Poblacion y variable estadstica
4 [T-4] Variables estadsticas cualitativas
5 [T-5] Variables estadsticas cuantitativas
6 [T-6] Ejercicios
7 [T-7] Tipos de datos en funcion del ndice
8 [T-8] Descripcion de variables cualitativas. Ejemplo de distribucion de frecuencias
9 [T-9] Ejercicios
10 [T-10] Descripcion de variables cuantitativas discretas: distribucion de frecuencias
11 [T-11] Descripcion de variables cuantitativas continuas: distribucion de frecuencias (Histograma)
12 [T-12] Ejercicios
13 [T-13] Histograma y caractersticas de la distribucion
14 [T-14] Ejercicios
15 [T-15] Ejercicios
16 [T-16] Ejercicios
17 [T-17] Ejercicios
18 [T-18] Mediana
19 [T-19] Cuartiles, Rango, rango intercuartlico
20 [T-20] Diagrama de cajas
21 [T-21] Ejercicio
22 [T-22] Diagramas de cajas con distintos bigotes
23 [T-23] Robustez de la mediana frente a la media en presencia de atpicos
24 [T-24] Ejercicios
25 [T-25] Ejercicios
26 [T-26] Ejercicios
27 [T-27] Que grafico es mas informativo en el caso de una serie temporal?
28 [T-28] A modo de resumen. Diagramas de barras e Histogramas
29 [T-29] A modo de resumen. Diagramas de caja
30 [T-30] Tablas de contingencia: frecuencia absoluta conjunta y marginal
31 [T-31] Tablas de contingencia: frecuencia relativa conjunta y marginal
32 [T-32] Ejercicio. Diagrama de dispersion. Distribuciones marginales
33 [T-33] Ejercicio. Distribuciones condicionadas
34 [T-34] Distribuciones absolutas conjunta y marginales.
35 [T-35] Distribuciones conjuntas. Distribuciones condicionadas.
36 [T-36] Ejercicio. Diagrama de dispersion y relaciones entre variables
37 [T-37] Ejercicio. Diagrama de dispersion y relaciones entre variables
38 [T-38] Media y varianza condicionadas
39 [T-39] Media y varianza condicionadas
40 [T-40] ejercicios
41 [T-41] Diagramas de dispersion y relacion entre variables
42 [T-42] Diagramas de dispersion y relacion entre variables
43 [T-43] Primer intento de medicion de asociacion lineal entre variables: Covarianza
44 [T-44] Covarianza
45 [T-45] Segundo intento de medicion de asociacion lineal entre variables: Correlacion
46 [T-46] Ejercicios
47 [T-47] Correlacion y heterogeneidad
48 [T-48] Ejercicios
49 [T-49] Ejercicios
50 [T-50] Correlacion y causalidad. Correlaciones espurias
51 [T-51] Correlacion pequena o nula no significa ausencia de relacion
52 [T-52] Ejercicios
53 [T-53] Ejercicios
54 [T-54] Ejercicios
Tabla de Contenido1 [T-1] Introduccin: Por qu modelar?2 [T-2] El objetivo de la econometra3 [T-3] Poblacin y variable estadstica4 [T-4] Variables estadsticas cualitativas5 [T-5] Variables estadsticas cuantitativas6 [T-6] Ejercicios7 [T-7] Tipos de datos en funcin del ndice8 [T-8] Descripcin de variables cualitativas. Ejemplo de distribucin de frecuencias9 [T-9] Ejercicios10 [T-10] Descripcin de variables cuantitativas discretas: distribucin de frecuencias11 [T-11] Descripcin de variables cuantitativas continuas: distribucin de frecuencias (Histograma)12 [T-12] Ejercicios13 [T-13] Histograma y caractersticas de la distribucin14 [T-14] Ejercicios15 [T-15] Ejercicios16 [T-16] Ejercicios17 [T-17] Ejercicios18 [T-18] Mediana19 [T-19] Cuartiles, Rango, rango intercuartlico 20 [T-20] Diagrama de cajas21 [T-21] Ejercicio22 [T-22] Diagramas de cajas con distintos bigotes23 [T-23] Robustez de la mediana frente a la media en presencia de atpicos24 [T-24] Ejercicios25 [T-25] Ejercicios26 [T-26] Ejercicios27 [T-27] Qu grfico es ms informativo en el caso de una serie temporal?28 [T-28] A modo de resumen. Diagramas de barras e Histogramas29 [T-29] A modo de resumen. Diagramas de caja30 [T-30] Tablas de contingencia: frecuencia absoluta conjunta y marginal31 [T-31] Tablas de contingencia: frecuencia relativa conjunta y marginal32 [T-32] Ejercicio. Diagrama de dispersin. Distribuciones marginales33 [T-33] Ejercicio. Distribuciones condicionadas34 [T-34] Distribuciones absolutas conjunta y marginales.35 [T-35] Distribuciones conjuntas. Distribuciones condicionadas.36 [T-36] Ejercicio. Diagrama de dispersin y relaciones entre variables37 [T-37] Ejercicio. Diagrama de dispersin y relaciones entre variables38 [T-38] Media y varianza condicionadas39 [T-39] Media y varianza condicionadas40 [T-40] ejercicios41 [T-41] Diagramas de dispersin y relacin entre variables42 [T-42] Diagramas de dispersin y relacin entre variables43 [T-43] Primer intento de medicion de asociacin lineal entre variables: Covarianza44 [T-44] Covarianza45 [T-45] Segundo intento de medicion de asociacin lineal entre variables: Correlacin46 [T-46] Ejercicios47 [T-47] Correlacin y heterogeneidad48 [T-48] Ejercicios49 [T-49] Ejercicios50 [T-50] Correlacin y causalidad. Correlaciones espurias51 [T-51] Correlacin pequea o nula no significa ausencia de relacin52 [T-52] Ejercicios53 [T-53] Ejercicios54 [T-54] EjerciciosBibliografaTransparencias
Top Related