Download - EconometriaGRADO T1 Screen

Transcript

Dpto. de Economa CuantitativaUniversidad Complutense de Madrid

ECONOMETRIAIntroduccion a la econometra; y analisis grafico

y estadstico de relaciones

Marcos Bujosa

Trasparencias de clase para la asignatura econometra de los

grados en Economa y Administracion y Direccion de Empresas

de la Universidad Complutense de Madrid.

20102012 Marcos Bujosa [email protected]

Actualizado el: 8 de marzo de 2012 Version 0.1.03
Copyright 20102012 Marcos Bujosa [email protected]

Este material docente se distribuye bajo la Creative Commons Attribution-Share Alike 3.0 Spain. Para ver una copia de esta licencia, visite http://creativecommons.

org/licenses/by-sa/3.0/es/.
Tabla de Contenido

Bibliografa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

Transparencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
Introduccion: Por que modelar? 1

Modelado consiste en intentar ajustar un modelo matematico a un conjunto de datos

(la muestra)
Introduccion: Por que modelar? 1

Modelado consiste en intentar ajustar un modelo matematico a un conjunto de datos

(la muestra)

El modelo sera util, si resulta mas simple que los datos que representa
Introduccion: Por que modelar? 1

Modelado consiste en intentar ajustar un modelo matematico a un conjunto de datos

(la muestra)

El modelo sera util, si resulta mas simple que los datos que representa, pero captura

las caractersticas mas interesantes de los datos.
Introduccion: Por que modelar? 1

Modelado consiste en intentar ajustar un modelo matematico a un conjunto de datos

(la muestra)

El modelo sera util, si resulta mas simple que los datos que representa, pero captura

las caractersticas mas interesantes de los datos.

Se pueden construir modelos para satisfacer diferentes necesidades, tales como:

Estimacion

Prevision

Simulacion

Control
El objetivo de la econometra 2

Econometra aplica inferencia estadstica en modelos economicos.
El objetivo de la econometra 2

Econometra aplica inferencia estadstica en modelos economicos. Objetivos:

Estimacion; por ejemplo

sensibilidad de un valor financiero a movimientos de un ndice de

referencia, para evaluar su exposicion al riesgo y cobertura con

derivados sobre el ndice
El objetivo de la econometra 2

Econometra aplica inferencia estadstica en modelos economicos. Objetivos:

Estimacion; por ejemplo

sensibilidad de un valor financiero a movimientos de un ndice de

referencia, para evaluar su exposicion al riesgo y cobertura con

derivados sobre el ndice

Previsiones; por ejemplo,

probabilidad de incumplimiento futuro de un prestamo, en funcion de

las caractersticas de la operacion y del solicitante
El objetivo de la econometra 2

Econometra aplica inferencia estadstica en modelos economicos. Objetivos:

Estimacion; por ejemplo

sensibilidad de un valor financiero a movimientos de un ndice de

referencia, para evaluar su exposicion al riesgo y cobertura con

derivados sobre el ndice

Previsiones; por ejemplo,

probabilidad de incumplimiento futuro de un prestamo, en funcion de

las caractersticas de la operacion y del solicitante

Simulacion; por ejemplo

rendimiento de una cartera de valores en diferentes escenarios
El objetivo de la econometra 2

Econometra aplica inferencia estadstica en modelos economicos. Objetivos:

Estimacion; por ejemplo

sensibilidad de un valor financiero a movimientos de un ndice de

referencia, para evaluar su exposicion al riesgo y cobertura con

derivados sobre el ndice

Previsiones; por ejemplo,

probabilidad de incumplimiento futuro de un prestamo, en funcion de

las caractersticas de la operacion y del solicitante

Simulacion; por ejemplo

rendimiento de una cartera de valores en diferentes escenarios

control; por ejemplo,

bancos centrales: nivel de tipos de intervencion para controlar la

inflacion
Poblacion y variable estadstica 3

Poblacion El universo de objetos estudiados

Conjunto de hogares; alumnos de un curso; automoviles fabricados este ano. . .
Poblacion y variable estadstica 3

Poblacion El universo de objetos estudiados

Conjunto de hogares; alumnos de un curso; automoviles fabricados este ano. . .

Variable estadstica Cada rasgo o caracterstica de los elementos de la poblacion.

Gasto anual en alimentacion; color de ojos; consumo de combustible por km. . .
Poblacion y variable estadstica 3

Poblacion El universo de objetos estudiados

Conjunto de hogares; alumnos de un curso; automoviles fabricados este ano. . .

Variable estadstica Cada rasgo o caracterstica de los elementos de la poblacion.

Gasto anual en alimentacion; color de ojos; consumo de combustible por km. . .

cualitativas El rasgo descrito no es de naturaleza numerica

color de ojos, sexo, nombre de la empresa. . .

cuantitativas El rasgo es numerico

peso, temperatura, ingresos anuales, precio. . .
Variables estadsticas cualitativas 4

Con cierta frecuencia las variables cualitativas se expresan con numeros

nominales La asignacion de numeros a las categoras es arbitraria

mujer=1, hombre=0; Europa=1, EEUU=2; Japon=3; Otros=4. . .

ordinales Indican un orden

producto preferido=3, siguiente en preferencia=2, menos deseado=1

En ambos casos las operaciones aritmeticas entre estos numeros carecen de sentido
Variables estadsticas cuantitativas 5

discretas Suelen ser el resultado de contar

n de descendientes de una pareja, lavadoras producidas. . .

continuas Suelen ser medidas y tener decimales

temperatura, peso, superficie de una vivienda. . .
Ejercicios 6

Ejercicio 1. Clasificar las siguientes variables

(a) Temperatura maxima diaria

(b) Numero de dorsal de la camiseta de los jugadores de un equipo de baloncesto

(c) Calificacion obtenida en un examen

(d) Marca de refresco consumido

(e) Codigo postal que aparece en una carta

(f) Estado civil de una persona

(g) Salario

(Pena y Romo, 1997, ejercicio 2.1 de la seccion 2.6.)

Ejercicio 2. Se plantea un estudio para ordenar las cien mayores empresas de un

pas. Determinar razonadamente tres variables en que basar la clasificacion. Que tipo

de variables es cada una de ellas?

(Pena y Romo, 1997, ejercicio 2.5 de la seccion 2.6.)
Tipos de datos en funcion del ndice 7

Seccion cruzada

Datos temporales (series de tiempo)

Datos de panel
Descripcion de variables cualitativas. Ejemplo de distribucion de frecuencias 8

Fichero de datos bweight.gdt

Poblacion: Mujeres gestantes y sus bebes recien nacidos

Muestra: N = 1832 mujeres

Variable estadstica: raza

Numero de categoras; k = 3

1 = raza blanca; 2 =raza negra; 3=otras razas
Descripcion de variables cualitativas. Ejemplo de distribucion de frecuencias 8

Fichero de datos bweight.gdt

Poblacion: Mujeres gestantes y sus bebes recien nacidos

Muestra: N = 1832 mujeres

Variable estadstica: raza

Numero de categoras; k = 3

1 = raza blanca; 2 =raza negra; 3=otras razas

k ni ni/N diagrama de barras

1 1624 88,65 % *******************************

2 109 5,95 % **

3 99 5,40 % *
Descripcion de variables cualitativas. Ejemplo de distribucion de frecuencias 8

Fichero de datos bweight.gdt

Poblacion: Mujeres gestantes y sus bebes recien nacidos

Muestra: N = 1832 mujeres

Variable estadstica: raza

Numero de categoras; k = 3

1 = raza blanca; 2 =raza negra; 3=otras razas

k ni ni/N diagrama de barras

1 1624 88,65 % *******************************

2 109 5,95 % **

3 99 5,40 % *

Moda La clase de mayor frecuencia
Ejercicios 9

Ejercicio 3. Con Gretl abra el fichero de datos bweight.gdt,

(a) genere un diagrama de barras, y observe las frecuencias absolutas y relativas de

la variable raza de la madre

(b) Cual es la moda en esta distribucion?

bweight.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Gretl

# leemos el archivo de datos bweight.gdtopen datos/bweight.gdt# o pinchando en 'Archivo' -> 'Abrir datos' -> 'Archivo de usuario'

# generamos un diagrama de fecuencias de la variable 'race' freq race # tambien lo podemos hacer asifreq 2# ya que 'race' tiene asignado el numero 2; # o pinchando con el boton derecho sobre 'race', y selecionando 'Distribucion de frecuencias'

Marcos Bujosa
Descripcion de variables cuantitativas discretas: distribucion de frecuencias 10

Ejercicio 4. Con Gretl abra el fichero de datos cholesterol.gdt,

(a) genere un diagrama de barras, y observe las frecuencias absolutas, relativas, y

acumuladas del nivel de colesterol en la sangre de los individuos de la muestra

(cholest).

(b) Cual es la moda en esta distribucion?

(c) genere un diagrama de barras, y observe las frecuencias absolutas, y relativas de

los sexos de los individuos de la muestra (gender).

(d) Cual es el tamano de la muestra?

cholesterol.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

# leemos el archivo de datos cholesterol.gdtopen datos/cholesterol.gdt# o pinchando en 'Archivo' -> 'Abrir datos' -> 'Archivo de usuario'

# generamos un diagrama de fecuencias de la variable 'cholest' freq cholest# tambien lo podemos hacer asifreq 1# o pinchando con el boton derecho sobre 'cholest', y selecionando 'Distribucion de frecuencias'

# diagrama de frecuencias del genero de los individuos de la muestrafreq gender

Marcos Bujosa
Descripcion de variables cuantitativas continuas: distribucion de frecuencias (Histograma) 11

Este caso es mas complejo, ya que las clases no estan definidas de manera natural

Hay que dividir el recorrido de la muestra en intervalos no solapados

El punto central de cada intervalo se denomina marca de clase ci

Representamos por

n1, n2, . . . , nk

el n de observaciones en cada clase (en cada intervalo).

Las definiciones de frecuencias absolutas, relativas y acumuladas son identicas

al caso anterior
Ejercicios 12

Ejercicio 5. Con Gretl abra el fichero de datos bweight.gdt,

(a) genere un histograma de la variable peso del bebe al nacer (bweight), y observe

las frecuencias absolutas y relativas

(b) Cuanto ninos pesaron al nacer mas de 2003.5 gramos y menos de 2349.5?

(c) Que porcentaje de ninos pesaron al nacer mas de 2003.5 gramos y menos de

2349.5?

(d) Empleando la interfaz grafica genere un histograma con 7 clases o intervalos,

(e) Genere otro histograma mas con 75 intervalos. Observe las frecuencias de los

intervalos en este caso. Si tuviera que anunciar un peso como el mas frecuente

al nacer que peso dira?

bweight2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

# leemos el archivo de datos bweight.gdtopen datos/bweight.gdt

# generamos un histograma de la variable 'bweight' freq bweight

# hagalo de nuevo pinchando con el boton derecho sobre 'bweight', y selecionando # 'Distribucion de frecuencias'.# Seleccione el numero de intervalos y# desmarque la opcion 'mostrar el grafico' si quiere ver las distribuciones # de frecuencias absolutas, relativas y acumuladas.

Marcos Bujosa
Histograma y caractersticas de la distribucion 13

El histograma pone de relieve rasgos de la variable como son la simetra, si es unimodal,

o bimodal, etc.
Ejercicios 14

Ejercicio 6.

(a) En el dibujo que distribuciones son simetricas? Cual es

asimetrica hacia la izquierda (o negativamente asimetrica)? Cuales son

unimodales? Cuales bimodales?

(b) Simetrica o asimetrica? unimodal o bimodal?
Ejercicios 15

Ejercicio 7.

(a) Que variable tiene una media mayor? la roja o la azul?

(b) Que distribucion tiene una mayor desviacion tpica? La verde

o la azul?
Ejercicios 16

Ejercicio 8. Mire cual es la media, y la desviacion tpica del peso de los recien

nacidos del ejercicio anterior.

bweight3.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

(a) Coincide la media con el peso mas frecuente al nacer que usted encontro?

(b) Cual es el maximo peso registrado en la muestra? Y el mnimo?

(c) Tiene sentido calcular estos estadsticos en el caso de la variable race?

(d) En el caso de los datos de colesterol; para que variable tiene sentido calcular los

estadsticos, y para cual no?

# leemos el archivo de datos bweight.gdtopen datos/bweight.gdt

# estadisticos principalessummary bweight

# tambien vale con indicar el numero de la variable (1 en este caso)summary 1# otra forma es pinchando con el boton derecho sobre 'bweight', y selecionando # 'Estadisticos descriptivos'.

Marcos Bujosa
Ejercicios 17

Ejercicio 9. Coteje los estadsticos descriptivos de los datos de peso de recien nacidos

y de niveles de colesterol con sus respectivos histogramas o diagramas de frecuencia.

Ejercicio 10. Con Gretl abra el fichero de datos cholesterol.gdt. Vamos a ver las

diferencias en los niveles de colesterol entre lo hombres y las mujeres de la muestra.

(a) Restrinja la muestra a los datos de las mujeres (gender=1)

Genere un diagrama de barras, y observe los estadsticos descriptivos relativos a

los niveles de colesterol (cholest).

No cierre las ventanas del diagrama y los estadsticos descriptivos de la

distribucion.

(b) Restaure la muestra inicial y repita de nuevo los pasos, pero ahora para los hombres

(gender=0)

(c) Compare ambas distribuciones Hay diferencias?

cholesterol2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

# leemos el archivo de datos cholesterol.gdtopen datos/cholesterol.gdt# o pinchando en 'Archivo' -> 'Abrir datos' -> 'Archivo de usuario'

# restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict # Tambien podemos restringir la muestra abriendo el menu # despleglabe 'Muestra' -> 'Restringir a partir de criterio'# y escribiendo en la ventana que se abre # gender = 1

# informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest

# restauramos la muestra completasmpl full# Para restaurar la muestra tambien podemo abrir el menu # despleglabe 'Muestra' y pinchar en 'Recuperar el rango completo'.

# restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict

# informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest

Marcos Bujosa
Mediana 18

Mediana El centro de los datos (otra medida de posicion)

El dato (o datos) que separa la muestra (ordenada de menor a mayor) en dos

grupos con igual numero de elementos
Mediana 18

Mediana El centro de los datos (otra medida de posicion)

El dato (o datos) que separa la muestra (ordenada de menor a mayor) en dos

grupos con igual numero de elementos

Ejercicio 11.

(a) Cual es el peso mediano en la muestra de recien nacidos?

(b) Coincide con el peso medio?

ZCodigo: bweight3.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl
Cuartiles, Rango, rango intercuartlico 19

La mediana divide en dos mitades el conjunto ordenado de observaciones

(separa los datos mas pequenos de los mayores)

Primer cuartil Q1 Es la mediana de la primera mitad (divide en dos los datos menores)

Tercer cuartil Q3 Es la mediana de la segunda mitad (divide en dos los datos mayores)
Cuartiles, Rango, rango intercuartlico 19

La mediana divide en dos mitades el conjunto ordenado de observaciones

(separa los datos mas pequenos de los mayores)

Primer cuartil Q1 Es la mediana de la primera mitad (divide en dos los datos menores)

Tercer cuartil Q3 Es la mediana de la segunda mitad (divide en dos los datos mayores)

Si usted ha tenido hijos seguramente ya sabra que son los percentiles. . .
Cuartiles, Rango, rango intercuartlico 19

La mediana divide en dos mitades el conjunto ordenado de observaciones

(separa los datos mas pequenos de los mayores)

Primer cuartil Q1 Es la mediana de la primera mitad (divide en dos los datos menores)

Tercer cuartil Q3 Es la mediana de la segunda mitad (divide en dos los datos mayores)

Si usted ha tenido hijos seguramente ya sabra que son los percentiles. . .

Rango Diferencia entre la observacion mas grande y la mas pequena

Rango intercuartlico Diferencia entre el tercer y el primer cuartil

Ambos rangos son medidas de dispersion (como la varianza, la desviacion tpica y el

coeficiente de variacion)
Diagrama de cajas 20

El diagrama de caja (boxplot) es un grafico que representa los valores maximo,

mnimo, la mediana y los cuartiles
Ejercicio 21

Ejercicio 12.

(a) Genere un diagrama de cajas de la variable peso de los recien nacidos.

(b) Compruebe los cuartiles en la muestra (pinchando en el grafico).

(c) Compruebe que el rango es de casi 5 kilos! pero el rango intercuartlico es de

menos de 700 gramos.

(d) Genere un grafico con tres diagramas de cajas de la variable peso, uno por cada

grupo de ninos con madres de raza distinta (observe el resumen numerico)

bweight4.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

# leemos el archivo de datos bweight.gdtopen datos/bweight.gdt

# diagrama de cajasboxplot bweight --output="display"# Gretl tambien entenderia lo siguiente: # boxplot 1# (la opcion '--output="display" ' solo es necesaria para ejecutar un scrip en ``batch'').# Tambien es posible pinchar con el boton derecho sobre la variable # y seleccionar -> 'Grafico de cajas'

# Pinchando con el boton derecho sobre el grafico puede seleccionar en el# menu desplagable -> 'resumen numerico' para ver los valores numericos

# Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output="display" # Tecleando # boxplot bweight (race=1) bweight (race=2) bweight (race=3)# realizaria lo mismo

Marcos Bujosa
Diagramas de cajas con distintos bigotes 22
Diagramas de cajas con distintos bigotes 22
Robustez de la mediana frente a la media en presencia de atpicos 23

La media se ve afectada por datos extremos, pero no la mediana

# leemos el archivo de datos bweight.gdtopen datos/bweight.gdt

# calculo de estadisticos descriptivos "uno a uno"pmedio=mean(bweight)# o tambien pinchar en 'Anadir' -> 'Definir nueva variable' y escribir "pmedio=mean(bweight)"varianza=var(bweight)# o tambien pinchar en 'Anadir' -> 'Definir nueva variable' y escribir "varianza=var(bweight)"desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight,0.25)q3=quantile(bweight,0.75)rango=q3-q1

# definimos un nuevo peso dato_anomalo=700000

# guardamos el peso del bebe mas grandegordito=max(bweight)

# generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweight,gordito,dato_anomalo)# o defnimos una nueva variable "nuevos_pesos" igual a "bweight"# o mas sencillo a "sort(bweight)" y editamos el valor a mano...

# calculo de estadisticos descriptivos "uno a uno"pmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos,0.25)q3_n=quantile(nuevos_pesos,0.75)rango_n=q3-q1

# escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n # tambien podemos "pinchar" en 'Ver' -> 'Escalares'

Marcos Bujosa
Robustez de la mediana frente a la media en presencia de atpicos 23

La media se ve afectada por datos extremos, pero no la mediana

Ejercicio 13.

(a) Calcule los estadsticos descriptivos de la variable peso

(b) Calcule el rango intercuartlico

(c) Modifique el peso del bebe mas pesado (obs 1013), ponga un peso de 700 kg

(700000)

(d) Calcule de nuevo los estadsticos descriptivos de la variable peso y el rango

intercuartlico

(e) Observe el efecto sobre la media y la mediana

(f) Observe el efecto sobre la varianza y el rango intercuartlico

bweight5.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

# leemos el archivo de datos bweight.gdtopen datos/bweight.gdt

# calculo de estadisticos descriptivos "uno a uno"pmedio=mean(bweight)# o tambien pinchar en 'Anadir' -> 'Definir nueva variable' y escribir "pmedio=mean(bweight)"varianza=var(bweight)# o tambien pinchar en 'Anadir' -> 'Definir nueva variable' y escribir "varianza=var(bweight)"desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight,0.25)q3=quantile(bweight,0.75)rango=q3-q1

# definimos un nuevo peso dato_anomalo=700000

# guardamos el peso del bebe mas grandegordito=max(bweight)

# generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweight,gordito,dato_anomalo)# o defnimos una nueva variable "nuevos_pesos" igual a "bweight"# o mas sencillo a "sort(bweight)" y editamos el valor a mano...

# calculo de estadisticos descriptivos "uno a uno"pmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos,0.25)q3_n=quantile(nuevos_pesos,0.75)rango_n=q3-q1

# escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n # tambien podemos "pinchar" en 'Ver' -> 'Escalares'

Marcos Bujosa
Robustez de la mediana frente a la media en presencia de atpicos 23

La media se ve afectada por datos extremos, pero no la mediana

Ejercicio 13.

(a) Calcule los estadsticos descriptivos de la variable peso

(b) Calcule el rango intercuartlico

(c) Modifique el peso del bebe mas pesado (obs 1013), ponga un peso de 700 kg

(700000)

(d) Calcule de nuevo los estadsticos descriptivos de la variable peso y el rango

intercuartlico

(e) Observe el efecto sobre la media y la mediana

(f) Observe el efecto sobre la varianza y el rango intercuartlico

bweight5.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

La mediana y los cuartiles solo tienen en cuenta el orden, y no la magnitud de los

datos

En presencia de datos anomalos, es mejor usar la mediana y el rango intercuartlico.

# leemos el archivo de datos bweight.gdtopen datos/bweight.gdt

# calculo de estadisticos descriptivos "uno a uno"pmedio=mean(bweight)# o tambien pinchar en 'Anadir' -> 'Definir nueva variable' y escribir "pmedio=mean(bweight)"varianza=var(bweight)# o tambien pinchar en 'Anadir' -> 'Definir nueva variable' y escribir "varianza=var(bweight)"desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight,0.25)q3=quantile(bweight,0.75)rango=q3-q1

# definimos un nuevo peso dato_anomalo=700000

# guardamos el peso del bebe mas grandegordito=max(bweight)

# generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweight,gordito,dato_anomalo)# o defnimos una nueva variable "nuevos_pesos" igual a "bweight"# o mas sencillo a "sort(bweight)" y editamos el valor a mano...

# calculo de estadisticos descriptivos "uno a uno"pmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos,0.25)q3_n=quantile(nuevos_pesos,0.75)rango_n=q3-q1

# escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n # tambien podemos "pinchar" en 'Ver' -> 'Escalares'

Marcos Bujosa
Ejercicios 24

Ejercicio 14.

(a) Usando la funcion quantile del anterior ejercicio calcule unos cuantos percentiles

(los que usted quiera) de la distribucion de pesos de los ninos.

bweight6.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

(b) Haga lo mismo con la variable colesterol. . . si calcula percentiles que esten

proximos (por ejemplo 94, 95, y 96) enseguida notara que esta variable es

discreta. . . (observaciones concentradas en unos pocos puntos).

(c) Compare las distribuciones en los niveles de colesterol entre hombres y mujeres

empleando sendos diagramas de cajas.

cholesterol3.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

# leemos el archivo de datos bweight.gdtopen datos/bweight.gdt

# percentilesp90=quantile(bweight,0.90)p91=quantile(bweight,0.91)

p94=quantile(bweight,0.94)p95=quantile(bweight,0.95)p96=quantile(bweight,0.96)

p97=quantile(bweight,0.97)p98=quantile(bweight,0.98)

p01=quantile(bweight,0.01)

Marcos Bujosa

# leemos el archivo de datos cholesterol.gdtopen datos/cholesterol.gdt

# percentilesp90=quantile(cholest,0.90)p91=quantile(cholest,0.91)

p94=quantile(cholest,0.94)p95=quantile(cholest,0.95)p96=quantile(cholest,0.96)

p97=quantile(cholest,0.97)p98=quantile(cholest,0.98)

# diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output="display"

# estadisticos principalessummary cholest --by=gender

Marcos Bujosa
Ejercicios 25

Ejercicio 15. En distribuciones perfectamente simetricas media y mediana coinciden

(el centro de la distribucion es el mismo con ambos criterios)

Puesto que la mediana solo tiene en cuenta el orden, y no la magnitud de los datos,

un dato anomalo muy muy grande arrastrara la media a la derecha, y aumentara el

coeficiente de asimetra (aumentara la asimetra hacia la derecha).

(a) En tal caso (distribuciones asimetricas hacia la derecha) a que lado de la mediana

esperamos ver a la media?

(b) Y si la distribucion es asimetrica hacia la izquierda?

(c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol). A

la luz de las posiciones relativas de la media (cruz) y la mediana, las distribuciones

tanto para hombre como para mujer son asimetricas hacia. . . Verifique su respuesta

mirando el signo del coeficiente de asimetra de ambas distribuciones
Ejercicios 26

Ejercicio 16. Los datos siguientes expresan el numero de das transcurridos hasta la

primera avera en cierto tipo de electrodomestico:

534 873 435 654 432 984 321 765 453

765 564 982 873 567 871 658 564 399

(a) Calcular la media, desviacion tpica, mediana y rango intercuartlico de las

observaciones.

(b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion

en semanas.

(c) Obtener la media, desviacion tpica, mediana y rango intercuartlico de los datos

transformados. Que relacion guardan con los valores originales?

averias.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

averias2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

# leemos el archivo de datos averias.txtopen datos/averias.txt

# estadisticossummary v1 --simpleboxplot v1 --output="display"

# o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1,0.50)q1 = quantile(v1,0.25)q3 = quantile(v1,0.75)rango_inter_q = quantile(v1,0.75) - quantile(v1,0.25)

#trasformamos en semanasgenr v2=v1/7

# y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output="display"

# o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2,0.50)q1_2 = quantile(v2,0.25)q3_2 = quantile(v2,0.75)rango_inter_q_2 = quantile(v2,0.75) - quantile(v2,0.25)

Marcos Bujosa

# leemos el archivo de datos averias.txtopen datos/averias.txt

#trasformamos en semanasgenr v2=v1/7

# estadisticossummary v1 v2 boxplot v1 v2 --output="display"

Marcos Bujosa
Que grafico es mas informativo en el caso de una serie temporal? 27
A modo de resumen. Diagramas de barras e Histogramas 28

Cualitativas Clases definidas

de manera natural. Orden

arbitrario

Cuantitativas discretas Clases

definidas de manera natural.

Orden pre-establecido

Cuantitativas continuas Clases

definidas de arbitraria. Orden

pre-establecido0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

blanca negra otras

Fre

cuen

cia

rela

tiva

Raza de la madre

0

0,02

0,04

0,06

0,08

0,1

120 140 160 180 200

Fre

cuen

cia

rela

tiva

Niveles de colesterol

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

1000 2000 3000 4000 5000

Fre

cuen

cia

rela

tiva

Peso del bebe al nacer (gramos)
A modo de resumen. Diagramas de caja 29
Tablas de contingencia: frecuencia absoluta conjunta y marginal 30

Datos de la poblacion de tu ciudad en miles de personas

renta \ edad joven maduro viejopobre 800 400 600

media 400 1000 200

rico 40 240 320

4000

Frecuencia absoluta conjunta (Distribucion bivariante)
Tablas de contingencia: frecuencia absoluta conjunta y marginal 30

Datos de la poblacion de tu ciudad en miles de personas

renta \ edad joven maduro viejopobre 800 400 600

media 400 1000 200

rico 40 240 320

Nedad 1240 1640 1120 4000

Frecuencia absoluta conjunta (Distribucion bivariante)

Frecuencia absoluta marginal de las edades (Distribucion univariante)
Tablas de contingencia: frecuencia absoluta conjunta y marginal 30

Datos de la poblacion de tu ciudad en miles de personas

renta \ edad joven maduro viejo Nrentapobre 800 400 600 1800

media 400 1000 200 1600

rico 40 240 320 600

Nedad 1240 1640 1120 4000

Frecuencia absoluta conjunta (Distribucion bivariante)

Frecuencia absoluta marginal de las edades (Distribucion univariante)

Frecuencia absoluta marginal de las rentas (Distribucion univariante)
Tablas de contingencia: frecuencia relativa conjunta y marginal 31

renta \ edad joven maduro viejo P1()pobre 0.20 0.10 0.15

media 0.10 0.25 0.05

rico 0.01 0.06 0.08

P2() 1

1. Quien soy?
Tablas de contingencia: frecuencia relativa conjunta y marginal 31

renta \ edad joven maduro viejo P1()pobre 0.20 0.10 0.15

media 0.10 0.25 0.05

rico 0.01 0.06 0.08

P2() 1

1. Quien soy?

2. Que edad tengo?
Tablas de contingencia: frecuencia relativa conjunta y marginal 31

renta \ edad joven maduro viejo P1()pobre 0.20 0.10 0.15

media 0.10 0.25 0.05

rico 0.01 0.06 0.08

P2() 0.31 0.41 0.28 1

1. Quien soy?

2. Que edad tengo?
Tablas de contingencia: frecuencia relativa conjunta y marginal 31

renta \ edad joven maduro viejo P1()pobre 0.20 0.10 0.15

media 0.10 0.25 0.05

rico 0.01 0.06 0.08

P2() 0.31 0.41 0.28 1

1. Quien soy?

2. Que edad tengo?

3. Que renta tengo?
Tablas de contingencia: frecuencia relativa conjunta y marginal 31

renta \ edad joven maduro viejo P1()pobre 0.20 0.10 0.15 0.45

media 0.10 0.25 0.05 0.40

rico 0.01 0.06 0.08 0.15

P2() 0.31 0.41 0.28 1

1. Quien soy?

2. Que edad tengo?

3. Que renta tengo?
Tablas de contingencia: frecuencia relativa conjunta y marginal 31

renta \ edad joven maduro viejo P1()pobre 0.20 0.10 0.15 0.45

media 0.10 0.25 0.05 0.40

rico 0.01 0.06 0.08 0.15

P2() 0.31 0.41 0.28 1

1. Quien soy?

2. Que edad tengo?

3. Que renta tengo?

Tu quedaste bien, pero tu Ferrari esta destrozado. . .
Tablas de contingencia: frecuencia relativa conjunta y marginal 31

renta \ edad joven maduro viejo P1()pobre 0.20 0.10 0.15 0.45

media 0.10 0.25 0.05 0.40

rico 0.01 0.06 0.08 0.15

P2() 0.31 0.41 0.28 1

1. Quien soy?

2. Que edad tengo?

3. Que renta tengo?

Tu quedaste bien, pero tu Ferrari esta destrozado. . .

Distribucion condicionada (Probabilidad de la edad condicionada a ser rico):[0.01 0.06 0.08

]
Tablas de contingencia: frecuencia relativa conjunta y marginal 31

renta \ edad joven maduro viejo P1()pobre 0.20 0.10 0.15 0.45

media 0.10 0.25 0.05 0.40

rico 0.01 0.06 0.08 0.15

P2() 0.31 0.41 0.28 1

1. Quien soy?

2. Que edad tengo?

3. Que renta tengo?

Tu quedaste bien, pero tu Ferrari esta destrozado. . .

Distribucion condicionada (Probabilidad de la edad condicionada a ser rico):[0.01 0.06 0.08

]/ 0.15 =
Tablas de contingencia: frecuencia relativa conjunta y marginal 31

renta \ edad joven maduro viejo P1()pobre 0.20 0.10 0.15 0.45

media 0.10 0.25 0.05 0.40

rico 0.01 0.06 0.08 0.15

P2() 0.31 0.41 0.28 1

1. Quien soy?

2. Que edad tengo?

3. Que renta tengo?

Tu quedaste bien, pero tu Ferrari esta destrozado. . .

Distribucion condicionada (Probabilidad de la edad condicionada a ser rico):[0.01 0.06 0.08

]/ 0.15 =

[0.07 0.40 0.53

]
Ejercicio. Diagrama de dispersion. Distribuciones marginales 32

Ejercicio 17. Abra el conjunto de datos ps2-1 (open ps2-1 o Archivo

->Abrir datos ->Archivo de muestra ->Rammanatham ->data2-1.

calificaciones.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Gretl

(a) Seleccione simultaneamente las variables vsat y msat (calificaciones en lengua

y matematicas)

# leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output="display"#freq msat --output="display" # pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output="display"#freq vsat --output="display" # pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa
Ejercicio. Diagrama de dispersion. Distribuciones marginales 32

Ejercicio 17. Abra el conjunto de datos ps2-1 (open ps2-1 o Archivo

->Abrir datos ->Archivo de muestra ->Rammanatham ->data2-1.

calificaciones.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Gretl

(a) Seleccione simultaneamente las variables vsat y msat (calificaciones en lengua

y matematicas)

(b) Pinche sobre ellas con el boton derecho y seleccione Grafico de dos variables XY

Elija msat para el eje de abscisas (eje x)

(este tipo de grafico se llama diagrama de dispersion)

# leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output="display"#freq msat --output="display" # pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output="display"#freq vsat --output="display" # pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa
Ejercicio. Diagrama de dispersion. Distribuciones marginales 32

Ejercicio 17. Abra el conjunto de datos ps2-1 (open ps2-1 o Archivo

->Abrir datos ->Archivo de muestra ->Rammanatham ->data2-1.

calificaciones.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Gretl

(a) Seleccione simultaneamente las variables vsat y msat (calificaciones en lengua

y matematicas)

(b) Pinche sobre ellas con el boton derecho y seleccione Grafico de dos variables XY

Elija msat para el eje de abscisas (eje x)

(este tipo de grafico se llama diagrama de dispersion)

(c) Seleccione msat, y pinchando sobre ella con el boton derecho genere un grafico

de Distribucion de frecuencias con 45 intervalos

# leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output="display"#freq msat --output="display" # pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output="display"#freq vsat --output="display" # pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa
Ejercicio. Diagrama de dispersion. Distribuciones marginales 32

Ejercicio 17. Abra el conjunto de datos ps2-1 (open ps2-1 o Archivo

->Abrir datos ->Archivo de muestra ->Rammanatham ->data2-1.

calificaciones.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Gretl

(a) Seleccione simultaneamente las variables vsat y msat (calificaciones en lengua

y matematicas)

(b) Pinche sobre ellas con el boton derecho y seleccione Grafico de dos variables XY

Elija msat para el eje de abscisas (eje x)

(este tipo de grafico se llama diagrama de dispersion)

(c) Seleccione msat, y pinchando sobre ella con el boton derecho genere un grafico

de Distribucion de frecuencias con 45 intervalos

(d) Compare ambos graficos. El primero representa la distribucion conjunta, y el

segundo la distribucion marginal de las calificaciones en matematicas.

# leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output="display"#freq msat --output="display" # pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output="display"#freq vsat --output="display" # pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa
Ejercicio. Diagrama de dispersion. Distribuciones marginales 32

Ejercicio 17. Abra el conjunto de datos ps2-1 (open ps2-1 o Archivo

->Abrir datos ->Archivo de muestra ->Rammanatham ->data2-1.

calificaciones.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Gretl

(a) Seleccione simultaneamente las variables vsat y msat (calificaciones en lengua

y matematicas)

(b) Pinche sobre ellas con el boton derecho y seleccione Grafico de dos variables XY

Elija msat para el eje de abscisas (eje x)

(este tipo de grafico se llama diagrama de dispersion)

(c) Seleccione msat, y pinchando sobre ella con el boton derecho genere un grafico

de Distribucion de frecuencias con 45 intervalos

(d) Compare ambos graficos. El primero representa la distribucion conjunta, y el

segundo la distribucion marginal de las calificaciones en matematicas.

(e) Repita el diagrama de dispersion pero con vsat en el eje de abscisas (eje x)

# leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output="display"#freq msat --output="display" # pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output="display"#freq vsat --output="display" # pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa
Ejercicio. Diagrama de dispersion. Distribuciones marginales 32

Ejercicio 17. Abra el conjunto de datos ps2-1 (open ps2-1 o Archivo

->Abrir datos ->Archivo de muestra ->Rammanatham ->data2-1.

calificaciones.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Gretl

(a) Seleccione simultaneamente las variables vsat y msat (calificaciones en lengua

y matematicas)

(b) Pinche sobre ellas con el boton derecho y seleccione Grafico de dos variables XY

Elija msat para el eje de abscisas (eje x)

(este tipo de grafico se llama diagrama de dispersion)

(c) Seleccione msat, y pinchando sobre ella con el boton derecho genere un grafico

de Distribucion de frecuencias con 45 intervalos

(d) Compare ambos graficos. El primero representa la distribucion conjunta, y el

segundo la distribucion marginal de las calificaciones en matematicas.

(e) Repita el diagrama de dispersion pero con vsat en el eje de abscisas (eje x)

(f) Genere un grafico de Distribucion de frecuencias para vsat con 48 intervalos

# leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output="display"#freq msat --output="display" # pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output="display"#freq vsat --output="display" # pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa
Ejercicio. Diagrama de dispersion. Distribuciones marginales 32

Ejercicio 17. Abra el conjunto de datos ps2-1 (open ps2-1 o Archivo

->Abrir datos ->Archivo de muestra ->Rammanatham ->data2-1.

calificaciones.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Gretl

(a) Seleccione simultaneamente las variables vsat y msat (calificaciones en lengua

y matematicas)

(b) Pinche sobre ellas con el boton derecho y seleccione Grafico de dos variables XY

Elija msat para el eje de abscisas (eje x)

(este tipo de grafico se llama diagrama de dispersion)

(c) Seleccione msat, y pinchando sobre ella con el boton derecho genere un grafico

de Distribucion de frecuencias con 45 intervalos

(d) Compare ambos graficos. El primero representa la distribucion conjunta, y el

segundo la distribucion marginal de las calificaciones en matematicas.

(e) Repita el diagrama de dispersion pero con vsat en el eje de abscisas (eje x)

(f) Genere un grafico de Distribucion de frecuencias para vsat con 48 intervalos

(g) Compare los dos ultimos graficos. El primero representa la distribucion conjunta,

y el segundo la distribucion marginal de las calificaciones en lengua. (No cierre)

# leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output="display"#freq msat --output="display" # pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output="display"#freq vsat --output="display" # pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

Marcos Bujosa
Ejercicio. Distribuciones condicionadas 33

Ejercicio 18. Continuamos con la sesion de Gretl del ejercicio anterior. . . pero ya

puede cerrar los graficos (diagramas de dispersion y barras).

calificaciones2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

(a) Calcule los estadsticos principales de vsat y observe su diagrama de caja de

vsat junto con el resumen numerico (centre su atencion en la calificacion media).

open data2-1 # leemos el archivo de datos data2-1# recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msat>600) vsat (msat>650) --output="display"

summary vsat # estadisticossmpl msat>600 --restrict # restrinjamos la muestrasummary vsat # estadisticossmpl msat>650 --restrict # restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa
Ejercicio. Distribuciones condicionadas 33

Ejercicio 18. Continuamos con la sesion de Gretl del ejercicio anterior. . . pero ya

puede cerrar los graficos (diagramas de dispersion y barras).

calificaciones2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

(a) Calcule los estadsticos principales de vsat y observe su diagrama de caja de

vsat junto con el resumen numerico (centre su atencion en la calificacion media).

(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (msat)

(c) Calcule de nuevo los estadsticos principales de vsat junto con el diagrama de

caja de vsat (y su resumen numerico). Ha cambiado algo?

open data2-1 # leemos el archivo de datos data2-1# recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msat>600) vsat (msat>650) --output="display"

summary vsat # estadisticossmpl msat>600 --restrict # restrinjamos la muestrasummary vsat # estadisticossmpl msat>650 --restrict # restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa
Ejercicio. Distribuciones condicionadas 33

Ejercicio 18. Continuamos con la sesion de Gretl del ejercicio anterior. . . pero ya

puede cerrar los graficos (diagramas de dispersion y barras).

calificaciones2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

(a) Calcule los estadsticos principales de vsat y observe su diagrama de caja de

vsat junto con el resumen numerico (centre su atencion en la calificacion media).

(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (msat)

(c) Calcule de nuevo los estadsticos principales de vsat junto con el diagrama de

caja de vsat (y su resumen numerico). Ha cambiado algo?

(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (msat)

(e) Calcule de nuevo los estadsticos principales de vsat junto con el diagrama de

caja de vsat (y su resumen numerico). Ha cambiado algo?. . . En el mismo

sentido que en el caso anterior?

open data2-1 # leemos el archivo de datos data2-1# recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msat>600) vsat (msat>650) --output="display"

summary vsat # estadisticossmpl msat>600 --restrict # restrinjamos la muestrasummary vsat # estadisticossmpl msat>650 --restrict # restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa
Ejercicio. Distribuciones condicionadas 33

Ejercicio 18. Continuamos con la sesion de Gretl del ejercicio anterior. . . pero ya

puede cerrar los graficos (diagramas de dispersion y barras).

calificaciones2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

(a) Calcule los estadsticos principales de vsat y observe su diagrama de caja de

vsat junto con el resumen numerico (centre su atencion en la calificacion media).

(b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (msat)

(c) Calcule de nuevo los estadsticos principales de vsat junto con el diagrama de

caja de vsat (y su resumen numerico). Ha cambiado algo?

(d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (msat)

(e) Calcule de nuevo los estadsticos principales de vsat junto con el diagrama de

caja de vsat (y su resumen numerico). Ha cambiado algo?. . . En el mismo

sentido que en el caso anterior?

(f) Dira usted que a los que se les da bien las matematicas no son buenos en

lengua, y viceversa? o por el contrario dira usted que los buenos estudiantes en

una asignatura suelen serlo tambien en otras?

open data2-1 # leemos el archivo de datos data2-1# recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msat>600) vsat (msat>650) --output="display"

summary vsat # estadisticossmpl msat>600 --restrict # restrinjamos la muestrasummary vsat # estadisticossmpl msat>650 --restrict # restrinjamos la muestra mas aunsummary vsat

Marcos Bujosa
Distribuciones absolutas conjunta y marginales. 34

Alturas de padres e hijos

Hijos

Padres < 160 160 164 165 169 170 174 175 179 180 184 185 189 > 190

< 160 4 4 1 9

160 164 2 7 10 3 22165 169 3 20 25 9 4 61170 174 4 18 26 30 19 1 98175 179 2 17 22 20 4 1 66180 184 5 15 17 8 2 47185 189 1 4 2 1 8> 190 1 1

6 18 51 76 77 64 16 4 3121
Distribuciones conjuntas. Distribuciones condicionadas. 35

Alturas de padres e hijos

Hijos

Padres < 160 160 164 165 169 170 174 175 179 180 184 185 189 > 190

< 160 0.013 0.013 0.003 0.029

160 164 0.006 0.022 0.032 0.010 0.070165 169 0.010 0.064 0.080 0.028 0.013 0.195170 174 0.013 0.058 0.083 0.096 0.061 0.003 0.314175 179 0.006 0.054 0.070 0.064 0.013 0.003 0.212180 184 0.016 0.048 0.054 0.026 0.006 0.151185 189 0.003 0.013 0.006 0.003 0.026> 190 0.003 0.003

0.019 0.058 0.163 0.244 0.247 0.205 0.051 0.013 1
Distribuciones conjuntas. Distribuciones condicionadas. 35

Alturas de padres e hijos

Hijos

Padres < 160 160 164 165 169 170 174 175 179 180 184 185 189 > 190

< 160 0.013 0.013 0.003 0.029

160 164 0.006 0.022 0.032 0.010 0.070165 169 0.010 0.064 0.080 0.028 0.013 0.195170 174 0.013 0.058 0.083 0.096 0.061 0.003 0.314175 179 0.006 0.054 0.070 0.064 0.013 0.003 0.212180 184 0.016 0.048 0.054 0.026 0.006 0.151185 189 0.003 0.013 0.006 0.003 0.026> 190 0.003 0.003

0.019 0.058 0.163 0.244 0.247 0.205 0.051 0.013 1

Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169:

Padres < 160 160 164 165 169 170 174 175 179 180 184 185 189 > 190

165 169 0.049 0.328 0.410 0.148 0.065

Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184

Padres < 160 160 164 165 169 170 174 175 179 180 184 185 189 > 190

185 189 0.059 0.255 0.510 0.117 0.059

(Regresion a la media)
Ejercicio. Diagrama de dispersion y relaciones entre variables 36

Diagrama de dispersion, nube de puntos o scatter.

Ejercicio 19. Cargue los datos de estatura entre padres e hijos

(estatura padre hijo.gdt)

estaturas.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

(a) Realice un diagrama de dispersion con la altura de los padres en el eje X

(b) Observe que la relacion entre alturas es aproximadamente lineal

# leemos el archivo de datos estatura_padre_hijo.gdtopen datos/estatura_padre_hijo.gdt# diagrama de dispersionscatters Estatura_Hijo; Estatura_Padre --output="display"# o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output="display"# otra forma es marcar las dos series y desplegar el menu # (pulsando boton derecho sobre ellas) y despues seleccionar # 'Grafico de dos variables XY' (pinchando el grafico, este se puede editar)

Marcos Bujosa
Ejercicio. Diagrama de dispersion y relaciones entre variables 37

Ejercicio 20. Cargue los datos de ventas (ventas.txt)

ventas.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

(a) Realice un grafico de las ventas, su histograma y diagrama de caja observa alguna

pauta?. . .

open datos/ventas.txtgenr index # agregamos variable "indice" para dibujar las "Ventas" de cada vendedor# grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output="display"boxplot Ventas --output="display"freq Ventas # Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output="display"

Marcos Bujosa

open datos/ventas2.txtgnuplot Ventas Antig --suppress-fitted --output="display" # Diagrama de dispersion

Marcos Bujosa
Ejercicio. Diagrama de dispersion y relaciones entre variables 37

Ejercicio 20. Cargue los datos de ventas (ventas.txt)

ventas.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

(a) Realice un grafico de las ventas, su histograma y diagrama de caja observa alguna

pauta?. . .

(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama

de dispersion entre ventas y antiguedad (con Antig en eje de abscisas (X))

(c) observa alguna relacion entre antiguedad y ventas? de que tipo?

open datos/ventas.txtgenr index # agregamos variable "indice" para dibujar las "Ventas" de cada vendedor# grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output="display"boxplot Ventas --output="display"freq Ventas # Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output="display"

Marcos Bujosa

open datos/ventas2.txtgnuplot Ventas Antig --suppress-fitted --output="display" # Diagrama de dispersion

Marcos Bujosa
Ejercicio. Diagrama de dispersion y relaciones entre variables 37

Ejercicio 20. Cargue los datos de ventas (ventas.txt)

ventas.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

(a) Realice un grafico de las ventas, su histograma y diagrama de caja observa alguna

pauta?. . .

(b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama

de dispersion entre ventas y antiguedad (con Antig en eje de abscisas (X))

(c) observa alguna relacion entre antiguedad y ventas? de que tipo?

Ejercicio 21. Cargue los datos ventas2 correspondientes a otra empresa

(ventas2.txt)

ventas2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Gretl

(a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad.

(b) Que diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)?

open datos/ventas.txtgenr index # agregamos variable "indice" para dibujar las "Ventas" de cada vendedor# grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output="display"boxplot Ventas --output="display"freq Ventas # Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output="display"

Marcos Bujosa

open datos/ventas2.txtgnuplot Ventas Antig --suppress-fitted --output="display" # Diagrama de dispersion

Marcos Bujosa
Media y varianza condicionadas 38

VentasMCondS2Cond

0

50

100

150

200

250

10 20 30 40 50 60 70

Ven

tas

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentas.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

include EstadCond.inp # cargamos la funcion "EstadCond"open datos/ventas.txt # cargamos los datos de "ventas"# calculamos los estadisticos de "Ventas" en intervalos de la variable "Antig" # (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(Ventas,Antig,10)

Marcos Bujosa
Media y varianza condicionadas 39

Ventas (izquierda)MCond (izquierda)S2Cond (derecha)

0

200

400

600

800

1000

1200

1400

1600

10 20 30 40 50 60 700

10000

20000

30000

40000

50000

60000V

enta

s

Var

ian

zaco

nd

icio

na

da

Antiguedad

Media y varianza por intervalos (condicionandas)

EstCondVentas2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Gretl

include EstadCond.inp # cargamos la funcion "EstadCond"open datos/ventas2.txt # cargamos los datos de "ventas2"# calculamos los estadisticos de "Ventas" en intervalos de la variable "Antig" # (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(Ventas,Antig,10)

Marcos Bujosa
ejercicios 40

Reproduzcamos los dos graficos anteriores:

Ejercicio 22. Abra el conjunto de datos ps2-1 (open ps2-1 o Archivo

->Abrir datos ->Archivo de muestra ->Rammanatham ->ps2-1.

calificaciones3.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

(a) Calcule la media en la nota en lengua, condicionada a las calificaciones en

matematicas (en intervalos de 100 puntos por ejemplo).

(b) Calcule la media en la nota en matematicas, condicionada a las calificaciones en

lengua.

(c) Dira usted que a los que se les da bien las matematicas no son buenos en

lengua, y viceversa? o por el contrario dira usted que los buenos estudiantes en

una asignatura suelen serlo tambien en otras?

include EstadCond.inp # cargamos la funcion "EstadCond"open data2-1 # cargamos los datos de las calificacionesEstadCond(vsat,msat,100) # media lengua condicionada a nota en matesEstadCond(msat,vsat,100) # media en mates condicionada a nota en lengua

Marcos Bujosa
Diagramas de dispersion y relacion entre variables 41

La nubes de puntos sugieren la posible existencia de relaciones entre variables.
Diagramas de dispersion y relacion entre variables 42

Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables:

1. Relacion lineal positiva

2. Relacion lineal negativa

3. Relacion lineal aparente, pero debida a observaciones atpicas

4. Relacion no lineal

5. Sin relacion aparente entre las variables
Primer intento de medicion de asociacion lineal entre variables: Covarianza 43

cov(x, y) =

(xi x)(yi y)

N

y

x

Est

atu

rad

elh

ijo

(y)

Estatura del padre (x)

Estaturas de nueve personas junto con las de sus padres
Covarianza 44

cov(x, y) =

(xi x)(yi y)

N

Mide el grado de asociacion lineal entre dos variable x e y.

Si es grande y positivo, fuerte asociacion lineal directa

Si es grande en valor absoluto y negativo, fuerte asociacion lineal inversa
Covarianza 44

cov(x, y) =

(xi x)(yi y)

N

Mide el grado de asociacion lineal entre dos variable x e y.

Si es grande y positivo, fuerte asociacion lineal directa

Si es grande en valor absoluto y negativo, fuerte asociacion lineal inversa

pero. . . que significa grande?
Covarianza 44

cov(x, y) =

(xi x)(yi y)

N

Mide el grado de asociacion lineal entre dos variable x e y.

Si es grande y positivo, fuerte asociacion lineal directa

Si es grande en valor absoluto y negativo, fuerte asociacion lineal inversa

pero. . . que significa grande?

La covarianza depende de las unidades de medida de x e y.

La covarianza depende de la dispersion de x e y.
Covarianza 44

cov(x, y) =

(xi x)(yi y)

N

Mide el grado de asociacion lineal entre dos variable x e y.

Si es grande y positivo, fuerte asociacion lineal directa

Si es grande en valor absoluto y negativo, fuerte asociacion lineal inversa

pero. . . que significa grande?

La covarianza depende de las unidades de medida de x e y.

La covarianza depende de la dispersion de x e y.

Es necesaria una normalizacion
Segundo intento de medicion de asociacion lineal entre variables: Correlacion 45

Coef. correlacion de Pearson: x,y =cov(x, y)

sxsy; 1 cor(x, y) 1

Ahora grande significa proximo a uno en valor absoluto.
Ejercicios 46

Ejercicio 23. Cargue los datos estatura padre hijo.gdt

estaturas2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

(a) Calcule la covarianza, la correlacion y genere el diagrama de dispersion de las

alturas (padrehijo).

# leemos el archivo de datos estatura_padre_hijo.gdtopen datos/estatura_padre_hijo.gdtcov_ph=cov(Estatura_Hijo, Estatura_Padre)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph=corr(Estatura_Hijo, Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output="display"

# en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0, Padre0)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph0=corr(Hijo0, Padre0)gnuplot Hijo0 Padre0 --output="display"

# en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0*100series Padre0cm=Padre0*100cov_ph0_cm=cov(Hijo0cm, Padre0cm)*($nobs-1)/$nobs corr_ph0_cm=corr(Hijo0cm, Padre0cm)gnuplot Hijo0cm Padre0cm --output="display"

# en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo0*1000series Padre0mm=Padre0*1000cov_ph0_mm=cov(Hijo0mm, Padre0mm)*($nobs-1)/$nobs corr_ph0_mm=corr(Hijo0mm, Padre0mm)gnuplot Estatura_Hijo Padre0mm --output="display"

print cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm

# Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_Hijo,Hijo0cm)*($nobs-1)/$nobs corr_hh0cm=corr(Estatura_Hijo,Hijo0cm)gnuplot Estatura_Hijo Hijo0cm --output="display"

print cov_hh0cm corr_hh0cm

Marcos Bujosa
Ejercicios 46

Ejercicio 23. Cargue los datos estatura padre hijo.gdt

estaturas2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

(a) Calcule la covarianza, la correlacion y genere el diagrama de dispersion de las

alturas (padrehijo).

(b) Transforme las alturas en desviaciones respecto a la media.

# leemos el archivo de datos estatura_padre_hijo.gdtopen datos/estatura_padre_hijo.gdtcov_ph=cov(Estatura_Hijo, Estatura_Padre)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph=corr(Estatura_Hijo, Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output="display"

# en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0, Padre0)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph0=corr(Hijo0, Padre0)gnuplot Hijo0 Padre0 --output="display"

# en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0*100series Padre0cm=Padre0*100cov_ph0_cm=cov(Hijo0cm, Padre0cm)*($nobs-1)/$nobs corr_ph0_cm=corr(Hijo0cm, Padre0cm)gnuplot Hijo0cm Padre0cm --output="display"

# en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo0*1000series Padre0mm=Padre0*1000cov_ph0_mm=cov(Hijo0mm, Padre0mm)*($nobs-1)/$nobs corr_ph0_mm=corr(Hijo0mm, Padre0mm)gnuplot Estatura_Hijo Padre0mm --output="display"

print cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm

# Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_Hijo,Hijo0cm)*($nobs-1)/$nobs corr_hh0cm=corr(Estatura_Hijo,Hijo0cm)gnuplot Estatura_Hijo Hijo0cm --output="display"

print cov_hh0cm corr_hh0cm

Marcos Bujosa
Ejercicios 46

Ejercicio 23. Cargue los datos estatura padre hijo.gdt

estaturas2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

(a) Calcule la covarianza, la correlacion y genere el diagrama de dispersion de las

alturas (padrehijo).

(b) Transforme las alturas en desviaciones respecto a la media.

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el

diagrama de dispersion).

# leemos el archivo de datos estatura_padre_hijo.gdtopen datos/estatura_padre_hijo.gdtcov_ph=cov(Estatura_Hijo, Estatura_Padre)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph=corr(Estatura_Hijo, Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output="display"

# en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0, Padre0)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph0=corr(Hijo0, Padre0)gnuplot Hijo0 Padre0 --output="display"

# en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0*100series Padre0cm=Padre0*100cov_ph0_cm=cov(Hijo0cm, Padre0cm)*($nobs-1)/$nobs corr_ph0_cm=corr(Hijo0cm, Padre0cm)gnuplot Hijo0cm Padre0cm --output="display"

# en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo0*1000series Padre0mm=Padre0*1000cov_ph0_mm=cov(Hijo0mm, Padre0mm)*($nobs-1)/$nobs corr_ph0_mm=corr(Hijo0mm, Padre0mm)gnuplot Estatura_Hijo Padre0mm --output="display"

print cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm

# Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_Hijo,Hijo0cm)*($nobs-1)/$nobs corr_hh0cm=corr(Estatura_Hijo,Hijo0cm)gnuplot Estatura_Hijo Hijo0cm --output="display"

print cov_hh0cm corr_hh0cm

Marcos Bujosa
Ejercicios 46

Ejercicio 23. Cargue los datos estatura padre hijo.gdt

estaturas2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

(a) Calcule la covarianza, la correlacion y genere el diagrama de dispersion de las

alturas (padrehijo).

(b) Transforme las alturas en desviaciones respecto a la media.

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el

diagrama de dispersion).

(d) Transforme las alturas en desviaciones a centmetros (cm); y calcule otra vez la

covarianza y la correlacion (y pinte otro diagrama de dispersion).

# leemos el archivo de datos estatura_padre_hijo.gdtopen datos/estatura_padre_hijo.gdtcov_ph=cov(Estatura_Hijo, Estatura_Padre)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph=corr(Estatura_Hijo, Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output="display"

# en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0, Padre0)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph0=corr(Hijo0, Padre0)gnuplot Hijo0 Padre0 --output="display"

# en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0*100series Padre0cm=Padre0*100cov_ph0_cm=cov(Hijo0cm, Padre0cm)*($nobs-1)/$nobs corr_ph0_cm=corr(Hijo0cm, Padre0cm)gnuplot Hijo0cm Padre0cm --output="display"

# en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo0*1000series Padre0mm=Padre0*1000cov_ph0_mm=cov(Hijo0mm, Padre0mm)*($nobs-1)/$nobs corr_ph0_mm=corr(Hijo0mm, Padre0mm)gnuplot Estatura_Hijo Padre0mm --output="display"

print cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm

# Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_Hijo,Hijo0cm)*($nobs-1)/$nobs corr_hh0cm=corr(Estatura_Hijo,Hijo0cm)gnuplot Estatura_Hijo Hijo0cm --output="display"

print cov_hh0cm corr_hh0cm

Marcos Bujosa
Ejercicios 46

Ejercicio 23. Cargue los datos estatura padre hijo.gdt

estaturas2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

(a) Calcule la covarianza, la correlacion y genere el diagrama de dispersion de las

alturas (padrehijo).

(b) Transforme las alturas en desviaciones respecto a la media.

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el

diagrama de dispersion).

(d) Transforme las alturas en desviaciones a centmetros (cm); y calcule otra vez la

covarianza y la correlacion (y pinte otro diagrama de dispersion).

(e) Transforme las alturas en desviaciones a milmetros (mm); y calcule de nuevo

covarianza, correlacion y la nube de puntos.

# leemos el archivo de datos estatura_padre_hijo.gdtopen datos/estatura_padre_hijo.gdtcov_ph=cov(Estatura_Hijo, Estatura_Padre)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph=corr(Estatura_Hijo, Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output="display"

# en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0, Padre0)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph0=corr(Hijo0, Padre0)gnuplot Hijo0 Padre0 --output="display"

# en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0*100series Padre0cm=Padre0*100cov_ph0_cm=cov(Hijo0cm, Padre0cm)*($nobs-1)/$nobs corr_ph0_cm=corr(Hijo0cm, Padre0cm)gnuplot Hijo0cm Padre0cm --output="display"

# en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo0*1000series Padre0mm=Padre0*1000cov_ph0_mm=cov(Hijo0mm, Padre0mm)*($nobs-1)/$nobs corr_ph0_mm=corr(Hijo0mm, Padre0mm)gnuplot Estatura_Hijo Padre0mm --output="display"

print cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm

# Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_Hijo,Hijo0cm)*($nobs-1)/$nobs corr_hh0cm=corr(Estatura_Hijo,Hijo0cm)gnuplot Estatura_Hijo Hijo0cm --output="display"

print cov_hh0cm corr_hh0cm

Marcos Bujosa
Ejercicios 46

Ejercicio 23. Cargue los datos estatura padre hijo.gdt

estaturas2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

(a) Calcule la covarianza, la correlacion y genere el diagrama de dispersion de las

alturas (padrehijo).

(b) Transforme las alturas en desviaciones respecto a la media.

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el

diagrama de dispersion).

(d) Transforme las alturas en desviaciones a centmetros (cm); y calcule otra vez la

covarianza y la correlacion (y pinte otro diagrama de dispersion).

(e) Transforme las alturas en desviaciones a milmetros (mm); y calcule de nuevo

covarianza, correlacion y la nube de puntos.

(f) Compare los valores de las covarianzas y las correlaciones.

# leemos el archivo de datos estatura_padre_hijo.gdtopen datos/estatura_padre_hijo.gdtcov_ph=cov(Estatura_Hijo, Estatura_Padre)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph=corr(Estatura_Hijo, Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output="display"

# en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0, Padre0)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph0=corr(Hijo0, Padre0)gnuplot Hijo0 Padre0 --output="display"

# en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0*100series Padre0cm=Padre0*100cov_ph0_cm=cov(Hijo0cm, Padre0cm)*($nobs-1)/$nobs corr_ph0_cm=corr(Hijo0cm, Padre0cm)gnuplot Hijo0cm Padre0cm --output="display"

# en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo0*1000series Padre0mm=Padre0*1000cov_ph0_mm=cov(Hijo0mm, Padre0mm)*($nobs-1)/$nobs corr_ph0_mm=corr(Hijo0mm, Padre0mm)gnuplot Estatura_Hijo Padre0mm --output="display"

print cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm

# Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_Hijo,Hijo0cm)*($nobs-1)/$nobs corr_hh0cm=corr(Estatura_Hijo,Hijo0cm)gnuplot Estatura_Hijo Hijo0cm --output="display"

print cov_hh0cm corr_hh0cm

Marcos Bujosa
Ejercicios 46

Ejercicio 23. Cargue los datos estatura padre hijo.gdt

estaturas2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

(a) Calcule la covarianza, la correlacion y genere el diagrama de dispersion de las

alturas (padrehijo).

(b) Transforme las alturas en desviaciones respecto a la media.

(c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el

diagrama de dispersion).

(d) Transforme las alturas en desviaciones a centmetros (cm); y calcule otra vez la

covarianza y la correlacion (y pinte otro diagrama de dispersion).

(e) Transforme las alturas en desviaciones a milmetros (mm); y calcule de nuevo

covarianza, correlacion y la nube de puntos.

(f) Compare los valores de las covarianzas y las correlaciones.

(g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales

de los hijos, con su version en desviaciones en centmetros (y pinte el diagrama

de dispersion).

# leemos el archivo de datos estatura_padre_hijo.gdtopen datos/estatura_padre_hijo.gdtcov_ph=cov(Estatura_Hijo, Estatura_Padre)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph=corr(Estatura_Hijo, Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output="display"

# en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0, Padre0)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph0=corr(Hijo0, Padre0)gnuplot Hijo0 Padre0 --output="display"

# en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0*100series Padre0cm=Padre0*100cov_ph0_cm=cov(Hijo0cm, Padre0cm)*($nobs-1)/$nobs corr_ph0_cm=corr(Hijo0cm, Padre0cm)gnuplot Hijo0cm Padre0cm --output="display"

# en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo0*1000series Padre0mm=Padre0*1000cov_ph0_mm=cov(Hijo0mm, Padre0mm)*($nobs-1)/$nobs corr_ph0_mm=corr(Hijo0mm, Padre0mm)gnuplot Estatura_Hijo Padre0mm --output="display"

print cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm

# Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_Hijo,Hijo0cm)*($nobs-1)/$nobs corr_hh0cm=corr(Estatura_Hijo,Hijo0cm)gnuplot Estatura_Hijo Hijo0cm --output="display"

print cov_hh0cm corr_hh0cm

Marcos Bujosa
Correlacion y heterogeneidad 47

-2

-1

0

1

2

3

4

5

6

1 2 3 4 5 6 7

y

x

Datos heterogeneos (dato atpico)
Correlacion y heterogeneidad 47

-2

-1

0

1

2

3

4

5

6

1 2 3 4 5 6 7

y

x

Datos heterogeneos (dato atpico)

300

350

400

450

500

550

600

650

30 40 50 60 70 80 90 100 110 120p

reci

osuperficie

Datos heterogenos
Ejercicios 48

Ejercicio 24. Cargue los datos CorrHeterogeneidad1.gdt

CorrHeterogeneidad1.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

open datos/CorrHeterogeneidad1.gdtrho=corr(x,y)gnuplot y x --output="display"smpl 1 5rho2=corr(x,y)gnuplot y x --output="display"print rho rho2

Marcos Bujosa
Ejercicios 48

Ejercicio 24. Cargue los datos CorrHeterogeneidad1.gdt

CorrHeterogeneidad1.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera que no incluya el ultimo dato

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Compare los coeficientes de correlacion

open datos/CorrHeterogeneidad1.gdtrho=corr(x,y)gnuplot y x --output="display"smpl 1 5rho2=corr(x,y)gnuplot y x --output="display"print rho rho2

Marcos Bujosa
Ejercicios 49

Ejercicio 25. Cargue los datos PrecioPisos.gdt

CorrHeterogeneidad2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

open datos/PrecioPisos.gdtrho=corr(precio,sup)gnuplot precio sup --output="display"smpl barrio_ciudad=1 --restrictrho1=corr(precio,sup)gnuplot precio sup --output="display"smpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(precio,sup)gnuplot precio sup --output="display"print rho rho1 rho2

Marcos Bujosa
Ejercicios 49

Ejercicio 25. Cargue los datos PrecioPisos.gdt

CorrHeterogeneidad2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera solo incluya pisos de la zona 1

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

open datos/PrecioPisos.gdtrho=corr(precio,sup)gnuplot precio sup --output="display"smpl barrio_ciudad=1 --restrictrho1=corr(precio,sup)gnuplot precio sup --output="display"smpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(precio,sup)gnuplot precio sup --output="display"print rho rho1 rho2

Marcos Bujosa
Ejercicios 49

Ejercicio 25. Cargue los datos PrecioPisos.gdt

CorrHeterogeneidad2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

(a) Calcule el coeficiente de correlacion y el diagrama de dispersion

(b) Reduzca la muestra de manera solo incluya pisos de la zona 1

(c) Calcule el coeficiente de correlacion y el diagrama de dispersion

(d) Reduzca la muestra de manera solo incluya pisos de la zona 2

(e) Calcule el coeficiente de correlacion y el diagrama de dispersion

(f) Compare los coeficientes de correlacion

open datos/PrecioPisos.gdtrho=corr(precio,sup)gnuplot precio sup --output="display"smpl barrio_ciudad=1 --restrictrho1=corr(precio,sup)gnuplot precio sup --output="display"smpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(precio,sup)gnuplot precio sup --output="display"print rho rho1 rho2

Marcos Bujosa
Correlacion y causalidad. Correlaciones espurias 50

Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo.

Es sensata la siguiente conclusion:?

Hoy llovera porque lo han dicho en las noticias
Correlacion y causalidad. Correlaciones espurias 50

Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo.

Es sensata la siguiente conclusion:?

Hoy llovera porque lo han dicho en las noticias

Temperatura media en Madrid y n de bodas

N de ciguenas observadas cada mes y numero de nacimientos en zonas rurales

de Alemania

Numero de emisoras de radio en cada ciudad y casos de locura
Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal
Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal

o que la muestra presente poca variabilidad

300

350

400

450

500

550

600

650

700

750

800

82 84 86 88 90 92 94 96 98

pre

cio

superficie

Precio - superficie (pisos de 80 a 100 metros)
Correlacion pequena o nula no significa ausencia de relacion 51

puede ser que haya una relacion no lineal

o que la muestra presente poca variabilidad

300

350

400

450

500

550

600

650

700

750

800

82 84 86 88 90 92 94 96 98

pre

cio

superficie

Precio - superficie (pisos de 80 a 100 metros)

0

200

400

600

800

1000

1200

1400

1600

50 100 150 200 250 300 350

pre

cio

superficie

Precio - superficie (muestra ampliada)
Ejercicios 52

Ejercicio 26. Cargue los datos PrecioPisos2.gdt

pisos2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

open datos/PrecioPisos2.gdtsmpl superficie >= 80 --restrictsmpl superficie < 100 --restrictrho_80_100=corr(precio,superficie)gnuplot precio superficie --output="display"

smpl fullrho=corr(precio,superficie)gnuplot precio superficie --output="display"

print rho rho_80_100

Marcos Bujosa
Ejercicios 52

Ejercicio 26. Cargue los datos PrecioPisos2.gdt

pisos2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

(a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

(b) Calcule el coeficiente de correlacion y el diagrama de dispersion

(c) Recupere la muestra completa y repita los calculos

(d) Compare los coeficientes de correlacion

open datos/PrecioPisos2.gdtsmpl superficie >= 80 --restrictsmpl superficie < 100 --restrictrho_80_100=corr(precio,superficie)gnuplot precio superficie --output="display"

smpl fullrho=corr(precio,superficie)gnuplot precio superficie --output="display"

print rho rho_80_100

Marcos Bujosa
Ejercicios 53

Ejercicio 27. Indicar cual de las dos variables de los siguentes pares es la variable

dependiente y si la relacion es positiva o negativa:

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida
Ejercicios 53

Ejercicio 27. Indicar cual de las dos variables de los siguentes pares es la variable

dependiente y si la relacion es positiva o negativa:

(a) Potencia de un coche y precio

(b) Peso de una persona y estatura

(c) Consumo de tabaco y duracion de vida

Ejercicio 28.

(a) Cual sera el coeficiente de correlacion entre las edades de los conyuges si las

mujeres siempre se casaran con un hombre dos anos mayor que ellas?

(b) Y si lo hiciesen con hombres que son cinco anos mayores?
Ejercicios 54

Ejercicio 29. El coeficiente de correlacion entre la estatura y el peso para un grupo

de estudiantes es de 0,7. Si consideramos por separado hombres y mujeres, este

coeficiente debera ser:

mas alto

mas bajo

aproximadamente igual

Justifique la respuesta.
Bibliografa

Pena, D. y Romo, J. (1997). Introduccion a la Estadstica para la Ciencias Sociales.

McGraw-Hill, Madrid. ISBN 84-481-1617-8. 9

Transparencias

1 [T-1] Introduccion: Por que modelar?

2 [T-2] El objetivo de la econometra

3 [T-3] Poblacion y variable estadstica

4 [T-4] Variables estadsticas cualitativas

5 [T-5] Variables estadsticas cuantitativas

6 [T-6] Ejercicios

7 [T-7] Tipos de datos en funcion del ndice

8 [T-8] Descripcion de variables cualitativas. Ejemplo de distribucion de frecuencias

9 [T-9] Ejercicios

10 [T-10] Descripcion de variables cuantitativas discretas: distribucion de frecuencias

11 [T-11] Descripcion de variables cuantitativas continuas: distribucion de frecuencias (Histograma)

12 [T-12] Ejercicios

13 [T-13] Histograma y caractersticas de la distribucion

14 [T-14] Ejercicios

15 [T-15] Ejercicios

16 [T-16] Ejercicios

17 [T-17] Ejercicios

18 [T-18] Mediana
19 [T-19] Cuartiles, Rango, rango intercuartlico

20 [T-20] Diagrama de cajas

21 [T-21] Ejercicio

22 [T-22] Diagramas de cajas con distintos bigotes

23 [T-23] Robustez de la mediana frente a la media en presencia de atpicos

24 [T-24] Ejercicios

25 [T-25] Ejercicios

26 [T-26] Ejercicios

27 [T-27] Que grafico es mas informativo en el caso de una serie temporal?

28 [T-28] A modo de resumen. Diagramas de barras e Histogramas

29 [T-29] A modo de resumen. Diagramas de caja

30 [T-30] Tablas de contingencia: frecuencia absoluta conjunta y marginal

31 [T-31] Tablas de contingencia: frecuencia relativa conjunta y marginal

32 [T-32] Ejercicio. Diagrama de dispersion. Distribuciones marginales

33 [T-33] Ejercicio. Distribuciones condicionadas

34 [T-34] Distribuciones absolutas conjunta y marginales.

35 [T-35] Distribuciones conjuntas. Distribuciones condicionadas.

36 [T-36] Ejercicio. Diagrama de dispersion y relaciones entre variables

37 [T-37] Ejercicio. Diagrama de dispersion y relaciones entre variables

38 [T-38] Media y varianza condicionadas

39 [T-39] Media y varianza condicionadas

40 [T-40] ejercicios

41 [T-41] Diagramas de dispersion y relacion entre variables

42 [T-42] Diagramas de dispersion y relacion entre variables

43 [T-43] Primer intento de medicion de asociacion lineal entre variables: Covarianza

44 [T-44] Covarianza
45 [T-45] Segundo intento de medicion de asociacion lineal entre variables: Correlacion

46 [T-46] Ejercicios

47 [T-47] Correlacion y heterogeneidad

48 [T-48] Ejercicios

49 [T-49] Ejercicios

50 [T-50] Correlacion y causalidad. Correlaciones espurias

51 [T-51] Correlacion pequena o nula no significa ausencia de relacion

52 [T-52] Ejercicios

53 [T-53] Ejercicios

54 [T-54] Ejercicios

Tabla de Contenido1 [T-1] Introduccin: Por qu modelar?2 [T-2] El objetivo de la econometra3 [T-3] Poblacin y variable estadstica4 [T-4] Variables estadsticas cualitativas5 [T-5] Variables estadsticas cuantitativas6 [T-6] Ejercicios7 [T-7] Tipos de datos en funcin del ndice8 [T-8] Descripcin de variables cualitativas. Ejemplo de distribucin de frecuencias9 [T-9] Ejercicios10 [T-10] Descripcin de variables cuantitativas discretas: distribucin de frecuencias11 [T-11] Descripcin de variables cuantitativas continuas: distribucin de frecuencias (Histograma)12 [T-12] Ejercicios13 [T-13] Histograma y caractersticas de la distribucin14 [T-14] Ejercicios15 [T-15] Ejercicios16 [T-16] Ejercicios17 [T-17] Ejercicios18 [T-18] Mediana19 [T-19] Cuartiles, Rango, rango intercuartlico 20 [T-20] Diagrama de cajas21 [T-21] Ejercicio22 [T-22] Diagramas de cajas con distintos bigotes23 [T-23] Robustez de la mediana frente a la media en presencia de atpicos24 [T-24] Ejercicios25 [T-25] Ejercicios26 [T-26] Ejercicios27 [T-27] Qu grfico es ms informativo en el caso de una serie temporal?28 [T-28] A modo de resumen. Diagramas de barras e Histogramas29 [T-29] A modo de resumen. Diagramas de caja30 [T-30] Tablas de contingencia: frecuencia absoluta conjunta y marginal31 [T-31] Tablas de contingencia: frecuencia relativa conjunta y marginal32 [T-32] Ejercicio. Diagrama de dispersin. Distribuciones marginales33 [T-33] Ejercicio. Distribuciones condicionadas34 [T-34] Distribuciones absolutas conjunta y marginales.35 [T-35] Distribuciones conjuntas. Distribuciones condicionadas.36 [T-36] Ejercicio. Diagrama de dispersin y relaciones entre variables37 [T-37] Ejercicio. Diagrama de dispersin y relaciones entre variables38 [T-38] Media y varianza condicionadas39 [T-39] Media y varianza condicionadas40 [T-40] ejercicios41 [T-41] Diagramas de dispersin y relacin entre variables42 [T-42] Diagramas de dispersin y relacin entre variables43 [T-43] Primer intento de medicion de asociacin lineal entre variables: Covarianza44 [T-44] Covarianza45 [T-45] Segundo intento de medicion de asociacin lineal entre variables: Correlacin46 [T-46] Ejercicios47 [T-47] Correlacin y heterogeneidad48 [T-48] Ejercicios49 [T-49] Ejercicios50 [T-50] Correlacin y causalidad. Correlaciones espurias51 [T-51] Correlacin pequea o nula no significa ausencia de relacin52 [T-52] Ejercicios53 [T-53] Ejercicios54 [T-54] EjerciciosBibliografaTransparencias