EconometriaGRADO T1 Screen

117
Dpto. de Econom´ ıa Cuantitativa Universidad Complutense de Madrid ECONOMETR ´ IA Introducci´ on a la econometr´ ıa; y an´ alisis gr´ afico y estad´ ıstico de relaciones Marcos Bujosa Trasparencias de clase para la asignatura econometr´ ıa de los grados en Econom´ ıa y Administraci´on y Direcci´on de Empresas de la Universidad Complutense de Madrid. 2010–2012 Marcos Bujosa [email protected] Actualizado el: 8 de marzo de 2012 Version 0.1.03

description

grado 1

Transcript of EconometriaGRADO T1 Screen

  • Dpto. de Economa CuantitativaUniversidad Complutense de Madrid

    ECONOMETRIAIntroduccion a la econometra; y analisis grafico

    y estadstico de relaciones

    Marcos Bujosa

    Trasparencias de clase para la asignatura econometra de los

    grados en Economa y Administracion y Direccion de Empresas

    de la Universidad Complutense de Madrid.

    20102012 Marcos Bujosa [email protected]

    Actualizado el: 8 de marzo de 2012 Version 0.1.03

  • Copyright 20102012 Marcos Bujosa [email protected]

    Este material docente se distribuye bajo la Creative Commons Attribution-Share Alike 3.0 Spain. Para ver una copia de esta licencia, visite http://creativecommons.

    org/licenses/by-sa/3.0/es/.

  • Tabla de Contenido

    Bibliografa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

    Transparencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

  • Introduccion: Por que modelar? 1

    Modelado consiste en intentar ajustar un modelo matematico a un conjunto de datos

    (la muestra)

  • Introduccion: Por que modelar? 1

    Modelado consiste en intentar ajustar un modelo matematico a un conjunto de datos

    (la muestra)

    El modelo sera util, si resulta mas simple que los datos que representa

  • Introduccion: Por que modelar? 1

    Modelado consiste en intentar ajustar un modelo matematico a un conjunto de datos

    (la muestra)

    El modelo sera util, si resulta mas simple que los datos que representa, pero captura

    las caractersticas mas interesantes de los datos.

  • Introduccion: Por que modelar? 1

    Modelado consiste en intentar ajustar un modelo matematico a un conjunto de datos

    (la muestra)

    El modelo sera util, si resulta mas simple que los datos que representa, pero captura

    las caractersticas mas interesantes de los datos.

    Se pueden construir modelos para satisfacer diferentes necesidades, tales como:

    Estimacion

    Prevision

    Simulacion

    Control

  • El objetivo de la econometra 2

    Econometra aplica inferencia estadstica en modelos economicos.

  • El objetivo de la econometra 2

    Econometra aplica inferencia estadstica en modelos economicos. Objetivos:

    Estimacion; por ejemplo

    sensibilidad de un valor financiero a movimientos de un ndice de

    referencia, para evaluar su exposicion al riesgo y cobertura con

    derivados sobre el ndice

  • El objetivo de la econometra 2

    Econometra aplica inferencia estadstica en modelos economicos. Objetivos:

    Estimacion; por ejemplo

    sensibilidad de un valor financiero a movimientos de un ndice de

    referencia, para evaluar su exposicion al riesgo y cobertura con

    derivados sobre el ndice

    Previsiones; por ejemplo,

    probabilidad de incumplimiento futuro de un prestamo, en funcion de

    las caractersticas de la operacion y del solicitante

  • El objetivo de la econometra 2

    Econometra aplica inferencia estadstica en modelos economicos. Objetivos:

    Estimacion; por ejemplo

    sensibilidad de un valor financiero a movimientos de un ndice de

    referencia, para evaluar su exposicion al riesgo y cobertura con

    derivados sobre el ndice

    Previsiones; por ejemplo,

    probabilidad de incumplimiento futuro de un prestamo, en funcion de

    las caractersticas de la operacion y del solicitante

    Simulacion; por ejemplo

    rendimiento de una cartera de valores en diferentes escenarios

  • El objetivo de la econometra 2

    Econometra aplica inferencia estadstica en modelos economicos. Objetivos:

    Estimacion; por ejemplo

    sensibilidad de un valor financiero a movimientos de un ndice de

    referencia, para evaluar su exposicion al riesgo y cobertura con

    derivados sobre el ndice

    Previsiones; por ejemplo,

    probabilidad de incumplimiento futuro de un prestamo, en funcion de

    las caractersticas de la operacion y del solicitante

    Simulacion; por ejemplo

    rendimiento de una cartera de valores en diferentes escenarios

    control; por ejemplo,

    bancos centrales: nivel de tipos de intervencion para controlar la

    inflacion

  • Poblacion y variable estadstica 3

    Poblacion El universo de objetos estudiados

    Conjunto de hogares; alumnos de un curso; automoviles fabricados este ano. . .

  • Poblacion y variable estadstica 3

    Poblacion El universo de objetos estudiados

    Conjunto de hogares; alumnos de un curso; automoviles fabricados este ano. . .

    Variable estadstica Cada rasgo o caracterstica de los elementos de la poblacion.

    Gasto anual en alimentacion; color de ojos; consumo de combustible por km. . .

  • Poblacion y variable estadstica 3

    Poblacion El universo de objetos estudiados

    Conjunto de hogares; alumnos de un curso; automoviles fabricados este ano. . .

    Variable estadstica Cada rasgo o caracterstica de los elementos de la poblacion.

    Gasto anual en alimentacion; color de ojos; consumo de combustible por km. . .

    cualitativas El rasgo descrito no es de naturaleza numerica

    color de ojos, sexo, nombre de la empresa. . .

    cuantitativas El rasgo es numerico

    peso, temperatura, ingresos anuales, precio. . .

  • Variables estadsticas cualitativas 4

    Con cierta frecuencia las variables cualitativas se expresan con numeros

    nominales La asignacion de numeros a las categoras es arbitraria

    mujer=1, hombre=0; Europa=1, EEUU=2; Japon=3; Otros=4. . .

    ordinales Indican un orden

    producto preferido=3, siguiente en preferencia=2, menos deseado=1

    En ambos casos las operaciones aritmeticas entre estos numeros carecen de sentido

  • Variables estadsticas cuantitativas 5

    discretas Suelen ser el resultado de contar

    n de descendientes de una pareja, lavadoras producidas. . .

    continuas Suelen ser medidas y tener decimales

    temperatura, peso, superficie de una vivienda. . .

  • Ejercicios 6

    Ejercicio 1. Clasificar las siguientes variables

    (a) Temperatura maxima diaria

    (b) Numero de dorsal de la camiseta de los jugadores de un equipo de baloncesto

    (c) Calificacion obtenida en un examen

    (d) Marca de refresco consumido

    (e) Codigo postal que aparece en una carta

    (f) Estado civil de una persona

    (g) Salario

    (Pena y Romo, 1997, ejercicio 2.1 de la seccion 2.6.)

    Ejercicio 2. Se plantea un estudio para ordenar las cien mayores empresas de un

    pas. Determinar razonadamente tres variables en que basar la clasificacion. Que tipo

    de variables es cada una de ellas?

    (Pena y Romo, 1997, ejercicio 2.5 de la seccion 2.6.)

  • Tipos de datos en funcion del ndice 7

    Seccion cruzada

    Datos temporales (series de tiempo)

    Datos de panel

  • Descripcion de variables cualitativas. Ejemplo de distribucion de frecuencias 8

    Fichero de datos bweight.gdt

    Poblacion: Mujeres gestantes y sus bebes recien nacidos

    Muestra: N = 1832 mujeres

    Variable estadstica: raza

    Numero de categoras; k = 3

    1 = raza blanca; 2 =raza negra; 3=otras razas

  • Descripcion de variables cualitativas. Ejemplo de distribucion de frecuencias 8

    Fichero de datos bweight.gdt

    Poblacion: Mujeres gestantes y sus bebes recien nacidos

    Muestra: N = 1832 mujeres

    Variable estadstica: raza

    Numero de categoras; k = 3

    1 = raza blanca; 2 =raza negra; 3=otras razas

    k ni ni/N diagrama de barras

    1 1624 88,65 % *******************************

    2 109 5,95 % **

    3 99 5,40 % *

  • Descripcion de variables cualitativas. Ejemplo de distribucion de frecuencias 8

    Fichero de datos bweight.gdt

    Poblacion: Mujeres gestantes y sus bebes recien nacidos

    Muestra: N = 1832 mujeres

    Variable estadstica: raza

    Numero de categoras; k = 3

    1 = raza blanca; 2 =raza negra; 3=otras razas

    k ni ni/N diagrama de barras

    1 1624 88,65 % *******************************

    2 109 5,95 % **

    3 99 5,40 % *

    Moda La clase de mayor frecuencia

  • Ejercicios 9

    Ejercicio 3. Con Gretl abra el fichero de datos bweight.gdt,

    (a) genere un diagrama de barras, y observe las frecuencias absolutas y relativas de

    la variable raza de la madre

    (b) Cual es la moda en esta distribucion?

    bweight.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Gretl

    # leemos el archivo de datos bweight.gdtopen datos/bweight.gdt# o pinchando en 'Archivo' -> 'Abrir datos' -> 'Archivo de usuario'

    # generamos un diagrama de fecuencias de la variable 'race' freq race # tambien lo podemos hacer asifreq 2# ya que 'race' tiene asignado el numero 2; # o pinchando con el boton derecho sobre 'race', y selecionando 'Distribucion de frecuencias'

    Marcos Bujosa

  • Descripcion de variables cuantitativas discretas: distribucion de frecuencias 10

    Ejercicio 4. Con Gretl abra el fichero de datos cholesterol.gdt,

    (a) genere un diagrama de barras, y observe las frecuencias absolutas, relativas, y

    acumuladas del nivel de colesterol en la sangre de los individuos de la muestra

    (cholest).

    (b) Cual es la moda en esta distribucion?

    (c) genere un diagrama de barras, y observe las frecuencias absolutas, y relativas de

    los sexos de los individuos de la muestra (gender).

    (d) Cual es el tamano de la muestra?

    cholesterol.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    # leemos el archivo de datos cholesterol.gdtopen datos/cholesterol.gdt# o pinchando en 'Archivo' -> 'Abrir datos' -> 'Archivo de usuario'

    # generamos un diagrama de fecuencias de la variable 'cholest' freq cholest# tambien lo podemos hacer asifreq 1# o pinchando con el boton derecho sobre 'cholest', y selecionando 'Distribucion de frecuencias'

    # diagrama de frecuencias del genero de los individuos de la muestrafreq gender

    Marcos Bujosa

  • Descripcion de variables cuantitativas continuas: distribucion de frecuencias (Histograma) 11

    Este caso es mas complejo, ya que las clases no estan definidas de manera natural

    Hay que dividir el recorrido de la muestra en intervalos no solapados

    El punto central de cada intervalo se denomina marca de clase ci

    Representamos por

    n1, n2, . . . , nk

    el n de observaciones en cada clase (en cada intervalo).

    Las definiciones de frecuencias absolutas, relativas y acumuladas son identicas

    al caso anterior

  • Ejercicios 12

    Ejercicio 5. Con Gretl abra el fichero de datos bweight.gdt,

    (a) genere un histograma de la variable peso del bebe al nacer (bweight), y observe

    las frecuencias absolutas y relativas

    (b) Cuanto ninos pesaron al nacer mas de 2003.5 gramos y menos de 2349.5?

    (c) Que porcentaje de ninos pesaron al nacer mas de 2003.5 gramos y menos de

    2349.5?

    (d) Empleando la interfaz grafica genere un histograma con 7 clases o intervalos,

    (e) Genere otro histograma mas con 75 intervalos. Observe las frecuencias de los

    intervalos en este caso. Si tuviera que anunciar un peso como el mas frecuente

    al nacer que peso dira?

    bweight2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    # leemos el archivo de datos bweight.gdtopen datos/bweight.gdt

    # generamos un histograma de la variable 'bweight' freq bweight

    # hagalo de nuevo pinchando con el boton derecho sobre 'bweight', y selecionando # 'Distribucion de frecuencias'.# Seleccione el numero de intervalos y# desmarque la opcion 'mostrar el grafico' si quiere ver las distribuciones # de frecuencias absolutas, relativas y acumuladas.

    Marcos Bujosa

  • Histograma y caractersticas de la distribucion 13

    El histograma pone de relieve rasgos de la variable como son la simetra, si es unimodal,

    o bimodal, etc.

  • Ejercicios 14

    Ejercicio 6.

    (a) En el dibujo que distribuciones son simetricas? Cual es

    asimetrica hacia la izquierda (o negativamente asimetrica)? Cuales son

    unimodales? Cuales bimodales?

    (b) Simetrica o asimetrica? unimodal o bimodal?

  • Ejercicios 15

    Ejercicio 7.

    (a) Que variable tiene una media mayor? la roja o la azul?

    (b) Que distribucion tiene una mayor desviacion tpica? La verde

    o la azul?

  • Ejercicios 16

    Ejercicio 8. Mire cual es la media, y la desviacion tpica del peso de los recien

    nacidos del ejercicio anterior.

    bweight3.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    (a) Coincide la media con el peso mas frecuente al nacer que usted encontro?

    (b) Cual es el maximo peso registrado en la muestra? Y el mnimo?

    (c) Tiene sentido calcular estos estadsticos en el caso de la variable race?

    (d) En el caso de los datos de colesterol; para que variable tiene sentido calcular los

    estadsticos, y para cual no?

    # leemos el archivo de datos bweight.gdtopen datos/bweight.gdt

    # estadisticos principalessummary bweight

    # tambien vale con indicar el numero de la variable (1 en este caso)summary 1# otra forma es pinchando con el boton derecho sobre 'bweight', y selecionando # 'Estadisticos descriptivos'.

    Marcos Bujosa

  • Ejercicios 17

    Ejercicio 9. Coteje los estadsticos descriptivos de los datos de peso de recien nacidos

    y de niveles de colesterol con sus respectivos histogramas o diagramas de frecuencia.

    Ejercicio 10. Con Gretl abra el fichero de datos cholesterol.gdt. Vamos a ver las

    diferencias en los niveles de colesterol entre lo hombres y las mujeres de la muestra.

    (a) Restrinja la muestra a los datos de las mujeres (gender=1)

    Genere un diagrama de barras, y observe los estadsticos descriptivos relativos a

    los niveles de colesterol (cholest).

    No cierre las ventanas del diagrama y los estadsticos descriptivos de la

    distribucion.

    (b) Restaure la muestra inicial y repita de nuevo los pasos, pero ahora para los hombres

    (gender=0)

    (c) Compare ambas distribuciones Hay diferencias?

    cholesterol2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    # leemos el archivo de datos cholesterol.gdtopen datos/cholesterol.gdt# o pinchando en 'Archivo' -> 'Abrir datos' -> 'Archivo de usuario'

    # restringimos la muestra (solo datos de mujeres)smpl gender=1 --restrict # Tambien podemos restringir la muestra abriendo el menu # despleglabe 'Muestra' -> 'Restringir a partir de criterio'# y escribiendo en la ventana que se abre # gender = 1

    # informacion sobre la distribucion de los niveles de colesterol (para las mujeres)freq cholestsummary cholest

    # restauramos la muestra completasmpl full# Para restaurar la muestra tambien podemo abrir el menu # despleglabe 'Muestra' y pinchar en 'Recuperar el rango completo'.

    # restringimos la muestra (solo datos de mujeres)smpl gender=0 --restrict

    # informacion sobre la distribucion de los niveles de colesterol (para los hombres)freq cholestsummary cholest

    Marcos Bujosa

  • Mediana 18

    Mediana El centro de los datos (otra medida de posicion)

    El dato (o datos) que separa la muestra (ordenada de menor a mayor) en dos

    grupos con igual numero de elementos

  • Mediana 18

    Mediana El centro de los datos (otra medida de posicion)

    El dato (o datos) que separa la muestra (ordenada de menor a mayor) en dos

    grupos con igual numero de elementos

    Ejercicio 11.

    (a) Cual es el peso mediano en la muestra de recien nacidos?

    (b) Coincide con el peso medio?

    ZCodigo: bweight3.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

  • Cuartiles, Rango, rango intercuartlico 19

    La mediana divide en dos mitades el conjunto ordenado de observaciones

    (separa los datos mas pequenos de los mayores)

    Primer cuartil Q1 Es la mediana de la primera mitad (divide en dos los datos menores)

    Tercer cuartil Q3 Es la mediana de la segunda mitad (divide en dos los datos mayores)

  • Cuartiles, Rango, rango intercuartlico 19

    La mediana divide en dos mitades el conjunto ordenado de observaciones

    (separa los datos mas pequenos de los mayores)

    Primer cuartil Q1 Es la mediana de la primera mitad (divide en dos los datos menores)

    Tercer cuartil Q3 Es la mediana de la segunda mitad (divide en dos los datos mayores)

    Si usted ha tenido hijos seguramente ya sabra que son los percentiles. . .

  • Cuartiles, Rango, rango intercuartlico 19

    La mediana divide en dos mitades el conjunto ordenado de observaciones

    (separa los datos mas pequenos de los mayores)

    Primer cuartil Q1 Es la mediana de la primera mitad (divide en dos los datos menores)

    Tercer cuartil Q3 Es la mediana de la segunda mitad (divide en dos los datos mayores)

    Si usted ha tenido hijos seguramente ya sabra que son los percentiles. . .

    Rango Diferencia entre la observacion mas grande y la mas pequena

    Rango intercuartlico Diferencia entre el tercer y el primer cuartil

    Ambos rangos son medidas de dispersion (como la varianza, la desviacion tpica y el

    coeficiente de variacion)

  • Diagrama de cajas 20

    El diagrama de caja (boxplot) es un grafico que representa los valores maximo,

    mnimo, la mediana y los cuartiles

  • Ejercicio 21

    Ejercicio 12.

    (a) Genere un diagrama de cajas de la variable peso de los recien nacidos.

    (b) Compruebe los cuartiles en la muestra (pinchando en el grafico).

    (c) Compruebe que el rango es de casi 5 kilos! pero el rango intercuartlico es de

    menos de 700 gramos.

    (d) Genere un grafico con tres diagramas de cajas de la variable peso, uno por cada

    grupo de ninos con madres de raza distinta (observe el resumen numerico)

    bweight4.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    # leemos el archivo de datos bweight.gdtopen datos/bweight.gdt

    # diagrama de cajasboxplot bweight --output="display"# Gretl tambien entenderia lo siguiente: # boxplot 1# (la opcion '--output="display" ' solo es necesaria para ejecutar un scrip en ``batch'').# Tambien es posible pinchar con el boton derecho sobre la variable # y seleccionar -> 'Grafico de cajas'

    # Pinchando con el boton derecho sobre el grafico puede seleccionar en el# menu desplagable -> 'resumen numerico' para ver los valores numericos

    # Ahora generamos un grafico con varios diagramas de cajas (uno para cada raza)boxplot 1 (race=1) 1 (race=2) 1 (race=3) --output="display" # Tecleando # boxplot bweight (race=1) bweight (race=2) bweight (race=3)# realizaria lo mismo

    Marcos Bujosa

  • Diagramas de cajas con distintos bigotes 22

  • Diagramas de cajas con distintos bigotes 22

  • Robustez de la mediana frente a la media en presencia de atpicos 23

    La media se ve afectada por datos extremos, pero no la mediana

    # leemos el archivo de datos bweight.gdtopen datos/bweight.gdt

    # calculo de estadisticos descriptivos "uno a uno"pmedio=mean(bweight)# o tambien pinchar en 'Anadir' -> 'Definir nueva variable' y escribir "pmedio=mean(bweight)"varianza=var(bweight)# o tambien pinchar en 'Anadir' -> 'Definir nueva variable' y escribir "varianza=var(bweight)"desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight,0.25)q3=quantile(bweight,0.75)rango=q3-q1

    # definimos un nuevo peso dato_anomalo=700000

    # guardamos el peso del bebe mas grandegordito=max(bweight)

    # generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweight,gordito,dato_anomalo)# o defnimos una nueva variable "nuevos_pesos" igual a "bweight"# o mas sencillo a "sort(bweight)" y editamos el valor a mano...

    # calculo de estadisticos descriptivos "uno a uno"pmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos,0.25)q3_n=quantile(nuevos_pesos,0.75)rango_n=q3-q1

    # escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n # tambien podemos "pinchar" en 'Ver' -> 'Escalares'

    Marcos Bujosa

  • Robustez de la mediana frente a la media en presencia de atpicos 23

    La media se ve afectada por datos extremos, pero no la mediana

    Ejercicio 13.

    (a) Calcule los estadsticos descriptivos de la variable peso

    (b) Calcule el rango intercuartlico

    (c) Modifique el peso del bebe mas pesado (obs 1013), ponga un peso de 700 kg

    (700000)

    (d) Calcule de nuevo los estadsticos descriptivos de la variable peso y el rango

    intercuartlico

    (e) Observe el efecto sobre la media y la mediana

    (f) Observe el efecto sobre la varianza y el rango intercuartlico

    bweight5.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    # leemos el archivo de datos bweight.gdtopen datos/bweight.gdt

    # calculo de estadisticos descriptivos "uno a uno"pmedio=mean(bweight)# o tambien pinchar en 'Anadir' -> 'Definir nueva variable' y escribir "pmedio=mean(bweight)"varianza=var(bweight)# o tambien pinchar en 'Anadir' -> 'Definir nueva variable' y escribir "varianza=var(bweight)"desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight,0.25)q3=quantile(bweight,0.75)rango=q3-q1

    # definimos un nuevo peso dato_anomalo=700000

    # guardamos el peso del bebe mas grandegordito=max(bweight)

    # generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweight,gordito,dato_anomalo)# o defnimos una nueva variable "nuevos_pesos" igual a "bweight"# o mas sencillo a "sort(bweight)" y editamos el valor a mano...

    # calculo de estadisticos descriptivos "uno a uno"pmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos,0.25)q3_n=quantile(nuevos_pesos,0.75)rango_n=q3-q1

    # escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n # tambien podemos "pinchar" en 'Ver' -> 'Escalares'

    Marcos Bujosa

  • Robustez de la mediana frente a la media en presencia de atpicos 23

    La media se ve afectada por datos extremos, pero no la mediana

    Ejercicio 13.

    (a) Calcule los estadsticos descriptivos de la variable peso

    (b) Calcule el rango intercuartlico

    (c) Modifique el peso del bebe mas pesado (obs 1013), ponga un peso de 700 kg

    (700000)

    (d) Calcule de nuevo los estadsticos descriptivos de la variable peso y el rango

    intercuartlico

    (e) Observe el efecto sobre la media y la mediana

    (f) Observe el efecto sobre la varianza y el rango intercuartlico

    bweight5.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    La mediana y los cuartiles solo tienen en cuenta el orden, y no la magnitud de los

    datos

    En presencia de datos anomalos, es mejor usar la mediana y el rango intercuartlico.

    # leemos el archivo de datos bweight.gdtopen datos/bweight.gdt

    # calculo de estadisticos descriptivos "uno a uno"pmedio=mean(bweight)# o tambien pinchar en 'Anadir' -> 'Definir nueva variable' y escribir "pmedio=mean(bweight)"varianza=var(bweight)# o tambien pinchar en 'Anadir' -> 'Definir nueva variable' y escribir "varianza=var(bweight)"desv_tip=sd(bweight)pmediano=median(bweight)q1=quantile(bweight,0.25)q3=quantile(bweight,0.75)rango=q3-q1

    # definimos un nuevo peso dato_anomalo=700000

    # guardamos el peso del bebe mas grandegordito=max(bweight)

    # generamos una nueva variable con el dato anomalonuevos_pesos=replace(bweight,gordito,dato_anomalo)# o defnimos una nueva variable "nuevos_pesos" igual a "bweight"# o mas sencillo a "sort(bweight)" y editamos el valor a mano...

    # calculo de estadisticos descriptivos "uno a uno"pmedio_n=mean(nuevos_pesos)varianza_n=var(nuevos_pesos)desv_tip_n=sd(nuevos_pesos)pmediano_n=median(nuevos_pesos)q1_n=quantile(nuevos_pesos,0.25)q3_n=quantile(nuevos_pesos,0.75)rango_n=q3-q1

    # escribimos los valoresprint pmedio pmediano varianza desv_tip rango pmedio_n pmediano_n varianza_n desv_tip_n rango_n # tambien podemos "pinchar" en 'Ver' -> 'Escalares'

    Marcos Bujosa

  • Ejercicios 24

    Ejercicio 14.

    (a) Usando la funcion quantile del anterior ejercicio calcule unos cuantos percentiles

    (los que usted quiera) de la distribucion de pesos de los ninos.

    bweight6.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    (b) Haga lo mismo con la variable colesterol. . . si calcula percentiles que esten

    proximos (por ejemplo 94, 95, y 96) enseguida notara que esta variable es

    discreta. . . (observaciones concentradas en unos pocos puntos).

    (c) Compare las distribuciones en los niveles de colesterol entre hombres y mujeres

    empleando sendos diagramas de cajas.

    cholesterol3.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    # leemos el archivo de datos bweight.gdtopen datos/bweight.gdt

    # percentilesp90=quantile(bweight,0.90)p91=quantile(bweight,0.91)

    p94=quantile(bweight,0.94)p95=quantile(bweight,0.95)p96=quantile(bweight,0.96)

    p97=quantile(bweight,0.97)p98=quantile(bweight,0.98)

    p01=quantile(bweight,0.01)

    Marcos Bujosa

    # leemos el archivo de datos cholesterol.gdtopen datos/cholesterol.gdt

    # percentilesp90=quantile(cholest,0.90)p91=quantile(cholest,0.91)

    p94=quantile(cholest,0.94)p95=quantile(cholest,0.95)p96=quantile(cholest,0.96)

    p97=quantile(cholest,0.97)p98=quantile(cholest,0.98)

    # diagramas de cajaboxplot 1 (gender=0) 1 (gender=1) --output="display"

    # estadisticos principalessummary cholest --by=gender

    Marcos Bujosa

  • Ejercicios 25

    Ejercicio 15. En distribuciones perfectamente simetricas media y mediana coinciden

    (el centro de la distribucion es el mismo con ambos criterios)

    Puesto que la mediana solo tiene en cuenta el orden, y no la magnitud de los datos,

    un dato anomalo muy muy grande arrastrara la media a la derecha, y aumentara el

    coeficiente de asimetra (aumentara la asimetra hacia la derecha).

    (a) En tal caso (distribuciones asimetricas hacia la derecha) a que lado de la mediana

    esperamos ver a la media?

    (b) Y si la distribucion es asimetrica hacia la izquierda?

    (c) Mire los diagramas de caja (boxplot) del ultimo ejercicio (niveles de colesterol). A

    la luz de las posiciones relativas de la media (cruz) y la mediana, las distribuciones

    tanto para hombre como para mujer son asimetricas hacia. . . Verifique su respuesta

    mirando el signo del coeficiente de asimetra de ambas distribuciones

  • Ejercicios 26

    Ejercicio 16. Los datos siguientes expresan el numero de das transcurridos hasta la

    primera avera en cierto tipo de electrodomestico:

    534 873 435 654 432 984 321 765 453

    765 564 982 873 567 871 658 564 399

    (a) Calcular la media, desviacion tpica, mediana y rango intercuartlico de las

    observaciones.

    (b) Hallar la transformacion lineal de la variable que represente el tiempo de duracion

    en semanas.

    (c) Obtener la media, desviacion tpica, mediana y rango intercuartlico de los datos

    transformados. Que relacion guardan con los valores originales?

    averias.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    averias2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    # leemos el archivo de datos averias.txtopen datos/averias.txt

    # estadisticossummary v1 --simpleboxplot v1 --output="display"

    # o bienmedia = mean(v1)desv_tipica = sd(v1)mediana = quantile(v1,0.50)q1 = quantile(v1,0.25)q3 = quantile(v1,0.75)rango_inter_q = quantile(v1,0.75) - quantile(v1,0.25)

    #trasformamos en semanasgenr v2=v1/7

    # y repetimos los calculos para v2summary v2 --simpleboxplot v2 --output="display"

    # o bienmedia_2 = mean(v2)desv_tipica_2 = sd(v2)mediana_2 = quantile(v2,0.50)q1_2 = quantile(v2,0.25)q3_2 = quantile(v2,0.75)rango_inter_q_2 = quantile(v2,0.75) - quantile(v2,0.25)

    Marcos Bujosa

    # leemos el archivo de datos averias.txtopen datos/averias.txt

    #trasformamos en semanasgenr v2=v1/7

    # estadisticossummary v1 v2 boxplot v1 v2 --output="display"

    Marcos Bujosa

  • Que grafico es mas informativo en el caso de una serie temporal? 27

  • A modo de resumen. Diagramas de barras e Histogramas 28

    Cualitativas Clases definidas

    de manera natural. Orden

    arbitrario

    Cuantitativas discretas Clases

    definidas de manera natural.

    Orden pre-establecido

    Cuantitativas continuas Clases

    definidas de arbitraria. Orden

    pre-establecido0

    0,1

    0,2

    0,3

    0,4

    0,5

    0,6

    0,7

    0,8

    0,9

    blanca negra otras

    Fre

    cuen

    cia

    rela

    tiva

    Raza de la madre

    0

    0,02

    0,04

    0,06

    0,08

    0,1

    120 140 160 180 200

    Fre

    cuen

    cia

    rela

    tiva

    Niveles de colesterol

    0

    0,02

    0,04

    0,06

    0,08

    0,1

    0,12

    0,14

    1000 2000 3000 4000 5000

    Fre

    cuen

    cia

    rela

    tiva

    Peso del bebe al nacer (gramos)

  • A modo de resumen. Diagramas de caja 29

  • Tablas de contingencia: frecuencia absoluta conjunta y marginal 30

    Datos de la poblacion de tu ciudad en miles de personas

    renta \ edad joven maduro viejopobre 800 400 600

    media 400 1000 200

    rico 40 240 320

    4000

    Frecuencia absoluta conjunta (Distribucion bivariante)

  • Tablas de contingencia: frecuencia absoluta conjunta y marginal 30

    Datos de la poblacion de tu ciudad en miles de personas

    renta \ edad joven maduro viejopobre 800 400 600

    media 400 1000 200

    rico 40 240 320

    Nedad 1240 1640 1120 4000

    Frecuencia absoluta conjunta (Distribucion bivariante)

    Frecuencia absoluta marginal de las edades (Distribucion univariante)

  • Tablas de contingencia: frecuencia absoluta conjunta y marginal 30

    Datos de la poblacion de tu ciudad en miles de personas

    renta \ edad joven maduro viejo Nrentapobre 800 400 600 1800

    media 400 1000 200 1600

    rico 40 240 320 600

    Nedad 1240 1640 1120 4000

    Frecuencia absoluta conjunta (Distribucion bivariante)

    Frecuencia absoluta marginal de las edades (Distribucion univariante)

    Frecuencia absoluta marginal de las rentas (Distribucion univariante)

  • Tablas de contingencia: frecuencia relativa conjunta y marginal 31

    renta \ edad joven maduro viejo P1()pobre 0.20 0.10 0.15

    media 0.10 0.25 0.05

    rico 0.01 0.06 0.08

    P2() 1

    1. Quien soy?

  • Tablas de contingencia: frecuencia relativa conjunta y marginal 31

    renta \ edad joven maduro viejo P1()pobre 0.20 0.10 0.15

    media 0.10 0.25 0.05

    rico 0.01 0.06 0.08

    P2() 1

    1. Quien soy?

    2. Que edad tengo?

  • Tablas de contingencia: frecuencia relativa conjunta y marginal 31

    renta \ edad joven maduro viejo P1()pobre 0.20 0.10 0.15

    media 0.10 0.25 0.05

    rico 0.01 0.06 0.08

    P2() 0.31 0.41 0.28 1

    1. Quien soy?

    2. Que edad tengo?

  • Tablas de contingencia: frecuencia relativa conjunta y marginal 31

    renta \ edad joven maduro viejo P1()pobre 0.20 0.10 0.15

    media 0.10 0.25 0.05

    rico 0.01 0.06 0.08

    P2() 0.31 0.41 0.28 1

    1. Quien soy?

    2. Que edad tengo?

    3. Que renta tengo?

  • Tablas de contingencia: frecuencia relativa conjunta y marginal 31

    renta \ edad joven maduro viejo P1()pobre 0.20 0.10 0.15 0.45

    media 0.10 0.25 0.05 0.40

    rico 0.01 0.06 0.08 0.15

    P2() 0.31 0.41 0.28 1

    1. Quien soy?

    2. Que edad tengo?

    3. Que renta tengo?

  • Tablas de contingencia: frecuencia relativa conjunta y marginal 31

    renta \ edad joven maduro viejo P1()pobre 0.20 0.10 0.15 0.45

    media 0.10 0.25 0.05 0.40

    rico 0.01 0.06 0.08 0.15

    P2() 0.31 0.41 0.28 1

    1. Quien soy?

    2. Que edad tengo?

    3. Que renta tengo?

    Tu quedaste bien, pero tu Ferrari esta destrozado. . .

  • Tablas de contingencia: frecuencia relativa conjunta y marginal 31

    renta \ edad joven maduro viejo P1()pobre 0.20 0.10 0.15 0.45

    media 0.10 0.25 0.05 0.40

    rico 0.01 0.06 0.08 0.15

    P2() 0.31 0.41 0.28 1

    1. Quien soy?

    2. Que edad tengo?

    3. Que renta tengo?

    Tu quedaste bien, pero tu Ferrari esta destrozado. . .

    Distribucion condicionada (Probabilidad de la edad condicionada a ser rico):[0.01 0.06 0.08

    ]

  • Tablas de contingencia: frecuencia relativa conjunta y marginal 31

    renta \ edad joven maduro viejo P1()pobre 0.20 0.10 0.15 0.45

    media 0.10 0.25 0.05 0.40

    rico 0.01 0.06 0.08 0.15

    P2() 0.31 0.41 0.28 1

    1. Quien soy?

    2. Que edad tengo?

    3. Que renta tengo?

    Tu quedaste bien, pero tu Ferrari esta destrozado. . .

    Distribucion condicionada (Probabilidad de la edad condicionada a ser rico):[0.01 0.06 0.08

    ]/ 0.15 =

  • Tablas de contingencia: frecuencia relativa conjunta y marginal 31

    renta \ edad joven maduro viejo P1()pobre 0.20 0.10 0.15 0.45

    media 0.10 0.25 0.05 0.40

    rico 0.01 0.06 0.08 0.15

    P2() 0.31 0.41 0.28 1

    1. Quien soy?

    2. Que edad tengo?

    3. Que renta tengo?

    Tu quedaste bien, pero tu Ferrari esta destrozado. . .

    Distribucion condicionada (Probabilidad de la edad condicionada a ser rico):[0.01 0.06 0.08

    ]/ 0.15 =

    [0.07 0.40 0.53

    ]

  • Ejercicio. Diagrama de dispersion. Distribuciones marginales 32

    Ejercicio 17. Abra el conjunto de datos ps2-1 (open ps2-1 o Archivo

    ->Abrir datos ->Archivo de muestra ->Rammanatham ->data2-1.

    calificaciones.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Gretl

    (a) Seleccione simultaneamente las variables vsat y msat (calificaciones en lengua

    y matematicas)

    # leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output="display"#freq msat --output="display" # pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output="display"#freq vsat --output="display" # pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

    Marcos Bujosa

  • Ejercicio. Diagrama de dispersion. Distribuciones marginales 32

    Ejercicio 17. Abra el conjunto de datos ps2-1 (open ps2-1 o Archivo

    ->Abrir datos ->Archivo de muestra ->Rammanatham ->data2-1.

    calificaciones.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Gretl

    (a) Seleccione simultaneamente las variables vsat y msat (calificaciones en lengua

    y matematicas)

    (b) Pinche sobre ellas con el boton derecho y seleccione Grafico de dos variables XY

    Elija msat para el eje de abscisas (eje x)

    (este tipo de grafico se llama diagrama de dispersion)

    # leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output="display"#freq msat --output="display" # pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output="display"#freq vsat --output="display" # pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

    Marcos Bujosa

  • Ejercicio. Diagrama de dispersion. Distribuciones marginales 32

    Ejercicio 17. Abra el conjunto de datos ps2-1 (open ps2-1 o Archivo

    ->Abrir datos ->Archivo de muestra ->Rammanatham ->data2-1.

    calificaciones.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Gretl

    (a) Seleccione simultaneamente las variables vsat y msat (calificaciones en lengua

    y matematicas)

    (b) Pinche sobre ellas con el boton derecho y seleccione Grafico de dos variables XY

    Elija msat para el eje de abscisas (eje x)

    (este tipo de grafico se llama diagrama de dispersion)

    (c) Seleccione msat, y pinchando sobre ella con el boton derecho genere un grafico

    de Distribucion de frecuencias con 45 intervalos

    # leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output="display"#freq msat --output="display" # pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output="display"#freq vsat --output="display" # pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

    Marcos Bujosa

  • Ejercicio. Diagrama de dispersion. Distribuciones marginales 32

    Ejercicio 17. Abra el conjunto de datos ps2-1 (open ps2-1 o Archivo

    ->Abrir datos ->Archivo de muestra ->Rammanatham ->data2-1.

    calificaciones.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Gretl

    (a) Seleccione simultaneamente las variables vsat y msat (calificaciones en lengua

    y matematicas)

    (b) Pinche sobre ellas con el boton derecho y seleccione Grafico de dos variables XY

    Elija msat para el eje de abscisas (eje x)

    (este tipo de grafico se llama diagrama de dispersion)

    (c) Seleccione msat, y pinchando sobre ella con el boton derecho genere un grafico

    de Distribucion de frecuencias con 45 intervalos

    (d) Compare ambos graficos. El primero representa la distribucion conjunta, y el

    segundo la distribucion marginal de las calificaciones en matematicas.

    # leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output="display"#freq msat --output="display" # pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output="display"#freq vsat --output="display" # pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

    Marcos Bujosa

  • Ejercicio. Diagrama de dispersion. Distribuciones marginales 32

    Ejercicio 17. Abra el conjunto de datos ps2-1 (open ps2-1 o Archivo

    ->Abrir datos ->Archivo de muestra ->Rammanatham ->data2-1.

    calificaciones.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Gretl

    (a) Seleccione simultaneamente las variables vsat y msat (calificaciones en lengua

    y matematicas)

    (b) Pinche sobre ellas con el boton derecho y seleccione Grafico de dos variables XY

    Elija msat para el eje de abscisas (eje x)

    (este tipo de grafico se llama diagrama de dispersion)

    (c) Seleccione msat, y pinchando sobre ella con el boton derecho genere un grafico

    de Distribucion de frecuencias con 45 intervalos

    (d) Compare ambos graficos. El primero representa la distribucion conjunta, y el

    segundo la distribucion marginal de las calificaciones en matematicas.

    (e) Repita el diagrama de dispersion pero con vsat en el eje de abscisas (eje x)

    # leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output="display"#freq msat --output="display" # pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output="display"#freq vsat --output="display" # pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

    Marcos Bujosa

  • Ejercicio. Diagrama de dispersion. Distribuciones marginales 32

    Ejercicio 17. Abra el conjunto de datos ps2-1 (open ps2-1 o Archivo

    ->Abrir datos ->Archivo de muestra ->Rammanatham ->data2-1.

    calificaciones.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Gretl

    (a) Seleccione simultaneamente las variables vsat y msat (calificaciones en lengua

    y matematicas)

    (b) Pinche sobre ellas con el boton derecho y seleccione Grafico de dos variables XY

    Elija msat para el eje de abscisas (eje x)

    (este tipo de grafico se llama diagrama de dispersion)

    (c) Seleccione msat, y pinchando sobre ella con el boton derecho genere un grafico

    de Distribucion de frecuencias con 45 intervalos

    (d) Compare ambos graficos. El primero representa la distribucion conjunta, y el

    segundo la distribucion marginal de las calificaciones en matematicas.

    (e) Repita el diagrama de dispersion pero con vsat en el eje de abscisas (eje x)

    (f) Genere un grafico de Distribucion de frecuencias para vsat con 48 intervalos

    # leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output="display"#freq msat --output="display" # pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output="display"#freq vsat --output="display" # pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

    Marcos Bujosa

  • Ejercicio. Diagrama de dispersion. Distribuciones marginales 32

    Ejercicio 17. Abra el conjunto de datos ps2-1 (open ps2-1 o Archivo

    ->Abrir datos ->Archivo de muestra ->Rammanatham ->data2-1.

    calificaciones.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Gretl

    (a) Seleccione simultaneamente las variables vsat y msat (calificaciones en lengua

    y matematicas)

    (b) Pinche sobre ellas con el boton derecho y seleccione Grafico de dos variables XY

    Elija msat para el eje de abscisas (eje x)

    (este tipo de grafico se llama diagrama de dispersion)

    (c) Seleccione msat, y pinchando sobre ella con el boton derecho genere un grafico

    de Distribucion de frecuencias con 45 intervalos

    (d) Compare ambos graficos. El primero representa la distribucion conjunta, y el

    segundo la distribucion marginal de las calificaciones en matematicas.

    (e) Repita el diagrama de dispersion pero con vsat en el eje de abscisas (eje x)

    (f) Genere un grafico de Distribucion de frecuencias para vsat con 48 intervalos

    (g) Compare los dos ultimos graficos. El primero representa la distribucion conjunta,

    y el segundo la distribucion marginal de las calificaciones en lengua. (No cierre)

    # leemos el archivo de datos data2-1open data2-1gnuplot vsat msat --suppress-fitted --output="display"#freq msat --output="display" # pero asi no podemos forzar 44 intervalos (necesitamos modo grafico)gnuplot msat vsat --suppress-fitted --output="display"#freq vsat --output="display" # pero asi no podemos forzar 50 intervalos (necesitamos modo grafico)

    Marcos Bujosa

  • Ejercicio. Distribuciones condicionadas 33

    Ejercicio 18. Continuamos con la sesion de Gretl del ejercicio anterior. . . pero ya

    puede cerrar los graficos (diagramas de dispersion y barras).

    calificaciones2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    (a) Calcule los estadsticos principales de vsat y observe su diagrama de caja de

    vsat junto con el resumen numerico (centre su atencion en la calificacion media).

    open data2-1 # leemos el archivo de datos data2-1# recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msat>600) vsat (msat>650) --output="display"

    summary vsat # estadisticossmpl msat>600 --restrict # restrinjamos la muestrasummary vsat # estadisticossmpl msat>650 --restrict # restrinjamos la muestra mas aunsummary vsat

    Marcos Bujosa

  • Ejercicio. Distribuciones condicionadas 33

    Ejercicio 18. Continuamos con la sesion de Gretl del ejercicio anterior. . . pero ya

    puede cerrar los graficos (diagramas de dispersion y barras).

    calificaciones2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    (a) Calcule los estadsticos principales de vsat y observe su diagrama de caja de

    vsat junto con el resumen numerico (centre su atencion en la calificacion media).

    (b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (msat)

    (c) Calcule de nuevo los estadsticos principales de vsat junto con el diagrama de

    caja de vsat (y su resumen numerico). Ha cambiado algo?

    open data2-1 # leemos el archivo de datos data2-1# recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msat>600) vsat (msat>650) --output="display"

    summary vsat # estadisticossmpl msat>600 --restrict # restrinjamos la muestrasummary vsat # estadisticossmpl msat>650 --restrict # restrinjamos la muestra mas aunsummary vsat

    Marcos Bujosa

  • Ejercicio. Distribuciones condicionadas 33

    Ejercicio 18. Continuamos con la sesion de Gretl del ejercicio anterior. . . pero ya

    puede cerrar los graficos (diagramas de dispersion y barras).

    calificaciones2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    (a) Calcule los estadsticos principales de vsat y observe su diagrama de caja de

    vsat junto con el resumen numerico (centre su atencion en la calificacion media).

    (b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (msat)

    (c) Calcule de nuevo los estadsticos principales de vsat junto con el diagrama de

    caja de vsat (y su resumen numerico). Ha cambiado algo?

    (d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (msat)

    (e) Calcule de nuevo los estadsticos principales de vsat junto con el diagrama de

    caja de vsat (y su resumen numerico). Ha cambiado algo?. . . En el mismo

    sentido que en el caso anterior?

    open data2-1 # leemos el archivo de datos data2-1# recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msat>600) vsat (msat>650) --output="display"

    summary vsat # estadisticossmpl msat>600 --restrict # restrinjamos la muestrasummary vsat # estadisticossmpl msat>650 --restrict # restrinjamos la muestra mas aunsummary vsat

    Marcos Bujosa

  • Ejercicio. Distribuciones condicionadas 33

    Ejercicio 18. Continuamos con la sesion de Gretl del ejercicio anterior. . . pero ya

    puede cerrar los graficos (diagramas de dispersion y barras).

    calificaciones2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    (a) Calcule los estadsticos principales de vsat y observe su diagrama de caja de

    vsat junto con el resumen numerico (centre su atencion en la calificacion media).

    (b) Restrinja la muestra a alumnos con nota superior a 600 en matematicas (msat)

    (c) Calcule de nuevo los estadsticos principales de vsat junto con el diagrama de

    caja de vsat (y su resumen numerico). Ha cambiado algo?

    (d) Restrinja la muestra a alumnos con nota superior a 650 en matematicas (msat)

    (e) Calcule de nuevo los estadsticos principales de vsat junto con el diagrama de

    caja de vsat (y su resumen numerico). Ha cambiado algo?. . . En el mismo

    sentido que en el caso anterior?

    (f) Dira usted que a los que se les da bien las matematicas no son buenos en

    lengua, y viceversa? o por el contrario dira usted que los buenos estudiantes en

    una asignatura suelen serlo tambien en otras?

    open data2-1 # leemos el archivo de datos data2-1# recuerde mirar el resumen numerico de diagrama de cajaboxplot vsat vsat (msat>600) vsat (msat>650) --output="display"

    summary vsat # estadisticossmpl msat>600 --restrict # restrinjamos la muestrasummary vsat # estadisticossmpl msat>650 --restrict # restrinjamos la muestra mas aunsummary vsat

    Marcos Bujosa

  • Distribuciones absolutas conjunta y marginales. 34

    Alturas de padres e hijos

    Hijos

    Padres < 160 160 164 165 169 170 174 175 179 180 184 185 189 > 190

    < 160 4 4 1 9

    160 164 2 7 10 3 22165 169 3 20 25 9 4 61170 174 4 18 26 30 19 1 98175 179 2 17 22 20 4 1 66180 184 5 15 17 8 2 47185 189 1 4 2 1 8> 190 1 1

    6 18 51 76 77 64 16 4 3121

  • Distribuciones conjuntas. Distribuciones condicionadas. 35

    Alturas de padres e hijos

    Hijos

    Padres < 160 160 164 165 169 170 174 175 179 180 184 185 189 > 190

    < 160 0.013 0.013 0.003 0.029

    160 164 0.006 0.022 0.032 0.010 0.070165 169 0.010 0.064 0.080 0.028 0.013 0.195170 174 0.013 0.058 0.083 0.096 0.061 0.003 0.314175 179 0.006 0.054 0.070 0.064 0.013 0.003 0.212180 184 0.016 0.048 0.054 0.026 0.006 0.151185 189 0.003 0.013 0.006 0.003 0.026> 190 0.003 0.003

    0.019 0.058 0.163 0.244 0.247 0.205 0.051 0.013 1

  • Distribuciones conjuntas. Distribuciones condicionadas. 35

    Alturas de padres e hijos

    Hijos

    Padres < 160 160 164 165 169 170 174 175 179 180 184 185 189 > 190

    < 160 0.013 0.013 0.003 0.029

    160 164 0.006 0.022 0.032 0.010 0.070165 169 0.010 0.064 0.080 0.028 0.013 0.195170 174 0.013 0.058 0.083 0.096 0.061 0.003 0.314175 179 0.006 0.054 0.070 0.064 0.013 0.003 0.212180 184 0.016 0.048 0.054 0.026 0.006 0.151185 189 0.003 0.013 0.006 0.003 0.026> 190 0.003 0.003

    0.019 0.058 0.163 0.244 0.247 0.205 0.051 0.013 1

    Distribucion condicionanda de la altura de hijos de padres de entre 165 y 169:

    Padres < 160 160 164 165 169 170 174 175 179 180 184 185 189 > 190

    165 169 0.049 0.328 0.410 0.148 0.065

    Distribucion condicionanda de la altura de hijos de padres de entre 180 y 184

    Padres < 160 160 164 165 169 170 174 175 179 180 184 185 189 > 190

    185 189 0.059 0.255 0.510 0.117 0.059

    (Regresion a la media)

  • Ejercicio. Diagrama de dispersion y relaciones entre variables 36

    Diagrama de dispersion, nube de puntos o scatter.

    Ejercicio 19. Cargue los datos de estatura entre padres e hijos

    (estatura padre hijo.gdt)

    estaturas.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    (a) Realice un diagrama de dispersion con la altura de los padres en el eje X

    (b) Observe que la relacion entre alturas es aproximadamente lineal

    # leemos el archivo de datos estatura_padre_hijo.gdtopen datos/estatura_padre_hijo.gdt# diagrama de dispersionscatters Estatura_Hijo; Estatura_Padre --output="display"# o mejorgnuplot Estatura_Hijo Estatura_Padre --suppress-fitted --output="display"# otra forma es marcar las dos series y desplegar el menu # (pulsando boton derecho sobre ellas) y despues seleccionar # 'Grafico de dos variables XY' (pinchando el grafico, este se puede editar)

    Marcos Bujosa

  • Ejercicio. Diagrama de dispersion y relaciones entre variables 37

    Ejercicio 20. Cargue los datos de ventas (ventas.txt)

    ventas.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    (a) Realice un grafico de las ventas, su histograma y diagrama de caja observa alguna

    pauta?. . .

    open datos/ventas.txtgenr index # agregamos variable "indice" para dibujar las "Ventas" de cada vendedor# grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output="display"boxplot Ventas --output="display"freq Ventas # Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output="display"

    Marcos Bujosa

    open datos/ventas2.txtgnuplot Ventas Antig --suppress-fitted --output="display" # Diagrama de dispersion

    Marcos Bujosa

  • Ejercicio. Diagrama de dispersion y relaciones entre variables 37

    Ejercicio 20. Cargue los datos de ventas (ventas.txt)

    ventas.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    (a) Realice un grafico de las ventas, su histograma y diagrama de caja observa alguna

    pauta?. . .

    (b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama

    de dispersion entre ventas y antiguedad (con Antig en eje de abscisas (X))

    (c) observa alguna relacion entre antiguedad y ventas? de que tipo?

    open datos/ventas.txtgenr index # agregamos variable "indice" para dibujar las "Ventas" de cada vendedor# grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output="display"boxplot Ventas --output="display"freq Ventas # Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output="display"

    Marcos Bujosa

    open datos/ventas2.txtgnuplot Ventas Antig --suppress-fitted --output="display" # Diagrama de dispersion

    Marcos Bujosa

  • Ejercicio. Diagrama de dispersion y relaciones entre variables 37

    Ejercicio 20. Cargue los datos de ventas (ventas.txt)

    ventas.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    (a) Realice un grafico de las ventas, su histograma y diagrama de caja observa alguna

    pauta?. . .

    (b) Relacionemos ventas logradas con antiguedad del vendedor mediante un diagrama

    de dispersion entre ventas y antiguedad (con Antig en eje de abscisas (X))

    (c) observa alguna relacion entre antiguedad y ventas? de que tipo?

    Ejercicio 21. Cargue los datos ventas2 correspondientes a otra empresa

    (ventas2.txt)

    ventas2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Gretl

    (a) Genere un diagrama de dispersion con los nuevos datos de ventas y antiguedad.

    (b) Que diferencias y que semejanzas hay entre ambas relaciones (esta y la anterior)?

    open datos/ventas.txtgenr index # agregamos variable "indice" para dibujar las "Ventas" de cada vendedor# grafico de las ventas logradas por cada trabajadorgnuplot Ventas index --suppress-fitted --with-lines --output="display"boxplot Ventas --output="display"freq Ventas # Diagrama de dispersion entre ventas y experienciagnuplot Ventas Antig --suppress-fitted --output="display"

    Marcos Bujosa

    open datos/ventas2.txtgnuplot Ventas Antig --suppress-fitted --output="display" # Diagrama de dispersion

    Marcos Bujosa

  • Media y varianza condicionadas 38

    VentasMCondS2Cond

    0

    50

    100

    150

    200

    250

    10 20 30 40 50 60 70

    Ven

    tas

    Antiguedad

    Media y varianza por intervalos (condicionandas)

    EstCondVentas.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    include EstadCond.inp # cargamos la funcion "EstadCond"open datos/ventas.txt # cargamos los datos de "ventas"# calculamos los estadisticos de "Ventas" en intervalos de la variable "Antig" # (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(Ventas,Antig,10)

    Marcos Bujosa

  • Media y varianza condicionadas 39

    Ventas (izquierda)MCond (izquierda)S2Cond (derecha)

    0

    200

    400

    600

    800

    1000

    1200

    1400

    1600

    10 20 30 40 50 60 700

    10000

    20000

    30000

    40000

    50000

    60000V

    enta

    s

    Var

    ian

    zaco

    nd

    icio

    na

    da

    Antiguedad

    Media y varianza por intervalos (condicionandas)

    EstCondVentas2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Gretl

    include EstadCond.inp # cargamos la funcion "EstadCond"open datos/ventas2.txt # cargamos los datos de "ventas2"# calculamos los estadisticos de "Ventas" en intervalos de la variable "Antig" # (intervalos de antiguedad de 10 meses)list EstCond = EstadCond(Ventas,Antig,10)

    Marcos Bujosa

  • ejercicios 40

    Reproduzcamos los dos graficos anteriores:

    Ejercicio 22. Abra el conjunto de datos ps2-1 (open ps2-1 o Archivo

    ->Abrir datos ->Archivo de muestra ->Rammanatham ->ps2-1.

    calificaciones3.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    (a) Calcule la media en la nota en lengua, condicionada a las calificaciones en

    matematicas (en intervalos de 100 puntos por ejemplo).

    (b) Calcule la media en la nota en matematicas, condicionada a las calificaciones en

    lengua.

    (c) Dira usted que a los que se les da bien las matematicas no son buenos en

    lengua, y viceversa? o por el contrario dira usted que los buenos estudiantes en

    una asignatura suelen serlo tambien en otras?

    include EstadCond.inp # cargamos la funcion "EstadCond"open data2-1 # cargamos los datos de las calificacionesEstadCond(vsat,msat,100) # media lengua condicionada a nota en matesEstadCond(msat,vsat,100) # media en mates condicionada a nota en lengua

    Marcos Bujosa

  • Diagramas de dispersion y relacion entre variables 41

    La nubes de puntos sugieren la posible existencia de relaciones entre variables.

  • Diagramas de dispersion y relacion entre variables 42

    Asocie los graficos (de a a f) con las siguientes posibles relaciones entre variables:

    1. Relacion lineal positiva

    2. Relacion lineal negativa

    3. Relacion lineal aparente, pero debida a observaciones atpicas

    4. Relacion no lineal

    5. Sin relacion aparente entre las variables

  • Primer intento de medicion de asociacion lineal entre variables: Covarianza 43

    cov(x, y) =

    (xi x)(yi y)

    N

    y

    x

    Est

    atu

    rad

    elh

    ijo

    (y)

    Estatura del padre (x)

    Estaturas de nueve personas junto con las de sus padres

  • Covarianza 44

    cov(x, y) =

    (xi x)(yi y)

    N

    Mide el grado de asociacion lineal entre dos variable x e y.

    Si es grande y positivo, fuerte asociacion lineal directa

    Si es grande en valor absoluto y negativo, fuerte asociacion lineal inversa

  • Covarianza 44

    cov(x, y) =

    (xi x)(yi y)

    N

    Mide el grado de asociacion lineal entre dos variable x e y.

    Si es grande y positivo, fuerte asociacion lineal directa

    Si es grande en valor absoluto y negativo, fuerte asociacion lineal inversa

    pero. . . que significa grande?

  • Covarianza 44

    cov(x, y) =

    (xi x)(yi y)

    N

    Mide el grado de asociacion lineal entre dos variable x e y.

    Si es grande y positivo, fuerte asociacion lineal directa

    Si es grande en valor absoluto y negativo, fuerte asociacion lineal inversa

    pero. . . que significa grande?

    La covarianza depende de las unidades de medida de x e y.

    La covarianza depende de la dispersion de x e y.

  • Covarianza 44

    cov(x, y) =

    (xi x)(yi y)

    N

    Mide el grado de asociacion lineal entre dos variable x e y.

    Si es grande y positivo, fuerte asociacion lineal directa

    Si es grande en valor absoluto y negativo, fuerte asociacion lineal inversa

    pero. . . que significa grande?

    La covarianza depende de las unidades de medida de x e y.

    La covarianza depende de la dispersion de x e y.

    Es necesaria una normalizacion

  • Segundo intento de medicion de asociacion lineal entre variables: Correlacion 45

    Coef. correlacion de Pearson: x,y =cov(x, y)

    sxsy; 1 cor(x, y) 1

    Ahora grande significa proximo a uno en valor absoluto.

  • Ejercicios 46

    Ejercicio 23. Cargue los datos estatura padre hijo.gdt

    estaturas2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    (a) Calcule la covarianza, la correlacion y genere el diagrama de dispersion de las

    alturas (padrehijo).

    # leemos el archivo de datos estatura_padre_hijo.gdtopen datos/estatura_padre_hijo.gdtcov_ph=cov(Estatura_Hijo, Estatura_Padre)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph=corr(Estatura_Hijo, Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output="display"

    # en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0, Padre0)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph0=corr(Hijo0, Padre0)gnuplot Hijo0 Padre0 --output="display"

    # en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0*100series Padre0cm=Padre0*100cov_ph0_cm=cov(Hijo0cm, Padre0cm)*($nobs-1)/$nobs corr_ph0_cm=corr(Hijo0cm, Padre0cm)gnuplot Hijo0cm Padre0cm --output="display"

    # en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo0*1000series Padre0mm=Padre0*1000cov_ph0_mm=cov(Hijo0mm, Padre0mm)*($nobs-1)/$nobs corr_ph0_mm=corr(Hijo0mm, Padre0mm)gnuplot Estatura_Hijo Padre0mm --output="display"

    print cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm

    # Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_Hijo,Hijo0cm)*($nobs-1)/$nobs corr_hh0cm=corr(Estatura_Hijo,Hijo0cm)gnuplot Estatura_Hijo Hijo0cm --output="display"

    print cov_hh0cm corr_hh0cm

    Marcos Bujosa

  • Ejercicios 46

    Ejercicio 23. Cargue los datos estatura padre hijo.gdt

    estaturas2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    (a) Calcule la covarianza, la correlacion y genere el diagrama de dispersion de las

    alturas (padrehijo).

    (b) Transforme las alturas en desviaciones respecto a la media.

    # leemos el archivo de datos estatura_padre_hijo.gdtopen datos/estatura_padre_hijo.gdtcov_ph=cov(Estatura_Hijo, Estatura_Padre)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph=corr(Estatura_Hijo, Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output="display"

    # en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0, Padre0)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph0=corr(Hijo0, Padre0)gnuplot Hijo0 Padre0 --output="display"

    # en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0*100series Padre0cm=Padre0*100cov_ph0_cm=cov(Hijo0cm, Padre0cm)*($nobs-1)/$nobs corr_ph0_cm=corr(Hijo0cm, Padre0cm)gnuplot Hijo0cm Padre0cm --output="display"

    # en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo0*1000series Padre0mm=Padre0*1000cov_ph0_mm=cov(Hijo0mm, Padre0mm)*($nobs-1)/$nobs corr_ph0_mm=corr(Hijo0mm, Padre0mm)gnuplot Estatura_Hijo Padre0mm --output="display"

    print cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm

    # Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_Hijo,Hijo0cm)*($nobs-1)/$nobs corr_hh0cm=corr(Estatura_Hijo,Hijo0cm)gnuplot Estatura_Hijo Hijo0cm --output="display"

    print cov_hh0cm corr_hh0cm

    Marcos Bujosa

  • Ejercicios 46

    Ejercicio 23. Cargue los datos estatura padre hijo.gdt

    estaturas2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    (a) Calcule la covarianza, la correlacion y genere el diagrama de dispersion de las

    alturas (padrehijo).

    (b) Transforme las alturas en desviaciones respecto a la media.

    (c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el

    diagrama de dispersion).

    # leemos el archivo de datos estatura_padre_hijo.gdtopen datos/estatura_padre_hijo.gdtcov_ph=cov(Estatura_Hijo, Estatura_Padre)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph=corr(Estatura_Hijo, Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output="display"

    # en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0, Padre0)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph0=corr(Hijo0, Padre0)gnuplot Hijo0 Padre0 --output="display"

    # en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0*100series Padre0cm=Padre0*100cov_ph0_cm=cov(Hijo0cm, Padre0cm)*($nobs-1)/$nobs corr_ph0_cm=corr(Hijo0cm, Padre0cm)gnuplot Hijo0cm Padre0cm --output="display"

    # en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo0*1000series Padre0mm=Padre0*1000cov_ph0_mm=cov(Hijo0mm, Padre0mm)*($nobs-1)/$nobs corr_ph0_mm=corr(Hijo0mm, Padre0mm)gnuplot Estatura_Hijo Padre0mm --output="display"

    print cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm

    # Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_Hijo,Hijo0cm)*($nobs-1)/$nobs corr_hh0cm=corr(Estatura_Hijo,Hijo0cm)gnuplot Estatura_Hijo Hijo0cm --output="display"

    print cov_hh0cm corr_hh0cm

    Marcos Bujosa

  • Ejercicios 46

    Ejercicio 23. Cargue los datos estatura padre hijo.gdt

    estaturas2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    (a) Calcule la covarianza, la correlacion y genere el diagrama de dispersion de las

    alturas (padrehijo).

    (b) Transforme las alturas en desviaciones respecto a la media.

    (c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el

    diagrama de dispersion).

    (d) Transforme las alturas en desviaciones a centmetros (cm); y calcule otra vez la

    covarianza y la correlacion (y pinte otro diagrama de dispersion).

    # leemos el archivo de datos estatura_padre_hijo.gdtopen datos/estatura_padre_hijo.gdtcov_ph=cov(Estatura_Hijo, Estatura_Padre)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph=corr(Estatura_Hijo, Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output="display"

    # en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0, Padre0)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph0=corr(Hijo0, Padre0)gnuplot Hijo0 Padre0 --output="display"

    # en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0*100series Padre0cm=Padre0*100cov_ph0_cm=cov(Hijo0cm, Padre0cm)*($nobs-1)/$nobs corr_ph0_cm=corr(Hijo0cm, Padre0cm)gnuplot Hijo0cm Padre0cm --output="display"

    # en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo0*1000series Padre0mm=Padre0*1000cov_ph0_mm=cov(Hijo0mm, Padre0mm)*($nobs-1)/$nobs corr_ph0_mm=corr(Hijo0mm, Padre0mm)gnuplot Estatura_Hijo Padre0mm --output="display"

    print cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm

    # Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_Hijo,Hijo0cm)*($nobs-1)/$nobs corr_hh0cm=corr(Estatura_Hijo,Hijo0cm)gnuplot Estatura_Hijo Hijo0cm --output="display"

    print cov_hh0cm corr_hh0cm

    Marcos Bujosa

  • Ejercicios 46

    Ejercicio 23. Cargue los datos estatura padre hijo.gdt

    estaturas2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    (a) Calcule la covarianza, la correlacion y genere el diagrama de dispersion de las

    alturas (padrehijo).

    (b) Transforme las alturas en desviaciones respecto a la media.

    (c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el

    diagrama de dispersion).

    (d) Transforme las alturas en desviaciones a centmetros (cm); y calcule otra vez la

    covarianza y la correlacion (y pinte otro diagrama de dispersion).

    (e) Transforme las alturas en desviaciones a milmetros (mm); y calcule de nuevo

    covarianza, correlacion y la nube de puntos.

    # leemos el archivo de datos estatura_padre_hijo.gdtopen datos/estatura_padre_hijo.gdtcov_ph=cov(Estatura_Hijo, Estatura_Padre)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph=corr(Estatura_Hijo, Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output="display"

    # en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0, Padre0)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph0=corr(Hijo0, Padre0)gnuplot Hijo0 Padre0 --output="display"

    # en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0*100series Padre0cm=Padre0*100cov_ph0_cm=cov(Hijo0cm, Padre0cm)*($nobs-1)/$nobs corr_ph0_cm=corr(Hijo0cm, Padre0cm)gnuplot Hijo0cm Padre0cm --output="display"

    # en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo0*1000series Padre0mm=Padre0*1000cov_ph0_mm=cov(Hijo0mm, Padre0mm)*($nobs-1)/$nobs corr_ph0_mm=corr(Hijo0mm, Padre0mm)gnuplot Estatura_Hijo Padre0mm --output="display"

    print cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm

    # Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_Hijo,Hijo0cm)*($nobs-1)/$nobs corr_hh0cm=corr(Estatura_Hijo,Hijo0cm)gnuplot Estatura_Hijo Hijo0cm --output="display"

    print cov_hh0cm corr_hh0cm

    Marcos Bujosa

  • Ejercicios 46

    Ejercicio 23. Cargue los datos estatura padre hijo.gdt

    estaturas2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    (a) Calcule la covarianza, la correlacion y genere el diagrama de dispersion de las

    alturas (padrehijo).

    (b) Transforme las alturas en desviaciones respecto a la media.

    (c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el

    diagrama de dispersion).

    (d) Transforme las alturas en desviaciones a centmetros (cm); y calcule otra vez la

    covarianza y la correlacion (y pinte otro diagrama de dispersion).

    (e) Transforme las alturas en desviaciones a milmetros (mm); y calcule de nuevo

    covarianza, correlacion y la nube de puntos.

    (f) Compare los valores de las covarianzas y las correlaciones.

    # leemos el archivo de datos estatura_padre_hijo.gdtopen datos/estatura_padre_hijo.gdtcov_ph=cov(Estatura_Hijo, Estatura_Padre)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph=corr(Estatura_Hijo, Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output="display"

    # en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0, Padre0)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph0=corr(Hijo0, Padre0)gnuplot Hijo0 Padre0 --output="display"

    # en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0*100series Padre0cm=Padre0*100cov_ph0_cm=cov(Hijo0cm, Padre0cm)*($nobs-1)/$nobs corr_ph0_cm=corr(Hijo0cm, Padre0cm)gnuplot Hijo0cm Padre0cm --output="display"

    # en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo0*1000series Padre0mm=Padre0*1000cov_ph0_mm=cov(Hijo0mm, Padre0mm)*($nobs-1)/$nobs corr_ph0_mm=corr(Hijo0mm, Padre0mm)gnuplot Estatura_Hijo Padre0mm --output="display"

    print cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm

    # Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_Hijo,Hijo0cm)*($nobs-1)/$nobs corr_hh0cm=corr(Estatura_Hijo,Hijo0cm)gnuplot Estatura_Hijo Hijo0cm --output="display"

    print cov_hh0cm corr_hh0cm

    Marcos Bujosa

  • Ejercicios 46

    Ejercicio 23. Cargue los datos estatura padre hijo.gdt

    estaturas2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    (a) Calcule la covarianza, la correlacion y genere el diagrama de dispersion de las

    alturas (padrehijo).

    (b) Transforme las alturas en desviaciones respecto a la media.

    (c) Calcule la covarianza y la correlacion de las alturas en desviaciones (pinte el

    diagrama de dispersion).

    (d) Transforme las alturas en desviaciones a centmetros (cm); y calcule otra vez la

    covarianza y la correlacion (y pinte otro diagrama de dispersion).

    (e) Transforme las alturas en desviaciones a milmetros (mm); y calcule de nuevo

    covarianza, correlacion y la nube de puntos.

    (f) Compare los valores de las covarianzas y las correlaciones.

    (g) (Relacion lineal pura) Calcule la covarianza y la correlacion de las alturas originales

    de los hijos, con su version en desviaciones en centmetros (y pinte el diagrama

    de dispersion).

    # leemos el archivo de datos estatura_padre_hijo.gdtopen datos/estatura_padre_hijo.gdtcov_ph=cov(Estatura_Hijo, Estatura_Padre)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph=corr(Estatura_Hijo, Estatura_Padre)gnuplot Estatura_Hijo Estatura_Padre --output="display"

    # en desviaciones respecto a la media (metros)series Hijo0=Estatura_Hijo-mean(Estatura_Hijo)series Padre0=Estatura_Padre-mean(Estatura_Padre)cov_ph0=cov(Hijo0, Padre0)*($nobs-1)/$nobs # cuasi-covarianzacorr_ph0=corr(Hijo0, Padre0)gnuplot Hijo0 Padre0 --output="display"

    # en desviaciones respecto a la media (centimetros)series Hijo0cm=Hijo0*100series Padre0cm=Padre0*100cov_ph0_cm=cov(Hijo0cm, Padre0cm)*($nobs-1)/$nobs corr_ph0_cm=corr(Hijo0cm, Padre0cm)gnuplot Hijo0cm Padre0cm --output="display"

    # en desviaciones respecto a la media (milimetros)series Hijo0mm=Hijo0*1000series Padre0mm=Padre0*1000cov_ph0_mm=cov(Hijo0mm, Padre0mm)*($nobs-1)/$nobs corr_ph0_mm=corr(Hijo0mm, Padre0mm)gnuplot Estatura_Hijo Padre0mm --output="display"

    print cov_ph cov_ph0 cov_ph0_cm cov_ph0_mm corr_ph corr_ph0 corr_ph0_cm corr_ph0_mm

    # Estatura hijo y su trasformacion linealcov_hh0cm=cov(Estatura_Hijo,Hijo0cm)*($nobs-1)/$nobs corr_hh0cm=corr(Estatura_Hijo,Hijo0cm)gnuplot Estatura_Hijo Hijo0cm --output="display"

    print cov_hh0cm corr_hh0cm

    Marcos Bujosa

  • Correlacion y heterogeneidad 47

    -2

    -1

    0

    1

    2

    3

    4

    5

    6

    1 2 3 4 5 6 7

    y

    x

    Datos heterogeneos (dato atpico)

  • Correlacion y heterogeneidad 47

    -2

    -1

    0

    1

    2

    3

    4

    5

    6

    1 2 3 4 5 6 7

    y

    x

    Datos heterogeneos (dato atpico)

    300

    350

    400

    450

    500

    550

    600

    650

    30 40 50 60 70 80 90 100 110 120p

    reci

    osuperficie

    Datos heterogenos

  • Ejercicios 48

    Ejercicio 24. Cargue los datos CorrHeterogeneidad1.gdt

    CorrHeterogeneidad1.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    (a) Calcule el coeficiente de correlacion y el diagrama de dispersion

    open datos/CorrHeterogeneidad1.gdtrho=corr(x,y)gnuplot y x --output="display"smpl 1 5rho2=corr(x,y)gnuplot y x --output="display"print rho rho2

    Marcos Bujosa

  • Ejercicios 48

    Ejercicio 24. Cargue los datos CorrHeterogeneidad1.gdt

    CorrHeterogeneidad1.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    (a) Calcule el coeficiente de correlacion y el diagrama de dispersion

    (b) Reduzca la muestra de manera que no incluya el ultimo dato

    (c) Calcule el coeficiente de correlacion y el diagrama de dispersion

    (d) Compare los coeficientes de correlacion

    open datos/CorrHeterogeneidad1.gdtrho=corr(x,y)gnuplot y x --output="display"smpl 1 5rho2=corr(x,y)gnuplot y x --output="display"print rho rho2

    Marcos Bujosa

  • Ejercicios 49

    Ejercicio 25. Cargue los datos PrecioPisos.gdt

    CorrHeterogeneidad2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    (a) Calcule el coeficiente de correlacion y el diagrama de dispersion

    open datos/PrecioPisos.gdtrho=corr(precio,sup)gnuplot precio sup --output="display"smpl barrio_ciudad=1 --restrictrho1=corr(precio,sup)gnuplot precio sup --output="display"smpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(precio,sup)gnuplot precio sup --output="display"print rho rho1 rho2

    Marcos Bujosa

  • Ejercicios 49

    Ejercicio 25. Cargue los datos PrecioPisos.gdt

    CorrHeterogeneidad2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    (a) Calcule el coeficiente de correlacion y el diagrama de dispersion

    (b) Reduzca la muestra de manera solo incluya pisos de la zona 1

    (c) Calcule el coeficiente de correlacion y el diagrama de dispersion

    open datos/PrecioPisos.gdtrho=corr(precio,sup)gnuplot precio sup --output="display"smpl barrio_ciudad=1 --restrictrho1=corr(precio,sup)gnuplot precio sup --output="display"smpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(precio,sup)gnuplot precio sup --output="display"print rho rho1 rho2

    Marcos Bujosa

  • Ejercicios 49

    Ejercicio 25. Cargue los datos PrecioPisos.gdt

    CorrHeterogeneidad2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    (a) Calcule el coeficiente de correlacion y el diagrama de dispersion

    (b) Reduzca la muestra de manera solo incluya pisos de la zona 1

    (c) Calcule el coeficiente de correlacion y el diagrama de dispersion

    (d) Reduzca la muestra de manera solo incluya pisos de la zona 2

    (e) Calcule el coeficiente de correlacion y el diagrama de dispersion

    (f) Compare los coeficientes de correlacion

    open datos/PrecioPisos.gdtrho=corr(precio,sup)gnuplot precio sup --output="display"smpl barrio_ciudad=1 --restrictrho1=corr(precio,sup)gnuplot precio sup --output="display"smpl fullsmpl barrio_ciudad=2 --restrictrho2=corr(precio,sup)gnuplot precio sup --output="display"print rho rho1 rho2

    Marcos Bujosa

  • Correlacion y causalidad. Correlaciones espurias 50

    Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo.

    Es sensata la siguiente conclusion:?

    Hoy llovera porque lo han dicho en las noticias

  • Correlacion y causalidad. Correlaciones espurias 50

    Hay una fuerte correlacion entre las previsiones meteorologicas y el tiempo.

    Es sensata la siguiente conclusion:?

    Hoy llovera porque lo han dicho en las noticias

    Temperatura media en Madrid y n de bodas

    N de ciguenas observadas cada mes y numero de nacimientos en zonas rurales

    de Alemania

    Numero de emisoras de radio en cada ciudad y casos de locura

  • Correlacion pequena o nula no significa ausencia de relacion 51

    puede ser que haya una relacion no lineal

  • Correlacion pequena o nula no significa ausencia de relacion 51

    puede ser que haya una relacion no lineal

    o que la muestra presente poca variabilidad

    300

    350

    400

    450

    500

    550

    600

    650

    700

    750

    800

    82 84 86 88 90 92 94 96 98

    pre

    cio

    superficie

    Precio - superficie (pisos de 80 a 100 metros)

  • Correlacion pequena o nula no significa ausencia de relacion 51

    puede ser que haya una relacion no lineal

    o que la muestra presente poca variabilidad

    300

    350

    400

    450

    500

    550

    600

    650

    700

    750

    800

    82 84 86 88 90 92 94 96 98

    pre

    cio

    superficie

    Precio - superficie (pisos de 80 a 100 metros)

    0

    200

    400

    600

    800

    1000

    1200

    1400

    1600

    50 100 150 200 250 300 350

    pre

    cio

    superficie

    Precio - superficie (muestra ampliada)

  • Ejercicios 52

    Ejercicio 26. Cargue los datos PrecioPisos2.gdt

    pisos2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    (a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

    (b) Calcule el coeficiente de correlacion y el diagrama de dispersion

    open datos/PrecioPisos2.gdtsmpl superficie >= 80 --restrictsmpl superficie < 100 --restrictrho_80_100=corr(precio,superficie)gnuplot precio superficie --output="display"

    smpl fullrho=corr(precio,superficie)gnuplot precio superficie --output="display"

    print rho rho_80_100

    Marcos Bujosa

  • Ejercicios 52

    Ejercicio 26. Cargue los datos PrecioPisos2.gdt

    pisos2.inp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gretl

    (a) Restrinja la muestra a pisos de entre 80 y 100 metros cuadrados

    (b) Calcule el coeficiente de correlacion y el diagrama de dispersion

    (c) Recupere la muestra completa y repita los calculos

    (d) Compare los coeficientes de correlacion

    open datos/PrecioPisos2.gdtsmpl superficie >= 80 --restrictsmpl superficie < 100 --restrictrho_80_100=corr(precio,superficie)gnuplot precio superficie --output="display"

    smpl fullrho=corr(precio,superficie)gnuplot precio superficie --output="display"

    print rho rho_80_100

    Marcos Bujosa

  • Ejercicios 53

    Ejercicio 27. Indicar cual de las dos variables de los siguentes pares es la variable

    dependiente y si la relacion es positiva o negativa:

    (a) Potencia de un coche y precio

    (b) Peso de una persona y estatura

    (c) Consumo de tabaco y duracion de vida

  • Ejercicios 53

    Ejercicio 27. Indicar cual de las dos variables de los siguentes pares es la variable

    dependiente y si la relacion es positiva o negativa:

    (a) Potencia de un coche y precio

    (b) Peso de una persona y estatura

    (c) Consumo de tabaco y duracion de vida

    Ejercicio 28.

    (a) Cual sera el coeficiente de correlacion entre las edades de los conyuges si las

    mujeres siempre se casaran con un hombre dos anos mayor que ellas?

    (b) Y si lo hiciesen con hombres que son cinco anos mayores?

  • Ejercicios 54

    Ejercicio 29. El coeficiente de correlacion entre la estatura y el peso para un grupo

    de estudiantes es de 0,7. Si consideramos por separado hombres y mujeres, este

    coeficiente debera ser:

    mas alto

    mas bajo

    aproximadamente igual

    Justifique la respuesta.

  • Bibliografa

    Pena, D. y Romo, J. (1997). Introduccion a la Estadstica para la Ciencias Sociales.

    McGraw-Hill, Madrid. ISBN 84-481-1617-8. 9

    Transparencias

    1 [T-1] Introduccion: Por que modelar?

    2 [T-2] El objetivo de la econometra

    3 [T-3] Poblacion y variable estadstica

    4 [T-4] Variables estadsticas cualitativas

    5 [T-5] Variables estadsticas cuantitativas

    6 [T-6] Ejercicios

    7 [T-7] Tipos de datos en funcion del ndice

    8 [T-8] Descripcion de variables cualitativas. Ejemplo de distribucion de frecuencias

    9 [T-9] Ejercicios

    10 [T-10] Descripcion de variables cuantitativas discretas: distribucion de frecuencias

    11 [T-11] Descripcion de variables cuantitativas continuas: distribucion de frecuencias (Histograma)

    12 [T-12] Ejercicios

    13 [T-13] Histograma y caractersticas de la distribucion

    14 [T-14] Ejercicios

    15 [T-15] Ejercicios

    16 [T-16] Ejercicios

    17 [T-17] Ejercicios

    18 [T-18] Mediana

  • 19 [T-19] Cuartiles, Rango, rango intercuartlico

    20 [T-20] Diagrama de cajas

    21 [T-21] Ejercicio

    22 [T-22] Diagramas de cajas con distintos bigotes

    23 [T-23] Robustez de la mediana frente a la media en presencia de atpicos

    24 [T-24] Ejercicios

    25 [T-25] Ejercicios

    26 [T-26] Ejercicios

    27 [T-27] Que grafico es mas informativo en el caso de una serie temporal?

    28 [T-28] A modo de resumen. Diagramas de barras e Histogramas

    29 [T-29] A modo de resumen. Diagramas de caja

    30 [T-30] Tablas de contingencia: frecuencia absoluta conjunta y marginal

    31 [T-31] Tablas de contingencia: frecuencia relativa conjunta y marginal

    32 [T-32] Ejercicio. Diagrama de dispersion. Distribuciones marginales

    33 [T-33] Ejercicio. Distribuciones condicionadas

    34 [T-34] Distribuciones absolutas conjunta y marginales.

    35 [T-35] Distribuciones conjuntas. Distribuciones condicionadas.

    36 [T-36] Ejercicio. Diagrama de dispersion y relaciones entre variables

    37 [T-37] Ejercicio. Diagrama de dispersion y relaciones entre variables

    38 [T-38] Media y varianza condicionadas

    39 [T-39] Media y varianza condicionadas

    40 [T-40] ejercicios

    41 [T-41] Diagramas de dispersion y relacion entre variables

    42 [T-42] Diagramas de dispersion y relacion entre variables

    43 [T-43] Primer intento de medicion de asociacion lineal entre variables: Covarianza

    44 [T-44] Covarianza

  • 45 [T-45] Segundo intento de medicion de asociacion lineal entre variables: Correlacion

    46 [T-46] Ejercicios

    47 [T-47] Correlacion y heterogeneidad

    48 [T-48] Ejercicios

    49 [T-49] Ejercicios

    50 [T-50] Correlacion y causalidad. Correlaciones espurias

    51 [T-51] Correlacion pequena o nula no significa ausencia de relacion

    52 [T-52] Ejercicios

    53 [T-53] Ejercicios

    54 [T-54] Ejercicios

    Tabla de Contenido1 [T-1] Introduccin: Por qu modelar?2 [T-2] El objetivo de la econometra3 [T-3] Poblacin y variable estadstica4 [T-4] Variables estadsticas cualitativas5 [T-5] Variables estadsticas cuantitativas6 [T-6] Ejercicios7 [T-7] Tipos de datos en funcin del ndice8 [T-8] Descripcin de variables cualitativas. Ejemplo de distribucin de frecuencias9 [T-9] Ejercicios10 [T-10] Descripcin de variables cuantitativas discretas: distribucin de frecuencias11 [T-11] Descripcin de variables cuantitativas continuas: distribucin de frecuencias (Histograma)12 [T-12] Ejercicios13 [T-13] Histograma y caractersticas de la distribucin14 [T-14] Ejercicios15 [T-15] Ejercicios16 [T-16] Ejercicios17 [T-17] Ejercicios18 [T-18] Mediana19 [T-19] Cuartiles, Rango, rango intercuartlico 20 [T-20] Diagrama de cajas21 [T-21] Ejercicio22 [T-22] Diagramas de cajas con distintos bigotes23 [T-23] Robustez de la mediana frente a la media en presencia de atpicos24 [T-24] Ejercicios25 [T-25] Ejercicios26 [T-26] Ejercicios27 [T-27] Qu grfico es ms informativo en el caso de una serie temporal?28 [T-28] A modo de resumen. Diagramas de barras e Histogramas29 [T-29] A modo de resumen. Diagramas de caja30 [T-30] Tablas de contingencia: frecuencia absoluta conjunta y marginal31 [T-31] Tablas de contingencia: frecuencia relativa conjunta y marginal32 [T-32] Ejercicio. Diagrama de dispersin. Distribuciones marginales33 [T-33] Ejercicio. Distribuciones condicionadas34 [T-34] Distribuciones absolutas conjunta y marginales.35 [T-35] Distribuciones conjuntas. Distribuciones condicionadas.36 [T-36] Ejercicio. Diagrama de dispersin y relaciones entre variables37 [T-37] Ejercicio. Diagrama de dispersin y relaciones entre variables38 [T-38] Media y varianza condicionadas39 [T-39] Media y varianza condicionadas40 [T-40] ejercicios41 [T-41] Diagramas de dispersin y relacin entre variables42 [T-42] Diagramas de dispersin y relacin entre variables43 [T-43] Primer intento de medicion de asociacin lineal entre variables: Covarianza44 [T-44] Covarianza45 [T-45] Segundo intento de medicion de asociacin lineal entre variables: Correlacin46 [T-46] Ejercicios47 [T-47] Correlacin y heterogeneidad48 [T-48] Ejercicios49 [T-49] Ejercicios50 [T-50] Correlacin y causalidad. Correlaciones espurias51 [T-51] Correlacin pequea o nula no significa ausencia de relacin52 [T-52] Ejercicios53 [T-53] Ejercicios54 [T-54] EjerciciosBibliografaTransparencias