Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia...

54
Elementos básicos de la estadística Liliana Recchioni 1 ELEMENTOS BASICOS DE LA ESTADISTICA Bioestadística 2019-2020 Liliana Recchioni Indice 1. CONCEPTOS BÁSICOS EN ESTADÍSTICA........................................................................ 5 1.1. Definición de estadística. Ramas .................................................................................. 1.2. Población y muestra. Parámetros y estadísticos ........................................................... 1.3. La operacionalización de conceptos .............................................................................. 1.4. Variables. Clasificación de variables. Escalas de medición. ........................................ 1.6. Recopilación de datos. Matriz de datos. ....................................................................... 1.7. Etapas de la investigación estadística.......................................................................... Resumen ................................................................................................................................... Actividad 1................................................................................................................................. 3. MUESTREO ...................................................................................................................... 34 3.1. Elementos de muestreo ................................................................................................. 3.2. Muestra aleatoria simple .............................................................................................. 3.3. Muestra sistemática ...................................................................................................... 3.4. Muestra estratificada proporcional ............................................................................... 3.5. Muestreo por conglomerado .......................................................................................... Resumen ................................................................................................................................... Actividad 3................................................................................................................................. 4. RESUMEN DE LA INFORMACIÓN .................................................................................... 42 4.1. Distribución de frecuencia para variable cualitativa. ........................................................ 4.1.1. Cálculo de la tabla de frecuencia para una variable. ..................................................... 4.1.2. Tablas de frecuencias conjuntas para variable cuantitativa: tablas de contingencia ............................................................................................................................... 4.2. Distribución de frecuencias de una variable cuantitativa discreta. Elaboración de tabla. Cálculo de las distintas frecuencias .......................................................................... 4.3. Distribución de frecuencias de una variable cuantitativa continua. Elaboración de la tabla de frecuencias. Histograma. Polígono de frecuencia. Curva de frecuencias acumuladas....................................................................................................... 4.4. Presentación de la información. Texto. Cuadros estadísticos. Partes de un cuadro. Elaboración. Gráficos estadísticos: de sectores, de barras, lineales. .......................... Resumen ................................................................................................................................... Actividad 4................................................................................................................................. ANEXO ....................................................................................................................................... 5. ESTADÍSTICA DESCRIPTIVA............................................................................................ 69 5.1. Análisis de una variable cualitativa. Proporción. Razón. .................................................. 5.2. Análisis de una variable cuantitativa. Medidas de tendencia central. Media, Mediana y Modo. Cálculo en distintas situaciones. Comparaciones e interpretación ............................................................................................................................. . 5.3. Medidas de orden: Cuartiles y Percentiles. Usos e interpretación de resultados. ................................................................................................................................. 5.4. Medidas de dispersión. Rango. Variancia. Desviación estándar. Coeficiente de variación. Cálculos e interpretación. .................................................................................... 5.5. Diagrama de caja y bigotes ................................................................................................ Resumen ................................................................................................................................... Actividad 5................................................................................................................................. ANEXO I ............................................................................................................................... ANEXO II ..............................................................................................................................

Transcript of Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia...

Page 1: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

1

ELEMENTOS BASICOS DE LA ESTADISTICA

Bioestadística 2019-2020

Liliana Recchioni

Indice

1. CONCEPTOS BÁSICOS EN ESTADÍSTICA. ....................................................................... 5 1.1. Definición de estadística. Ramas .................................................................................. 1.2. Población y muestra. Parámetros y estadísticos .......................................................... . 1.3. La operacionalización de conceptos .............................................................................. 1.4. Variables. Clasificación de variables. Escalas de medición. ........................................ 1.6. Recopilación de datos. Matriz de datos. .......................................................................

1.7. Etapas de la investigación estadística .......................................................................... Resumen ................................................................................................................................... Actividad 1 ................................................................................................................................. 3. MUESTREO ...................................................................................................................... 34 3.1. Elementos de muestreo ................................................................................................. 3.2. Muestra aleatoria simple .............................................................................................. 3.3. Muestra sistemática ...................................................................................................... 3.4. Muestra estratificada proporcional ............................................................................... 3.5. Muestreo por conglomerado .......................................................................................... Resumen ................................................................................................................................... Actividad 3 ................................................................................................................................. 4. RESUMEN DE LA INFORMACIÓN .................................................................................... 42 4.1. Distribución de frecuencia para variable cualitativa. ........................................................

4.1.1. Cálculo de la tabla de frecuencia para una variable. ..................................................... 4.1.2. Tablas de frecuencias conjuntas para variable cuantitativa: tablas de contingencia ............................................................................................................................... 4.2. Distribución de frecuencias de una variable cuantitativa discreta. Elaboración de tabla. Cálculo de las distintas frecuencias .......................................................................... 4.3. Distribución de frecuencias de una variable cuantitativa continua. Elaboración de la tabla de frecuencias. Histograma. Polígono de frecuencia. Curva de frecuencias acumuladas. ...................................................................................................... 4.4. Presentación de la información. Texto. Cuadros estadísticos. Partes de un cuadro. Elaboración. Gráficos estadísticos: de sectores, de barras, lineales. .......................... Resumen ................................................................................................................................... Actividad 4 ................................................................................................................................. ANEXO ....................................................................................................................................... 5. ESTADÍSTICA DESCRIPTIVA ............................................................................................ 69 5.1. Análisis de una variable cualitativa. Proporción. Razón. .................................................. 5.2. Análisis de una variable cuantitativa. Medidas de tendencia central. Media, Mediana y Modo. Cálculo en distintas situaciones. Comparaciones e interpretación ............................................................................................................................. . 5.3. Medidas de orden: Cuartiles y Percentiles. Usos e interpretación de resultados. ................................................................................................................................. 5.4. Medidas de dispersión. Rango. Variancia. Desviación estándar. Coeficiente de variación. Cálculos e interpretación. .................................................................................... 5.5. Diagrama de caja y bigotes ................................................................................................ Resumen ................................................................................................................................... Actividad 5 ................................................................................................................................. ANEXO I ............................................................................................................................... ANEXO II ..............................................................................................................................

Page 2: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

2

1.CONCEPTOS BASICOS EN ESTADISTICA

Presentación La estadística no es ajena a ninguna disciplina. Con ella podemos interpretar y concluir sobre información que se posea de cualquier tema de interés. Esta unidad contiene las definiciones de conceptos básicos que se utilizarán durante todo el curso. Además permite entender la importancia de la estadística dentro del proceso de investigación científica de enfoque cuantitativo.

1.1. Definición de la estadística. Ramas de la estadística. La mayor aplicación de la estadística en cualquier campo se basa en la posibilidad de dar cuenta o brindar información sobre observaciones. Siempre que se realizan observaciones en el campo de las ciencias sociales, biológicas, educacionales, etc., aun cuando se tomen las mayores precauciones para unificar las condiciones, los resultados varían. En algunos campos de la investigación como las ciencias físicas, varían menos, en otros como en las ciencias sociales y de la conducta, aun cuando el investigador se esfuerce, las diferencias serán importantes. Cuando las observaciones a pesar de hacerlas en condiciones muy similares, dan resultados diferentes la estadística brinda herramientas para describir y avanzar aún más en el análisis de la información. Este hecho conduce al objetivo central de la estadística, que es, el estudio de la tendencia de los resultados y las sus variaciones, como así también la manera de representarlos gráficamente. Entonces, existen mediciones que son determinísticas, como es el caso de las observaciones en general en las ciencias físicas, y otras que son aleatorias como en las ciencias sociales. La aleatoriedad implica no poder predecir con exactitud el resultado, pero a través de la descripción y el análisis de los resultados de ciertos fenómenos se podrá hablar de tendencia de la información o de probabilidad de ocurrencia de un determinado hecho. Por lo tanto para el segundo tipo de observaciones es necesario contar con recursos para obtener, resumir, analizar y concluir sobre la información con la que se cuenta para estudiar una determinada realidad o hecho que interese. La Estadística es la ciencia que aporta los métodos científicos por medio de los cuales es posible recolectar, organizar, resumir, presentar y analizar datos relativos a un conjunto de individuos u observaciones y que nos permiten extraer conclusiones válidas y efectuar decisiones lógicas basadas en dicho análisis. Según Levine (2006):

“la estadística es la rama de las matemáticas que examina las formas de procesar y analizar datos. La estadística ofrece los procedimientos para recolectar y transformar los datos de manera que sean útiles a quienes toman decisiones.”

La estadística se utiliza para aquellos casos en los que existe una una gran cantidad de observaciones y cuya aparición se rige por las leyes del azar o aleatorias. Su aplicación tiene lugar porque los fenómenos de algunas ciencias no se dan siempre iguales entre sí exactamente, sino que presentan variaciones, es decir, que la aplicación de la Estadística es posible porque existen, entre los hechos o los fenómenos que deben estudiarse, pequeñas diferencias debido a una serie de causas tan numerosas y complejas que no se pueden determinar por separado y que se incluyen dentro del nombre común de azar. Por lo tanto ante estas situaciones la estadística busca describir la información, y a partir de allí realizar inferencias, es decir concluir a un conjunto mayor al observado. Es por eso que el principal objeto de la ciencia estadística consiste en obtener inferencias válidas a partir de datos observables. Es por ello que se generan constantemente nuevas técnicas para realizar inferencias en las múltiples situaciones que se generan en las diversas áreas del conocimiento. Si se desea comparar qué tipo de lectura interesa a los niños de la Provincia de La Rioja, de ambos sexos, comprendidos entre los siete y doce años, y cuál a los niños de la Provincia de

Page 3: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

3

Catamarca de iguales características, sería imposible preguntar uno a uno a todos los niños de ambas provincias. No se puede recoger datos de esa la población infantil riojana y catamarqueña. Lo único que es posible es tomar un grupo de niños y niñas riojanos, es decir una muestra o una parte del conjunto de individuos que interesa, e investigar lo que ese grupo dice, describir esa muestra y hacer lo mismo con la muestra catamarqueña. Pero lo que interesa no es ese grupo que se observó o que se seleccionó en las muestras. Lo que se pretende es hacer comparación respecto de toda la población riojana y catamarqueña de esa edad, en base a la descripción o información que nos han proporcionado las muestras. La estadística puede dividirse en dos grandes ramas, perfectamente diferenciadas no solamente por los objetivos que se persiguen, sino también por los métodos que se utilizan, estos son:

La Estadística Descriptiva o Deductiva. La Inferencia Estadística o Inductiva.

La Estadística Descriptiva, describe las características de una población o describe una muestra cuando no se puede obtener datos de todo el conjunto. Es decir que tiene por objeto recoger, describir y analizar las características de una población o muestra, tratando de poner de manifiesto la estructura y regularidades existentes en los elementos de la población o muestra, no ocupándose de comportamientos individuales. La Estadística Inductiva o Inferencia Estadística, cuyo objeto es investigar cómo deben ser utilizados los datos de la muestra, para inferir determinados resultados o probar algunas hipótesis sobre la población entera a la que pertenecen esos datos. Trata de generar métodos para extraer conclusiones para un conjunto mayor al observado, basado en el cálculo de probabilidades, es decir en los comportamientos probabilísticos de algunas variables o características. 1.2. Población y muestra. Parámetros y estadísticos. Se entiende por población, colectivo o universo, el conjunto de personas, animales o cosas que son objeto de estudio de una investigación. Peña y Romo (1997) definen:

“El universo de objetos al cual se refiere el estudio que se pretende realizar recibe el nombre de población”

Es muy importante que la población esté perfectamente determinada sin ningún tipo de ambigüedad o posible confusión, de tal forma que se sepa de manera inequívoca si una unidad pertenece o no a la población. Por ejemplo, en un estudio sobre docentes de nivel primario, debe aclararse si es de toda la provincia, de un departamento o de una escuela; si al hablar de docentes se incluyen a titulares, interinos, suplentes, etc.. Cada una de las unidades que componen la población se denomina elemento o individuo de la población. Por ejemplo: una casa, un auto, una familia, un animal, una superficie, un alumno, una escuela, etc.. Evidentemente el elemento es el objeto de observación estadística y debe estar definido con absoluta precisión, evitando todo posible tipo de ambigüedad o confusión, tanto para los investigadores que obtendrán los datos en el campo de la observación, como para los usuarios de las estadísticas. La muestra es un subconjunto de la población, una parte seleccionada de la población extraída con objeto de obtener información sobre la totalidad de ésta. El requisito principal que debe reunir una muestra es la representatividad, o sea que los resultados que se obtengan de la misma deben concordar con los que se hubiesen obtenido de haber sometido a observación toda la población. Lo cierto es que no toda muestra es representativa, es decir no toda parte de la población, representa a la población. Una muestra puede ser una parte de la población que no la representa bien, por ejemplo si se quiere estudiar o investigar la trayectoria de los alumnos en el nivel primario y sólo se seleccionan los 1ros. grados de las escuelas, es posible que esta trayectoria no represente la de los alumnos de los demás grados. Por lo tanto para encontrar

Page 4: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

4

una muestra representativa de la población se debe utilizar un método de forma tal que todos los elementos de la población puedan estar incluidos en la muestra. Una muestra es aleatoria cuando todos los elementos de la población de la cual se extrae, tienen la misma posibilidad de ser seleccionados. La muestra aleatoria no asegura la representatividad pero si es un procedimiento para lograrlo. Las características de una población que se obtienen, considerando todos los elementos de la misma se denominan parámetros. Por ejemplo el promedio de edad de todos los alumnos de educación primaria de una determinada provincia es el parámetro de edad promedio. El parámetro entonces, es una medida numérica que describe a la población. Las características de una muestra, que se obtienen utilizando esos datos muestrales se denominan estadísticos. Estos son valores que siempre apuntan a estimar o dar cuenta de un valor poblacional, es por ello que cuanto mejor sea la muestra, cuanto más representativa de la población los estadísticos mejor estimarán los valores poblacionales, es decir a los parámetros. 1.3. La operacionalización de conceptos. Sobre los individuos de las poblaciones o muestras deben hacerse observaciones que representan la medición de un concepto teórico. Este paso del concepto teórico a la medición se denomina operacionalización. Una observación podrá ser numérica como el peso, la edad, el ingreso, o bien representar una cualidad como la nacionalidad, el género. Estas características son más simples y familiares para medir, pero en un estudio podría interesar medir el miedo, la tristeza o el aprendizaje. En ese caso es necesario definir conceptualmente lo que se desea medir y luego operacionalizarlo, es decir definir con qué característica se medirá ese concepto. Entonces, para realizar una observación sobre un individuo debe definirse la característica a medir, es decir lo que se denominará variable. En el caso de la altura ella se medirá en metros, en el caso del ausentismo en un determinado año de estudio, se medirá con la cantidad de ausentes sobre el total de alumnos. En estos ejemplos se han operacionalizado la altura y el ausentismo. 1.4. Variables. Clasificación de variables. Escalas de medición. Los elementos o individuos de una población o muestra, poseen una serie de cualidades, propiedades o rasgos comunes que se denominan caracteres o variables. Por ejemplo, en un estudio sobre docentes universitarios todos los elementos (docentes) poseen, entre otras, una serie de características:

1. Título que posee. 2. Edad. 3. Estado civil. 4. Número de hijos. 5. Postgrados realizados. 6. Antigüedad en el cargo.

Es evidente que una investigación estadística no puede referirse al análisis exhaustivo de todos los caracteres de los elementos de la población, ya que el número de caracteres distintos de un elemento pueden considerarse es excesivamente grande y además, porque, generalmente, la investigación va orientada en una cierta dirección que ha sido marcada previamente por el investigador; por ejemplo, al hacer un estudio de la población de Catamarca, habrá que señalar desde qué punto de vista se pretende realizarlo, ya que se puede estar interesado en objetivos, sociales, económico, cultural, político, demográfico, etc..

Figura 1: Clasificación de variables.

Page 5: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

5

Variables cualitativos o atributos, son aquellos que por su propia naturaleza no se pueden cuantificar y se describen mediante palabras. Por ejemplo: el sexo, nacionalidad, raza, color de pelo, estado de ánimos, etc.. Pueden presentar distintas modalidades. Por ejemplo,

Sexo: varones, mujeres.

Nacionalidad: español, argentino, italiano, etc.. En muchos casos, y con el fin de simplificar el tratamiento de estas variables cualitativas o atributos, se suelen codificar, es decir, se les asigna a cada modalidad un número, sin que esto represente ninguna cuantificación, ni ordenación posible. Por ejemplo, si el carácter es tipo de ocupación, las modalidades serán los distintos tipos de ocupación posibles y se puede codificar de la siguiente manera:

1. Administración Pública Provincial 2. Administración Pública Nacional 3. Empleado de la industria 4. Empleado de comercio 5. Docente 6. Trabajador independiente 7. Otros

Una variable es cuantitativa cuando se puede describir mediante número, es decir, que son susceptibles de cuantificación o de medida. Por ejemplo: puntajes de un test, edad, el peso, la altura, etc.. Dicho de otra manera, un carácter es cuantitativo si sus diversas modalidades son medibles o numerables, o sea, si a cada una de las modalidades se les asigna un número, que recibe el nombre de valor de la variable estadística, resultando que las diferentes modalidades de un carácter cuantitativo son los diferentes valores posibles o diferentes grupos de valores posible de la variable estadística. Por ejemplo: la estatura de un alumno, el salario mensual, la edad de una persona, puntajes de un test, cantidad de errores de ortografía en un dictado, cantidad de alumnos matriculados por escuelas, etc.. Dentro de las cuantitativas pueden encontrarse dos tipos o clases de variables; variables discretas y variables continuas. Una variable es discreta si toma un número finito o infinito numerable de valores, o dicho de otra forma, si entre dos valores consecutivos puede tomar a lo sumo un número finito de valores.

Ejemplo: Cantidad de hijos, cantidad de alumnos por grado, cantidad de obreros de una fábrica, cantidad de errores de ortografía en un dictado, cantidad de niños en edad escolar por hogares, cantidad de pacientes de un hospital, etc..

Una variable estadística es continua si toma un número infinito de valores en un intervalo, o dicho de otra manera si entre dos valores consecutivos puede tomar cualquier otro.

Ejemplo: Peso de pacientes, altura, porcentaje de respuestas correctas, producción de fábrica, salarios de médicos de un hospital, montos de ventas de un comercio, etc..

Page 6: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

6

Escalas de medición. Existen cuatro clases de escala que aparecen de manera común en las ciencias del comportamiento: nominal, ordinal, de intervalo y razón o proporciones. Ellas difieren en el número de atributos u operaciones matemáticas que poseen como válidas, además la distinción entre los cuatro tipos de escalas de medición es importante por distintos motivos. Una de ellas que queda en claro, es que las mediciones en que se piensa usualmente constituyen solo una forma, de entre varias posibilidades de medición. No todo procedimiento estadístico es utilizable con datos de cualquier escala de medición. Escala nominal. Es el nivel más simple y primitivo. Una escala nominal es un sistema de clasificación cuyas categorías difieren entre si cualitativamente y no en grados o en orden. Las categorías deben ser mutuamente excluyentes, es decir, deben ser tales que ningún sujeto pueda ser incluido en dos de ellas. Cada sujeto u observación se incluyen en una y solo una categoría. Las categorías deben ser también exhaustivas, esto quiere decir que para todos los sujetos en observación, existe una categoría en que pueden ser incluidos.

Ejemplo: Se mide sobre pacientes de un determinado hospital el barrio al cual pertenecen. La variable Barrio, es cualitativa medida en escala nominal.

Escala ordinal. Puede suceder que los objetos o elementos de una categoría no solo sean distintos de los de otras categorías, sino que estén en alguna relación con ellos, por ejemplo: más alto, más enfermo, etc.. Tales relaciones se expresan por los símbolos < y > (menor que, mayor que). Si estas relaciones se presentan entre los pares de categorías se tiene una escala ordinal.

Ejemplo: Se miden la nota final de un trabajo práctico. La nota toma los siguientes valores: Excelente, Muy Bueno, Bueno, Satisfactorio, etc.. En este caso hay un orden en los resultados de la variable nota, por lo tanto la escala es ordinal.

Escala intervalar. La propiedad más importante que presenta es que está por encima de la escala ordinal y nominal. Es decir es una escala superior y permite asignarle valores numéricos a los resultados de una variable ya que las distancias numéricas iguales representan distancias iguales empíricas en la variable que miden. Es decir, que los objetos a los que se ha asignado en la escala los números 7 y 10 están igualmente separados que los otros a los que se les ha asignado 15 y 18 en cuanto a la variable medida. En las escalas de intervalos iguales, el punto 0 de origen y la unidad de medida son arbitrarios. Ciertas variables físicas como la como la temperatura, la presión, el tiempo, etc.. Pueden medirse con esta escala pero en las ciencias del comportamiento rara vez se puede presentar esta escala, aunque la nota en un examen que varía de 0 a 10, puede considerarse una variable medida en escala de intervalo. Escala de razón. Cuando una escala tiene todas las características de una escala de intervalos iguales y además tiene un punto 0 verdadero en su origen, se tiene una escala de cocientes o razones. Sin el cero absoluto, no se puede calcular proporciones con las mediciones realizadas, es decir que en mediciones realizadas en esta escala pueden realizarse cocientes o razones. Con esta escala se miden variables cuantitativas discretas y continuas tales como peso, altura, cantidad de docentes, velocidad, volumen, presión atmosférica, etc.. En la escala de razones o proporciones, todas las operaciones aritméticas son permitidas, tanto a los valores numéricos asignados a los puntos mismos, como a los intervalos, pues existe un cero autentico y solo es arbitraria la unidad de medición. Esta escala admite todas las pruebas estadísticas y constituye la escala de medición más compleja.

Page 7: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

7

Muchas variables y atributos psicológicos y sociológicos se miden a través de indicadores o indicadores operacionales. Se tratan de unidades de medidas indirectas, que son aquellas que solo pueden ser expresadas en términos de otras medidas. Por ejemplo, cantidad de errores de ortografía en un dictado (aprendizaje de la ortografía), número de caminos erróneos que se intentan en la resolución de un problema de razonamiento (medida de habilidad), número de ensayos requeridos para lograr un aprendizaje (facilidad de aprendizaje), etc.. Además estas variables poseen un 0 absoluto, es decir es correcto decir que un alumno no acertó con la ortografía correcta en ninguna de las palabras del dictado (0 aciertos) a sostener que su aprendizaje de la ortografía es nula y entre ambas afirmaciones hay una distancia insalvable. 1.6. Recopilación de datos. Matriz de datos. Una vez obtenidos los datos primarios, recogidos mediante alguna de las estrategias de observación transversal descripta anteriormente; el investigador debe encontrar el mejor camino para convertirlos en información sobre los individuos observados; información que deberá acercar respuestas a las preguntas que dieron inicio a la investigación. En consecuencia, en la producción de esa información son los objetivos de la investigación los que definirán el curso a seguir en el tratamiento y análisis de los datos. Cualquiera sean los objetivos a alcanzar con el trabajo estadístico, el tratamiento inicial de los datos registrados debe comenzar por organizarlos en forma tal que se facilite su tratamiento. La manera de organización que se utiliza es la conocida como matriz de datos que ordena los datos en una planilla rectangular, posibilitando su tratamiento en los programas informáticos.

Ejemplo: En esta matriz se dispone la información de n individuos a los cuales se les miden k variables. Donde la primera variable podría corresponder al nombre, la segunda a la edad, la tercera al peso, la cuarta al año de estudio que asiste etc.

Tabla 1: Distribución de una matriz de datos.

Individuo Variable 1 Variable 2 - - - - Variable k

1

2

3

n

Algunos de los 80 números podrían ser: 001, 132,214, 089,455,……..367. 1.7. Etapas de la investigación cuantitativa-estadística. En investigación científica se busca generar un conocimiento nuevo a través de un camino ordenado y sistematizado. Se puede abordar la investigación desde dos enfoques o modelos denominados paradigmas. Existen dos enfoques el cualitativo y el cuantitativo, pero en una investigación científica pueden utilizarse técnicas de ambos paradigmas. Dentro del paradigma cuantitativo la herramienta fundamental para abordar los objetivos planteados desde el inicio, es la estadística. En toda investigación se desarrolla un diseño o pasos sistemáticos a seguir, y en la cuantitativa esos pasos se relacionan con los de un estudio estadístico. Existe un conjunto de etapas que deben ser consideradas para que los resultados obtenidos sean coherentes, homogéneos y fáciles de interpretar y generalizar. Las etapas son:

Page 8: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

8

a) Formulación o definición del problema. b) Diseño del experimento. c) Recopilación de datos. d) Clasificación, tabulación y descripción de los resultados. e) Generalización e inferencia final. a) El análisis estadístico empieza con la materia prima, que aquí está representada por los datos estadísticos y a través de un proceso de elaboración obtiene las conclusiones provenientes de estos elementos básicos. El primer aspecto, es conocer exactamente que debe investigarse con el objeto de formular el problema con la mayor precisión posible. Solo así el investigador podrá determinar cuáles son los datos más importantes necesarios a los efectos de su investigación. Si se falla en este análisis previo, es posible que se requieran datos básicos totalmente irrelevantes y se omitan otros de importancia básica. A ésta altura es importante recordar que la calidad de las conclusiones estadísticas depende fundamentalmente de la propiedad y naturaleza de los datos, los que a su vez dependen de la exactitud en la formulación del problema. No importa cuán refinadas y precisas sean las técnicas estadísticas utilizadas, estas nos proveerán resultados que nos inducirán a errores en las decisiones si son aplicadas a datos inapropiados. b) Una vez que el problema ha sido formulado con precisión el investigador debe decidir si estudiará la totalidad de la población o una parte de la misma a partir de la cual obtendrá las conclusiones para la totalidad de elementos componentes del universo. En el primer caso tendremos un censo, en el segundo una muestra. Esto implica las siguientes preguntas, Que tamaño tendrá la muestra?. Que tipo de datos deben ser recopilados? Estos aspectos se engloban en lo que llamamos, diseño del experimento. Debe tenerse especial cuidado en el planeamiento y diseño del experimento, ya que de otra manera no estaremos en condición de arribar a conclusiones válidas. c) La tercer etapa está referida a la recopilación de los datos estadístico de acuerdo al diseño practicado. Desde todo punto de vista ésta etapa es rutinaria y es la que más tiempo y costo insume. Cuando se obtengan los datos se deberá abstenerse de efectuar juicios personales actuando con total objetividad en este aspecto. d) Una vez recopilado los datos estos deben ser elaborados de forma que puedan ser analizados. Es decir, se clasificarán de manera sistemática y se presentaran en forma de tablas, gráficos y diagramas. Realizado esto se calcularan las medidas estadísticas que nos analizan los datos. e) Si se ha trabajado con la totalidad de los elementos de la población, la etapa anterior es la última en realizarse, en cambio si se ha trabajado con una muestra de la población, es necesario una etapa más y que es la más interesante dentro del estudio de las estadísticas. En este caso, se deberá aplicar metodología y razonamientos necesarios para que con los resultados de la muestra hagamos inferencia para la totalidad de la población. Resumen En este módulo hemos llegado a la conclusión de que la Estadística es una ciencia fundamental para la investigación científica. Posee dos ramas la descriptiva y la inferencial y es una herramienta importante para el método científico y está presente en sus diversas etapas. Un concepto muy importante que debemos considerar, es el de población. Comprende un conjunto de individuos de interés para la investigación, en ella se definen los parámetros. Por lo general no se puede trabajar con la población y se extrae una muestra, parte de ella, y sobre los elementos se realizan mediciones de variables. Es relevante que podamos distinguir que las variables provienen de la operacionalización de conceptos más complejos, y que pueden clasificarse como cualitativas o cuantitativas. Las escalas de medición poseen jerarquía y es importante definirlas antes de tomar la información. Las escalas de medición se clasifican en nominal, ordinal, de intervalo y razón.

Page 9: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

9

Con estos elementos revisados en esta primera unidad estamos en condiciones de seguir la tarea pensando en cómo podemos a partir de una población muy grande, sacar algunos elementos para estudiarlos. Actividad 1 1) Definir estadística y sus ramas. 2) Mencionar las etapas de la investigación y describirlas suscintamente. 3) Defina población, parámetro, estadístico y muestra aleatoria.

De ejemplos de población, parámetro, estadístico y cómo seleccionar una muestra aleatoria.

4) Plantee un problema de investigación y defina: a) la población y el elemento de la población sobre la cual se realizan observaciones. b) plantee mediciones u observaciones de variables sobre el elemento de tipo cuali y

cuantitativas y las escalas de medición. 5) Suponga que Ud. tiene el listado de los elementos de la población.

a) Como podría realizar una muestra aleatoria? b) Por qué es importante disponer de una muestra aleatoria?

6) Suponga el siguiente caso de investigación.

Defino como mi Población en estudio a los alumnos que cursan la carrera de Lic. de Terapia Ocupacional de la UNLAR , cuyo tamaño es de 1.000 alumnos. Por lo tanto el Tamaño de la población es N=1000 Defino como elemento de la Población o unidad de análisis a los alumnos.

Elemento = Alumno Voy a trabajar con una muestra aleatoria de 20 alumnos. Por lo tanto n = 20 Las variables que voy a estudiar son: Género y Edad de los alumnos. Conozco por trabajos previos que en la Población hay un 10 % de Varones y la Edad promedio es de 20 años Por lo tanto estos son los Parámetros de la población:

Porcentaje de Varones = 10 % Edad Promedio = 20 años

Llevo a cabo mi estudio muestral y obtengo como estimación de estos parámetros obtengo a los siguientes Estadísticos:

Porcentaje de varones = 15 % Edad Promedio = 19 años

Responder:

a) ¿Por qué hay diferencias entre los parámetros y los estadisticos? b) ¿Cómo puedo hacer para que mis estadísticos se acerquen a mis parámetros? c) ¿Por qué no trabajo con la Población? d) ¿Con cuántos elementos calculo el parámetro? e) ¿Con cuántos elementos calculo el estadístico?

7) Clasificar las siguientes variables según tipo y escala:

VARIABLE CUALITATIVA O

CUANTITATIVA

CONTINUA O

DISCRETA

Valores que asume

ESCALA

Peso

Edad

Page 10: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

10

Altura

Nivel de Instrucción

Clasificación Con Conceptos

Clase Social

Religión

Lugar De Nacim.

Presión Arterial

Condición de Fumador

Ingresos

Posee Obra Social

Estado Civil

Tipo de patología

8) Mencione ejemplos de variable cualitativa y cuantitativa (discreta y continua) 9) Plantee una población, dos variables cuali y dos variables cuantitativas que podría medir en

cada elemento de la población. 10) Indique con qué escala mide cada variable. 11) Diseñe una matriz de datos con el ejemplo planteado en el punto 4). 3. MUESTREO

Presentación Una vez que conocemos y estamos familiarizados con los conceptos básicos que se utilizarán en el curso, podemos pensar en generar nuestra propia información. Es necesario manejar criterios básicos para extraer una muestra de una población dado que por lo general será inaccesible para nuestros estudios. En esta unidad se presentarán los diferentes tipos de muestreo, que permiten seleccionar una parte de la población de interés.

3.1. Elementos del muestreo. La información que necesita el investigador proviene de los datos, los cuales pueden concebirse como información necesaria para ayudar a tomar decisiones con mayores elementos, en una situación particular. Para que un análisis estadístico sea útil en el proceso de toma de decisiones, los datos de entrada deben ser los apropiados. Esto hace que la etapa de recolección de datos sea extremadamente importante. Si no sucede esto, de que los datos que se usan sean los apropiados, los métodos estadísticos que se apliquen, conducirán invariablemente a conclusiones erróneas. Como la información proviene siempre de una población de interés que en la mayoría de las ocasiones es imposible observarla en su totalidad, cobra sumo interés las técnicas de muestreo. Los procedimientos de muestreo estadístico, es decir tomar parte de la población total, se han convertido en la herramienta preferida y requerida en investigación, especialmente por:

a) El tiempo. b) El costo.

El tiempo de relevamiento se reduce si se trabaja con parte de la población, al igual que el costo. Existen observaciones muy costosas de realizar por lo cual el muestreo conduce a reducirlos y hacer factible la investigación. Lo mismo sucede con observaciones que, aunque no sean costosas requerirían mucho tiempo de realizar. Existen diferentes tipos de muestreo y ellos pueden ser probabilísticos o no probabilísticos. Una muestra probabilística es aquella en la que los sujetos de la muestra se eligen sobre la base de probabilidades conocidas. Los cuatro tipos de muestras probabilísticas son: aleatoria simple, sistemática, estratificada y de conglomerado.

Page 11: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

11

Un muestreo no probabilístico o accidental, implica seleccionar elementos de la población arbitrariamente, por ejemplo seleccionar los 20 alumnos que entran primero a la escuela para realizar un determinado estudio. No se dio en este caso, la posibilidad de integrar la muestra a alumnos que pueden llegar más tarde. Es necesario definir algunos elementos o conceptos básicos necesarios para desarrollar un plan de muestreo. Elemento. Un elemento o individuo es un objeto sobre el cual se realizan las mediciones. Los elementos integran o conforman a la población.

Ejemplo: Un paciente que asiste a un Centro Comunitario de salud pública durante el mes de marzo de 2011.

Población.

Una población es una colección de elementos o individuos acerca de los cuales se desea hacer alguna inferencia o extraer alguna conclusión.

Ejemplo:

El conjunto de todos los pacientes que asisten a un Centro Comunitario de salud pública durante el mes de marzo de 2011.

Unidades de muestreo.

Las unidades de muestreo son colecciones no traslapadas de elementos de la población que cubren la población completa.

En algunas ocasiones la unidad de muestreo coincide con el elemento, en otras no.

Ejemplo:

Se puede considerar a la unidad de muestreo al centro de salud para luego extraer un paciente. Se seleccionan centros y de allí un paciente por centro. O bien la unidad de muestreo podría ser el paciente si se posee un listado de pacientes.

Ejemplo 1: Unidad de muestreo: Centro de salud Elementos: Enfermeros (son quienes serán medidos) Ejemplo 2: Unidad de muestreo: Familia Elementos: Jefe de hogar (son quienes serán medidos)

Marco Muestral.

El marco es una lista de unidades de muestreo.

En ocasiones uno no posee un marco muestral que coincida con el listado de la población. O bien es imposible lograr el listado de la población o actualizarlo, por lo tanto ese listado no será el marco muestral.

Es imposible poseer listado de pacientes, que es una población de interés. Pero si se puede obtener un listado de centros. Por lo tanto el marco muestral de centros puede utilizarse para extraer una muestra de centros y de alli seleccionar pacientes.

Page 12: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

12

Ejemplo:

Listado de pacientes que asisten a los centros comunitarios de salud pública o listado de centros comunitarios de salud pública.

Muestra.

Una muestra probabilística es una parte de la población seleccionada de un marco o de varios marcos. Es necesario recurrir a métodos que intenten lograr la máxima la representatividad en la muestra de lo que acontece en la población con respecto a los elementos a observar. Una muestra aleatoria puede seleccionarse a través de varios métodos.

3.2. Muestra aleatoria simple.

En una muestra aleatoria simple cada individuo o elemento tiene la misma oportunidad de selección que cualquier otro y la selección de un individuo o elemento en particular no afecta la probabilidad de que se elija cualquier otro. Aunque no necesariamente es el más económico o eficiente de los métodos de selección de una muestra, proporciona la base a partir del cual han evolucionado los otros métodos.

La clave de la selección de muestras apropiadas es obtener y mantener una lista actualizada de todos los individuos o elementos de los cuales se extraerá la muestra. Esta lista se conoce como “marco de la población o marco muestral”. Este marco corresponderá a la población objetivo de tal manera que si se extrae una muestra probabilística de ese marco, será representativa de la población y producirá estimaciones razonables de sus características.

Si el listado no es el adecuado, las estimaciones que se realicen serán inadecuadas, ya que solo servirán para la población que se relaciona con el listado o marco muestral.

Una forma de extraer una muestra aleatoria simple es seleccionar números aleatorios de una tabla o generarlos de un software, como por ejemplo el Excel.

Los números aleatorios son una serie de números aleatoriamente generados en un cierto rango que indicarán cuáles de las unidades enumeradas en el marco muestral deben ser seleccionadas para la muestra.

Ejemplo: Si se poseen 88 Centros de salud y se desea extraer una muestra de 20 centros debe disponerse del marco muestral, es decir del listado de centros numerados desde el 1 al 88 y generar 20 números aleatorios (porque la muestra es de tamaño 20) entre 1 y 88. Los centros correspondientes a esos 20 números generados entrarán en la muestra.

En este caso los centros identificados con el número 25, 48, etc,. o ubicados en ese orden en el marco muestral son los que seleccionan para la muestra aleatoria. Ejemplo con Excel para sacar números aleatorios Escribir en una celda =aleatorio.entre(1,88) y estirar hasta obtener 20 datos:

25 48 47 8 76 21 57 77 54 02 73 33 05 53 79 70 17 5 35 67

Page 13: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

13

En este caso se repite el valor 82, por lo tanto habrá que seleccionar un número aleatorio más.

3.3. Muestra Sistemática.

En una muestra sistemática, se dividen N individuos o elementos del marco poblacional en k grupos, dividiendo el tamaño de la población N entre el tamaño de la muestra deseado n. Es decir, k = N / n donde k se redondea al entero más cercano.

Para obtener una muestra sistemática, el primer individuo o elemento se selecciona al azar entre los k individuos o elementos del primer grupo del marco de población y, para el resto de la muestra se elige un individuo o elemento cada k en la lista completa de la población. Cuando el marco de población consiste en listados predeterminados es más rápido y fácil obtener una muestra sistemática que una muestra aleatoria simple. En estas situaciones la muestra sistemática es un mecanismo conveniente para obtener los datos deseados. Aunque su aplicación es más sencilla, en general los métodos de muestreo aleatorio simple y de muestreo sistemático son menos eficientes que otros métodos de muestreo probabilístico más elaborado. Es decir, para cualquier muestra que se adquiere mediante muestras aleatorias simple o muestreo sistemático, los datos obtenidos pueden o no ser buena representación de las características fundamentales (parámetros) de la población. Aunque la mayor parte de las muestras aleatorias simples son representativas de la población correspondiente, no es posible saber si una muestra en particular es, de hecho representativa. Se presentan posibilidades todavía mayores de un sesgo en la selección y una falta de representatividad de las características de la población, en el muestreo sistemático. Si existiera un padrón en el listado del marco de población, podría ocurrir errores de selección importantes. Para evitar el problema potencial de la representatividad desproporcionada de grupos específicos en una muestra, se pueden usar los métodos de muestreo estratificado o muestreo conglomerado.

Ejemplo: N=88 n=20 K=88/20=4,4 se toma un valor k=4. Se parte del elemento aleatoriamente entre 1 y 4, supongamos 2 y a partir de alli se extrae el elemento:

Page 14: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

14

6, 10, 14, 18, 22, 26, 30, 34, 38, 42, 46, 50, 54, 58, 62, 66, 70, 74, 80, 84 Esos serán los centros seleccionados sistemáticamente.

3.4. Muestra estratificada proporcional.

En una muestra estratificada, primero se dividen los N individuos o elementos de la población en sub poblaciones separadas, o estratos, de acuerdo con algunas características comunes e manera tal que dentro de los estratos se logre la máxima homogeneidad y que exista heterogeneidad entre estratos-

Una vez determinados los elementos a seleccionar de cada estrato, se realiza un muestreo aleatorio simple dentro de éstos y luego se obtiene la muestra definitiva con los elementos muestreados aleatoriamente de cada estrato.

Estos métodos de muestreo son más eficientes que el muestreo aleatorio simple o el sistemático, porque garantizan la representación de individuos o elementos de toda la población, lo que asegura una mayor precisión en las estimaciones de los parámetros poblacionales fundamentales. Lo que proporciona la precisión, una vez combinados los estratos, es la homogeneidad de individuos o elementos dentro de cada estrato.

Ejemplo:

Supongamos los centros divididos según la ubicación en: Urbanos y periféricos.

La proporción de estos centros en la población es:

Tabla 2: Población según estratos Estrato Tipo Población %

Estrato 1 Urbanos 60 75

Estrato 2 Periféricos 20 25

Total 80 100

Fuente: Datos Ficticios

Luego se selecciona la muestra manteniendo la proporción por estrato:

Tabla 3: Distribución de la muestra estratificada proporcional. Estrato Tipo Población % Muestra Estrato 1 Urbanos 60 75 20x0,75= 15 Estrato 2 Periféricos 20 25 20x0,25= 5 Total 80 100 20

Fuente: Datos Ficticios.

3.5. Muestreo por conglomerado.

En una muestra conglomerada, se dividen los N individuos o elementos de la población en varios conglomerados, de manera que cada conglomerado sea representativo de la población completa.- Después, se obtiene una muestra aleatoria de los conglomerados y se estudian todos los individuos o elementos dentro de cada conglomerado seleccionado.- Los conglomerados pueden ser asignaciones naturales, como departamentos, ciudades, manzanas, familias o edificio de departamento, etc..

Los métodos de muestreo conglomerados pueden ser más eficientes (con relación a su costo) que los métodos de muestreo aleatorio simple, sobre todo si la población en cuestión se encuentra esparcida en una vasta región geográfica.- Sin embargo, los métodos de muestreo conglomerado tienden a ser menos eficientes que los métodos de muestreo aleatorio simple o de muestreo estratificado, y necesitan una muestra total más grande para obtener resultados tan precisos como los que se obtienen con los procedimientos más eficientes.

Page 15: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

15

Resumen Hemos podido concluir que la mayoría de las poblaciones, tienen un tamaño que es difícil de analizar o medir en su totalidad. Por ese motivo debe tomarse una parte de ella para obtener datos. Se puede tomar un subconjunto de elementos sin reparar en algún método que garantice la representatividad de los elementos que se incluyen en la población como es el caso de una muestra accidental. Existen métodos para muestrar una población de manera probabilística, buscando la representatividad de los elementos de la población en la muestra.

Fue muy valioso considerar que para realizar un muestreo deben definirse: la población, la unidad de muestreo, el marco muestral y el método de selección. Entre los más frecuentes se mencionan: el muestreo aleatorio, sistemático, estratificado y por conglomerados.

Una vez que hemos seleccionado la muestra y medidas las variables que se deseen para abordar los objetivos de una investigación, aprendimos a construir una matriz de datos.

Actividad 3 a) Realice un Glosario correspondiente a esta unidad conformado por los siguientes

conceptos: a) Marco muestral. b) Muestra aleatoria simple. c) Muestra estratificada proporcional. d) Muestra sistemática. e) Muestreo por conglomerado.

b) Seleccione una muestra aleatoria de tamaño 10 de una población de 2000 profesionales de

la salud. c) Si la población de profesionales posee un 70% de varones y 30% de mujeres. Cuántos

varones y mujeres debe contener la muestra de tamaño 10 si el muestreo es estratificado proporcional.

d) Su Universidad quiere hacer una encuesta para determinar la proporción de estudiantes que tienen un trabajo remunerado. Definir la población que se pretende estudiar y diseñar un procedimiento de muestreo para estimar esta proporción.

e) Si se desea obtener una muestra de pacientes que acuden al servicio de traumatología del Hospital Presidente Plaza con el fin de determinar si poseen alguna cobertura de Salud. Suponga que cada paciente posee una Historia Clínica y que el total de pacientes a la fecha es de 800.

a) Genere una muestra aleatoria simple de 40 pacientes. b) indique qué pacientes se deben seleccionar si se utiliza el muestreo sistemático.

Realice Ud. ese muestreo. f) Si el total de alumnos de una escuela es de 300 y se desea estimar la edad promedio de

los alumnos con una muestra de 15 alumnos a) seleccione una muestra sistemática. Indique cuáles extraer. b) Si utiliza un método de muestreo estratificado, defina cuales serían los estratos y

qué información necesito conocer para utilizar este método de muestreo. 4. RESUMEN DE LA INFORMACIÓN

Presentación. Pensemos que poseemos ya la muestra o los elementos que debemos medir. Definidas las variables a observar y una vez que se cuenta con la información, lo que interesa es resumirla. En esta unidad se analizarán las herramientas para resumir información de una variable cualitativa y cuantitativa como también de dos variables conjuntamente. Se conocerán algunas sugerencias para la presentación de la información.

Page 16: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

16

4.1. Distribución de frecuencia para variable cualitativa. 4.1.1. Cálculo de la tabla de frecuencia para una variable. Existen muchas formas de organizar los datos numéricos. Se pueden recogerlos y mantenerlos en orden, o hacer una lista de los datos de menor a mayor según su valor numérico. El objetivo de organizar los datos es permitirnos ver rápidamente algunas de las características de los datos que hemos recogido. La información obtenida antes de ser organizada y analizada se conoce como datos sin agrupar, datos originales o datos sin procesar. Con X simbolizamos a la variable y con Xi a los diferentes valores que asume la variable. El objeto de las tablas de frecuencias es mostrar de una manera muy simple y práctica, los valores o categorías de una variable que se ha observado en el estudio realizado y registrar la cantidad de veces que se ha repetido cada valor o categoría de la variable lo cual se denomina frecuencia absoluta. Estas tablas se denominan series de frecuencias o distribuciones de frecuencia, por lo tanto una distribución de frecuencia es el cuadro o tabla que presenta en forma ordenada a los distintos valores de una variable y sus correspondientes frecuencias, siendo estas el número de veces que se repite el valor de la variable.

Ejemplo:

Si se extrae información de una variable cualitativa de 200 pacientes por ejemplo el género sólo es posible obtener frecuencias absolutas y relativas. Las frecuencias absolutas fi es la cantidad de veces que se repite ese valor. Las frecuencias relativas hi es la proporción de individuos que posee ese valor calculada sobre el total de individuos muestrales, es igual a la frecuencia absoluta dividida la totalidad de individuos en la muestra (164/200=0,82). Luego el porcentaje es igual a la frecuencia relativa multiplicada por 100. X= género Xi son valores que asume (X1= Femenino; X2=Masculino)

Tabla 4: Tabla de frecuencia de la variable Género.

Género fi hi %

Femenino 164 0,82 82

Masculino 36 0,18 18

Total 200 1,00 100 Fuente. Datos Ficticios.

Se observaron 162 pacientes de género femenino y 36 de género masculino. El 82 % de los pacientes analizados o estudiados son de género femenino y el 18% de género masculino. La representación gráfica para esta información puede ser realizada a través de un gráfico de sectores.

Figura 2: Género de pacientes. En porcentajes.

Page 17: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

17

Fuente: Datos Ficticios.

Simbólicamente:

X fi hi %

X1 f1 h1

X2 f2 h2

.

.

Xk Fk hk

Total N 1 100

4.1.2. Tablas de frecuencias conjuntas para variable cualitativa: tablas de contingencia

Para ordenar la información proveniente de dos variables categóricas pueden organizarse en cuadros o tablas que se denominan tablas de contingencia. También pueden utilizarse variables cuantitativas categorizando sus valores, es decir trabajando con intervalos de valores para una variable cuantitativa.

Estas tablas pueden contener las frecuencias absolutas conjuntas, marginales como también porcentajes total, columna y fila. Cada tabla dará luego, una información determinada y útil según lo que se quiera leer de la información.

Ejemplo: Un docente posee un listado de 32 alumnos que incluye el género y la carrera universitaria a la cual se inscribieron.

Apellidos Género Carrera Bustos M Abogacía Bisio M Abogacía Callejas M Abogacía Cucos F Abogacía Fuster M Abogacía Frutos M Abogacía Gomez M Abogacía Jozami F Abogacía Mistral F Abogacía Perez M Abogacía Petres M Abogacía Suarez F Abogacía Yoma F Abogacía

Page 18: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

18

Zolca M Abogacía Aquines F Medicina Arce M Medicina Alvarez F Medicina Boca M Medicina Casas M Medicina Colman F Medicina Dexter M Medicina Dolce M Medicina Dimo M Medicina Duran F Medicina Desio F Medicina Ercos M Medicina Flores F Medicina Marcos F Medicina Millan M Medicina Oses M Medicina Sosa F Medicina Urca M Medicina

Desea ordenar la información y en primera instancia realiza una tabla de frecuencias absolutas conjuntas. La siguiente tabla se denomina tabla de contingencia y establece la cantidad de alumnos que poseen conjuntamente ambas características: 5 alumnos son de género femenino y se inscribieron en abogacía, 9 alumnos se inscribieron en abogacía y son de género masculino, etc..

Tabla 5: Cantidad de alumnos por género según carrera.

Género

Carrera F M Total

Abogacía 5 9 14

Medicina 8 10 18

Total general 13 19 32 Fuente: Datos Ficticios.

En este caso lo apropiado para graficar sería utilizar un diseño de barras compuestas horizontales.

Figura 6: Cantidad de alumnos según carrera y género.

Fuente: Datos Ficticios. Porcentajes: Si se toman los porcentajes calculados sobre el total de alumnos en general, es decir sobre 32, se obtiene una tabla de porcentajes Total.

Tabla 6 : Porcentaje total

Page 19: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

19

Género

Carrera F M Total

Abogacía 16 28 44

Medicina 25 31 56

Total general 41 59 100 Si se toman los porcentajes calculados sobre el total de alumnos de cada uno de los géneros, es decir tomando como total de cada uno de los géneros, 13 y 19, se obtiene una tabla de porcentajes columnas.

Tabla 7: Porcentaje de alumnos por género según carrera

Género

Carrera F M Total

Abogacía 38 47 44

Medicina 62 53 56

Total general 100 100 100 Fuente: Datos Ficticios.

Figura 7: Porcentaje de alumnos por carrera según género.

Fuente: Datos Ficticios.

En esta tabla se puede leer que el 38% de los alumnos de género femenino se inscribieron en la carrera de abogacía. En el género masculino el porcentaje es mayor ya que alcanza el 47%.

Luego si se calculan los porcentajes fila, tomando como total a los valores 14 y 18 que surgen de las sumas de las columnas, se obtiene:

Tabla 8: Porcentaje de alumnos por género según carrera

Género

Carrera F M Total

Abogacía 36 64 100

Medicina 44 56 100

Total general 41 59 100 Fuente: Datos Ficticios.

Aquí la información provee datos relacionados al género dentro de cada una de las carreras a las cuales se inscribieron los alumnos. Es decir del total de alumnos que se inscribieron a abogacía, el 36% son de género femenino y del total de alumnos

Page 20: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

20

que se inscribieron a medicina el 44% son de género femenino. En general puede decirse que en abogacía hay una tendencia mayor a que los inscriptos sean de género masculino.

Figura 8: Porcentaje de alumnos por género según carrera.

Fuente: Datos Ficticios.

4.2. Distribución de frecuencias de una variable cuantitativa discreta. Elaboración de tabla. Cálculo de las distintas frecuencias

Si lo que se desea resumir es por ejemplo, puntaje de un examen medido sobre un grupo de alumnos de un curso de secundaria, los valores posibles serán de 0, 1, 2, 3,............, 10; es decir que se pueden poseer hasta 11 valores distintos de puntajes. Los valores observados serán las notas o puntaje que cada alumno obtuvo, 4, 7, 9, 3, 4, 6, 3, 8, 2, 7,..............................etc..

Las distintas observaciones o fenómenos pueden designarse por:

conforme al orden en que se presentan. Este conjunto de observaciones representa una muestra de tamaño “n” de la población constituida por todas las observaciones posibles, que se simboliza con N.

Luego el resumen de la información a través de la tabla o distribución de frecuencias, contará con k valores distintos de la variable que se mide que serán menor n, las frecuencias absolutas, las relativas y el porcentaje correspondiente, calculados de igual manera que para una variable cualitativa.

Ejemplo: En un barrio de la ciudad de La Rioja, se está realizando un estudio sobre la cantidad de niños en edad escolar por hogar para determinar la demanda de ingreso en la escuela barrial. Se observaron la cantidad de niños en edad escolar por hogar sobre un total de 40 hogares.

1 5 3 4 2 3 2 3 4 2 2 0 1 2 5 3 4 1 3 3 4 3 2 1 3 0 2 5 3 2 3 6 3 4 2 3 4 3 1 3

Para resumir esta información proveniente de una variable aleatoria cuantitativa se construye una tabla de frecuencias.

xxxx n...,..........,.........,,

321

Page 21: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

21

Tabla 9: Tabla de frecuencia de la variable Cantidad de hijos.

Cantidad de hijos en edad escolar

xi

fi hi % Fi Hi

x1= 0 2 0,050 5 2 0,05 x2= 1 5 0,125 12,5 7 0,175 x3= 2 9 0,225 22,5 16 0,400 x4= 3 14 0,350 35,0 30 0,750 x5= 4 6 0,150 15,0 36 0,900 x6= 5 3 0,075 7,5 39 0,975 x7= 6 1 0,025 2,5 40 1,000 Total 40 1,000 100,0

Fuente: Datos Ficticios.

La variable x observada es cantidad de hijos que si bien se poseen 40 observaciones la cantidad de valores distintos son 7 (k=7 desde el 0 hasta el 6), la frecuencia absoluta indica la cantidad de hogares que tienen 0 hijos en edad escolar, 1 hijo, etc.. La frecuencia relativa hi multiplicada por 100 da el porcentaje de hogares que poseen una determinada cantidad de hijos en edad escolar. El 35 % de los hogares poseen 3 hijos en edad escolar, el 57,5% poseen entre 2 y 3 hijos.

En general, la representación gráfica de una tabla de frecuencia permite percibir con mayor claridad algunas características de la masa de datos que se investiga. Por ello, resulta bastante más fácil transmitir conclusiones a personas no habituadas a la interpretación de distribuciones de frecuencias cuando se utilizan gráficos estadísticos. Para representar gráficamente se utiliza un par de ejes de coordenadas cartesianas, donde en el eje de abscisa se representa la variable estudiada y en el eje de ordenada los valores de la correspondiente frecuencia absoluta o relativa. En el caso de graficar datos provenientes de una variable discreta, como la frecuencia corresponde a cada valor de la variable, se puede representar por un bastón vertical, construyendo de esta forma el llamado “gráfico de bastones”

Figura 3: Cantidad de hijos en edad escolar. Frecuencia Absoluta.

Fuente: Datos Ficticios.

Page 22: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

22

4.3. Distribución de frecuencias de una variable cuantitativa continua. Elaboración de la tabla de frecuencias. Histograma. Polígono de frecuencia. Curva de frecuencias acumuladas.

Para elaborar la tabla de frecuencia en estos casos se debe tener en cuenta que si se poseen n datos muestrales se podrían obtener n valores distintos.

Es por ello que se debe agrupar a los valores en Intervalos de manera tal que cubran todo el rango o recorrido de la variable.

Cada intervalo tendrá una un límite inferior (Li) y uno superior (Ls)

Para ello debe elegirse una amplitud de intervalo (A) que podría ser seleccionada calculando el rango (Rx) y dividiéndolo por la cantidad de intervalos (Int.) que se desean.

.Int

RA

XmínXmáxR

x

x

La bibliografía aconseja entre 5 y 20 intervalos, dependiendo de los datos, de tal manera que no se dispongan de un gran número ya que puede entorpecer el análisis de la tabla, ni tampoco que exista un número reducido lo que genera que la amplitud de cada intervalo de clase sea amplia y por lo tanto se pierde información.

Una vez determinada la amplitud se selecciona el límite inferior del primer intervalo, el cual podrá ser igual o inferior al mínimo valor de la variable. Al límite inferior del primer intervalo se le suma la amplitud para lograr el límite superior. Este será el límite inferior del siguiente intervalo al que se le sumará la amplitud para encontrar el siguiente límite superior. Entonces el límite inferior del segundo intervalo será igual al límite superior del primero más la amplitud y asi sucesivamente. Aquel dato que sea igual al límite superior de cualquier intervalo se considerará incluido en él. Es decir los intervalos incluirán los límites superiores pero no lo inferiores.

Luego se calculan las frecuencias absolutas (o conteo), relativas (son la proporción o frecuencias absolutas divido n que es la cantidad de elementos observados) y porcentajes tal como se desarrolló para la variable cuantitativa discreta. Se incluye también la frecuencia absoluta acumulada F y relativa acumulada H, que se calcula acumulando o sumando a la frecuencia de un determinado intervalo, todas las frecuencias relativas de los intervalos anteriores.

Ejemplo:

Los siguientes datos corresponden a la información relativa al puntaje sobre un test de atención efectuado a 34 alumnos.

Para armar los intervalos se calculó el rango que es igual a 84-51= 33, dado que se querían armar 6 intervalos la amplitud sería 5,5. Para no tomar amplitudes con decimales se prefirió usar una amplitud de 5 tomando como límite inferior al valor 50. Siempre el límite inferior del primer intervalo debe contener al menor valor del conjunto de datos.

Tabla 9: Tabla de frecuencia de la variable cuantitativa Puntaje.

54 62 55 69 78 64 69 66 61 66 58 69 78 68 63 58 51 72 84 64 66 53 70 65 60 70 80 57 63 72 65 64 73 75 -

Puntaje fi hi % Fi Hi

Page 23: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

23

Fuente: Datos ficticios.

En esta tabla se incluye la frecuencia absoluta y relativa acumulada Fi y Hi. Esta frecuencia multiplicada por 100, indica el porcentaje de individuos que poseen un valor inferior al límite superior de ese intervalo. En el ejemplo anterior, en la tercera fila se podría leer: “un total de 9 alumnos poseen un puntaje entre 60 y 65, es decir 26% de los alumnos analizados. Luego el 50% posee un puntaje inferior a 65 puntos. El 0,50 de la frecuencia relativa acumulada se calcula como 0,12+0,12+0,26 sumando a la frecuencia relativa del intervalo, las anteriores.

Para representar gráficamente a la información que provee una variable cuantitativa se utiliza un histograma. El histograma es un gráfico de frecuencias absolutas o relativas. Sobre el eje de ordenada se presentan las frecuencias absolutas o relativas y sobre el eje de abscisa se presentan las clases o intervalos. Es importante considerar que las barras no poseen espacios entre si, dado que la variable es continua.

Figura 4: Histograma de la variable Puntaje.

Fuente: Datos Ficticios.

Las alturas de las barras varían según sean los valores de frecuencia absoluta sobre los intervalos, que todos tienen en este caso igual longitud de base. El ascenso y el descenso de las líneas de contorno muestran el aumento o la disminución del número de alumnos de intervalo en intervalo. La representación gráfica de las frecuencias relativas acumuladas se realiza a través de un gráfico lineal u ojiva. Si ese gráfico tiene forma de S estirada, implicaría que el histograma es bastante simétrico, tal como ocurre en el ejemplo anterior.

Figura 5: Gráfico de frecuencias relativas acumuladas.

50 55 4 0,12 12 2 0,12

55 60 4 0,12 12 8 0,24

60 65 9 0,26 26 17 0,50

65 70 9 0,26 26 26 0,76

70 75 4 0,12 12 30 0,88

75 80 3 0,09 9 33 0,97

80 85 1 0,03 3 34 1,00

Total 34 1,00 100 -

Page 24: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

24

Fuente: Datos Ficticios.

4.4. Presentación de la información. Texto. Cuadros estadísticos. Partes de un cuadro. Elaboración. Gráficos estadísticos: de sectores, de barras, lineales.

La información puede ser presentada a través de:

Textos

Cuadros

Gráficos

En un texto puede presentarse información numérica, siempre controlando que la misma no suministre demasiados valores. En ese caso lo más apropiado es un cuadro estadístico.

Los cuadros estadísticos se confeccionan para un fin específico y proporcionan información de tal manera que el lector pueda entender rápidamente su contenido, observar que se trata, y de esta forma hacer comparaciones para sacar algunas conclusiones. Otorgan información específica y detallada de la situación que se describe.

Un cuadro debe contener:

Título: Es la descripción precisa y completa del contenido del cuadro Generalmente se coloca en la parte superior del cuadro, y en forma de pirámide truncada.

Cuerpo: Contiene la información organizada por filas y columnas. La primer columna, por lo general contiene la variable dependiente o variable más importante.

Fuente: La fuente deberá indicar de dónde provienen los datos que se presentan en el mismo.

También en algunos cuadros puede ser necesario incorporar una nota al pie, para realizar algunas aclaraciones.

Los cuadros también se denominan tablas y son presentadas generalmente numerándolos y citándolos en el texto para hacer referencia a ellos.

El gráfico constituye otra manera de presentar la información, pero mucho más dinámica y de más rápida lectura. Si bien no indica, en algunos casos, la exactitud de la información es conveniente para poder extraer una inmediata interpretación de la situación representada.

Debe contener también un título, un diseño o diagrama y la fuente. El diseño o tipo de gráfico a utilizar varía según la naturaleza de la información a graficar. El diagrama depende de la información que se disponga y de la forma que se considere más representativa para explicarla:

Page 25: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

25

1. Lineales. Se utilizan principalmente para representar datos a través del tiempo. Por ejemplo, para representar la inversión provincial en educación a través del tiempo.

2. De sectores: Se utilizan para variables categóricas o cualitativas con pocas categorías. Ver punto 3.1.

3. Barras Horizontales: También son apropiados para representar para variables categóricas o cualitativas, especialmente si se poseen muchas categorías.

4. Barras Verticales: Se utilizan para variables discretas o continuas, hay que tener en consideración el espacio entre barras según sea el tipo de variable cuantitativa que se está graficando. Ver punto 3.2. y 3.3.

5. Barras compuestas: Cuando se poseen dos o más variables, las barras compuestas permiten la representación y comparación. Ver punto 3.4.

6. Barras subdivididas. Ver punto 3.4.

Resumen

Logramos armar la matriz de datos, ahora aprendimos a resumirlos para obtener de ellos información que permita una lectura apropiada para el entendimiento del fenómeno.

Si la variable es cualitativa pueden calcularse frecuencias absolutas, relativas y porcentajes. Si son cuantitativas discretas o continuas, frecuencias absolutas, relativas, porcentajes y frecuencias acumuladas. En el caso de variables continuas deben resumirse calculando intervalos que agrupen los diferentes valores que puede asumir la variable.

El resumen de estos datos, puede presentarse en textos, cuadros o gráficos, estos últimos se seleccionan de acuerdo a la naturaleza de la información.

Si se resumen dos variables cualitativas o dos variables cuantitativas categorizadas a través de intervalos, se utilizan tablas de contingencia. Estas tablas dan origen a porcentajes totales, filas o columnas que se determinan de acuerdo a lo que el investigador quiere observación en la información.

Se puede presentar la información que surge de la tabla de contingencia, mediante gráficos cuyo estilo se selecciona según el diseño que mejor refleje para Ud. la situación a presentar.

Actividad 4 Variables cualitativas 1) Realice una tabla de frecuencias resumen correspondiente a 25 pacientes, para los

siguientes datos de la variable “Obra Social· que adopta dos valores SI o NO según tenga o no obra social e indique qué gráfico podría utilizar para representar la información. SI NO NO SI NO SI SI SI SI SI NO SI NO NO NO SI SI SI SI SI SI NO NO SI NO.

2) Complete la información del siguiente cuadro.

Nivel Educativo Fi hi %

Primario 12

Secundario 8

Terciario/Universitario 10

Total 30

a) ¿Qué tipo de gráfico utilizaría para representar esta información.

Page 26: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

26

b) SI los datos provienen del Servicio de estadística del Centro de Salud del Barrio San Vicente. Cómo utilizaría esta información relacionada a la procedencia de la institución que la otorga.

3) Qué es una tabla de contingencia? 4) Dada la siguiente información.

Frecuencias absolutas

Sexo

Fuma Masc Fem Total

No 0 20 20

SI 8 4 12

Total 8 24 32

Analice que información le suministra la primera fila.

5) De la tabla anterior se obtuvo la siguiente información: Sexo

Fuma Masc Fem Total

No 0,00 100,00 100,00

SI 66,67 33,33 100,00

Total 25,00 75,00 100,00

Analice cada uno de los porcentajes. 6) De la tabla correspondiente al ejercicio 4 se obtuvo esta información:

Sexo

Fuma Masc. Fem. Total

No 0,00 83,33 62,50

SI 100,00 16,67 37,50

Total 100,00 100,00 100,00

Analice cada uno de los porcentajes. 7) Para la tabla del ejercicio 5, indique qué gráfico utilizaría para representar la información.

8) Mediante los datos que aparecen en la tabla posterior, responder a las siguientes

preguntas:

a) De todos los estudiantes que se gradúan, ¿cuál es el porcentaje de mujeres?

b) Considerando únicamente los estudiantes del sexo masculino, ¿en qué % se distribuyen según el área académica?

c) Considerando solo el sexo femenino, ¿en qué % se distribuyen por cada área?

d) Indique para el el sexo masculino el % para cada área.

Estudiantes graduados en cada una de las

cinco áreas académica, según sexo. Año 2010.

Áreas Hombres Mujeres

Administración de empresas 400 100

Educación 50 150

Humanidades 150 200

Page 27: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

27

Biológicas 250 100

C. Sociales 200 200

TOTAL Fuente: Area de alumnos UNLaR.

9) Calcule en la siguiente tabla proveniente de una encuesta, porcentajes columnas e

interprete:

: Cantidad de alumnos por género según práctica deportiva.

Género

Práctica deporte F M Total

SI 60 40 100

NO 150 20 170 Total general 210 60 210

Fuente: Datos Ficticios.

10) Si se realiza la siguiente tabla de contingencia que surge del cruce de las variables género y nivel de aprendizajes, ¿Qué género tiene mayor porcentaje de alumnos con nivel de aprendizaje alto?

Cantidad de alumnos por género según nivel de aprendizajes.

Género

Nivel F M Total

Alto 432 234 666

Medio 657 564 1221

Bajo 123 342 465

Total general 1212 1140 2352 Fuente: Datos Ficticios.

Variables cuantitativas 11) En un centro de atención primaria de salud, interesa tener información acerca de la

cantidad de hijos de las mamás que asisten al mismo. Sobre una muestra de 30 madres, se obtuvieron los siguientes resultados: 2 2 3 3 3 4 4 5 4 1 1 2 2 2 2 3 3 3 4 4 4 5 5 1 1 3 3 3 4 4 Realice una tabla de frecuencias que contenga frecuencia absoluta (FA), frecuencia absoluta acumulada (FAA), frecuencia relativa(FR), frecuencia relativa acumulada (FRA)y porcentaje. Interprete la tercera fila de la tabla.

12) Sobre las mismas madres se mide la edad obteniéndose la siguiente información. 15 17 21 23 21 25 17 18 19 17 21 23 21 21 20 18 17 16 20 24 24 35 27 26 27 23 21 19 21 22 Realice una tabla de frecuencias tomando como límite inferior del primer intervalo a 14. Calcule la amplitud apropiada para lograr 6 o 7 intervalos.

Page 28: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

28

Calcule la tabla de frecuencias que contenga frecuencia absoluta, frecuencia relativa, frecuencia relativa acumulada y porcentaje. Interprete la tercera fila de la tabla.

13) Realice un histograma para la información del ejercicio anterior.

14) En una investigación odontológica, a 183 pacientes se le mide la variable número de

cepillados de dientes por día. a) Complete la siguiente información, donde MC representa los distintos valores que

asume la variable NUM CEP número de cepillados por día. (La columna Clase representa la cantidad de valores distintos que se posee de la variable, en este caso esta columna podría obviarse)

Tablas de frecuencias

Variable Clase MC FA FR FAA FRA

NUM CEP 1 0 11 0,06 11 0,06

NUM CEP 2 1 20 31 0,17

NUM CEP 3 2 60 0,33 0,50

NUM CEP 4 3 67 0,37 158 0,86

NUM CEP 5 4 25 0,14 183 1,00

b) Calcule la cantidad total de pacientes sobre los cuales analiza la cantidad de cepillados por día que se realizan.

c) Interprete la segunda fila.

15) Si los siguientes histogramas pertenecen a la distribución de la variable edad de alumnos de 2do. Grado de dos instituciones diferentes.

Cuál de las dos instituciones posee mayor sobreedad en 2do. Grado? Justifique la respuesta. Calcule aproximadamente, qué cantidad de alumnos de la escuela B tienen más de 10 años (el cálculo debe realizarse mediante el gráfico).

Figura 9: Histograma de la variable edad de alumnos de 2do. Grado de la escuela A.

Fuente: Datos Ficticios.

Figura 10: Histograma de la variable edad de alumnos de 2do. Grado de la escuela B.

Page 29: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

29

Fuente: Datos Ficticios.

ANEXO I

ANALISIS DE TABLAS DE FRECUENCIA CON INFOSTAT A. Ejemplo variable cualitativa Contamos con información de 200 pacientes seleccionados aleatoriamente de la población de pacientes que asistieron durante el verano en el centro de Salud SOLES, sobre la edad, género, cantidad de integrantes en el hogar y barrio de donde provienen. ¿Cómo podríamos dar el porcentaje de género femenino que existe en este grupo de pacientes. Si se cuenta con la información de una variable cualitativa de 200 pacientes por ejemplo el género sólo es posible obtener frecuencias absolutas y relativas y los porcentajes. Poseemos la matriz de datos cargada en InfoStat.

La variable género debe estar definida como categórica. Ir a la columna donde está género iluminarla y luego ir Datos-> Tipo de datos-> y hacer un tilde en categórica. Luego vamos a Estadística->Tabla de frecuencias.

Page 30: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

30

Y cuando se abre el menú, elegimos la variable género, iluminándola (haciendo click con el mouse) y pasándola a la ventana del lado derecho.

El resultado es el siguiente:

La FA es 164 y FR es 0,82 que multiplicado por 100 nos da un % de 82% de mujeres y un 18% de varones.

Page 31: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

31

Se observaron 162 pacientes de género femenino y 36 de género masculino. El 82 % de los pacientes analizados o estudiados son de género femenino y el 18% de género masculino. Ejemplo 2: Análisis conjunto de dos variables. Contamos con información de 200 pacientes seleccionados aleatoriamente de la población de pacientes que asistieron durante el verano en el centro de Salud SOLES, sobre la edad, género, cantidad de integrantes en el hogar y barrio de donde provienen. ¿Cómo podríamos resumir la información de género y barrio de este grupo de pacientes? Ambas variables deben ser asignadas como categóricas en Datos->Tipos de datos. Luego ir a Estadística->Datos Categorizados -> Tabla de contingencia, allí seleccionar las dos variables categóricas a resumir.

Las variables a resumir se ubican en criterios de clasificación.

Page 32: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

32

Luego se indica qué variable se ubicará en la fila y cuál en la columna. En este caso se colocará el barrio en las filas y el género en las columnas.

En la misma ventana en la pestaña Opciones, se puede indicar si se quieren porcentajes filas o columnas. Hacer un tilde en la opción deseada y en la que indica frecuencias relativas como porcentajes debido a que resulta mucho más fácil su interpretación.

El resultado es el siguiente: primero un cuadro de frecuencias absolutas, luego porcentajes filas y por último porcentaje columnas.

Page 33: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

33

Del primer cuadro de frecuencias absolutas puede leer el valor 37 como la cantidad de pacientes de género femenino que provienen del barrio Güemes. Del segundo cuadro el valor 71,15% se lee como, del total de pacientes del barrio Güemes el 71,15% son del género femenino. Del tercer cuadro el valor 22,56% se lee como, del total de pacientes de género femenino el 22,56% son del barrio Güemes. Poner atención en las diferentes interpretaciones.

B. Ejemplo variable cuantitativa discreta

Contamos con información de 200 pacientes seleccionados aleatoriamente de la población de pacientes que asistieron durante el verano en el centro de Salud SOLES, sobre la edad, género, cantidad de integrantes en el hogar y barrio de donde provienen. ¿Cómo podríamos resumir la información de cantidad de integrantes del hogar de este grupo de pacientes.? Primero tenemos que tener en la tabla de datos del InfoStat o matriz de datos, la variable integrantes definida como variable discreta, para eso iluminamos la columna y en Datos->Tipo de datos ->Entero. Luego en Estadística->Tabla de Frecuencia se selecciona la variable integrantes. El resultado es el siguiente:

Page 34: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

34

En marca de clase (MC) se presentan los distintos valores que asume la variable. Luego se brindan las FA y FR. La Clase indica la cantidad de valores distintos que asume la variable, en este caso 6 valores distintos que van del 2 al 7. Por lo tanto 20 pacientes viven en viviendas que contienen 2 integrantes, es decir un 10% de pacientes viven en una vivienda compartida por 2 integrantes, 29 pacientes viven en viviendas que contienen 3 integrantes, es decir un 15% de pacientes viven en una vivienda compartida por 3 integrantes, 56 pacientes viven en viviendas que contienen 4 integrantes, es decir un 28% de pacientes viven en una vivienda compartida por 4 integrantes y así sucesivamente.

C) Ejemplo variable cuantitativa continua

Contamos con información de 200 pacientes seleccionados aleatoriamente de la población de pacientes que asistieron durante el verano en el centro de Salud SOLES, sobre la edad, género, cantidad de integrantes en el hogar y barrio de donde provienen. ¿Cómo podríamos resumir la información de edad de los pacientes? Primero debemos asignar a la variable edad el tipo de dato Real. Iluminando la columna de la variable edad, vamos a Datos->Tipo de datos->Real. Luego para saber cómo armar los intervalos debemos saber o conocer el valor mínimo y máximo que asume la variable. Para eso vamos a Estadística-> Medidas resumen y seleccionamos la variable edad.

Page 35: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

35

En el menú siguiente debe estar tildado el valor mínimo y máximo para poder calcular el rango de la variable. Este valor se lo necesita para calcular el rango y conocer el recorrido de la variable.

El resultado es el siguiente: Rango =Xmáx-Xmín= 37-5=32

Si se desean armar 6 intervalos, la amplitud será:

3,56

32

.

Int

RA x

Se puede tomar una amplitud de 6 para redondear el valor. Si se considera al valor 5 como LI del primer intervalo (dado que es el menor valor observado de edad) éste estaría conformado por valores de 5 a 11, el segundo 11-17, el tercero 17-23. Luego 23-29, 29-36 y 35-41. En InfoStat usar la opción Estadística->Tablas de frecuencias seleccionan la variable edad y luego completan el número de clases en Personalizado, colocar 6 porque se quieren 6 intervalos y colocar el valor mínimo del intervalo que este caso se seleccionó 5 y el valor máximo que en este caso será 41. Es el valor máximo del intervalo, no es el valor máximo de la variable.

Page 36: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

36

.

El resultado es el siguiente:

El primer intervalo de edad o la primera clase, va desde 5 a 11, su marca de clase (MC) es el punto medio del intervalo, para este intervalo 8, la FA es 10 y la FR es 0,05. Indica que 10 pacientes tienen entre 5 y 11 años es decir el 5% de los pacientes tienen entre 5 y 11 años. En el segundo intervalo que va de 11 a 17, el valor 11 estará en el intervalo anterior eso está indicado por el “(“ en el segundo intervalo. La edad más frecuente está entre 17 y 23 ya que el 48% de mis pacientes registró una edad entre esos valores. Es necesario aclarar que el valor 17 no está incluído en ese intervalo porque posee al lado un paréntesis “(“ que indica que ese número no se incluye, sin embargo el 23 sí es un valor que contiene el intervalo porque posee el “]” corchete señalando que lo contiene. En la siguiente tabla se incluye la frecuencia absoluta acumulada (FAA) y la relativa acumulada (FRA) que se obtiene tildando esas frecuencias en el menú de Tabla de frecuencias. Esta frecuencia multiplicada por 100, indica el porcentaje de individuos que poseen un valor inferior al límite superior de ese intervalo.

Page 37: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

37

En la tabla anterior la 3ra. fila puede leerse: “95 pacientes tienen entre 17 y 23 años, representan el 48% de los pacientes. Además 149 pacientes poseen entre 5 y 23 años, es decir el 75% de los pacientes es menor de 23años. Luego se deduce que el 25% de los pacientes supera los 23 años. (La FAA 54=10+44, la FAA 149=10+44+95 y asi sucesivamente-) Para representar gráficamente a la información que provee una variable cuantitativa se utiliza un histograma. El histograma es un gráfico de frecuencias absolutas o relativas. Sobre el eje de ordenada se presentan las frecuencias absolutas o relativas y sobre el eje de abscisa se presentan las clases o intervalos. Es importante considerar que las barras no poseen espacios entre si, dado que la variable es continua. En InfoStat, Gráficos->Histograma y selecciono edad. SI deseo puedo mantener los intervalos que se construyeron para la tabla de frecuencias.

.

Fuente: Datos Ficticios.

Las alturas de las barras varían según sean los valores de frecuencia absoluta sobre los intervalos, que todos tienen en este caso igual longitud de base.

5. ESTADÍSTICA DESCRIPTIVA

Presentación: Sabemos que la información es clave para la toma de decisiones, pero con tener información no es suficiente. Es necesario resumirla y conocer qué indicadores o medidas nos permitirán obtener mejor aprovechamiento de los datos.

Page 38: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

38

Si bien hasta aquí, pudimos armar tablas resúmenes y representarlas gráficamente, es posible obtener otras medidas que describen la información sobre su tendencia central, su variación y sobre el orden.

5.1. Análisis de una variable cualitativa. Proporción. Razón.

Una variable cualitativa puede poseer en la matriz de datos, números proveniente de una codificación pero no puede realizarse ninguna operación entre ellos. Para los resultados de estas variables se pueden calcular proporciones, porcentajes o razones.

La proporción es la frecuencia relativa ya mencionada.

individuos de Total

mujeres de Totalmujeres de Proporción

Por lo general el resultado se encuentra multiplicado por 100 y se denomina porcentaje.

100individuos de Total

mujeres de Totalmujeres de Porcentaje

Ejemplo:

Se posee la población de 37.923 individuos clasificados según NBI:

Tabla 10: Población según NBI. Característica Total Proporción Porcentaje NBI 19.277 0,508 50,8 No NBI 18.646 0,492 49,2 Total 37.923 1,000 100,0

Nota: Datos Ficticios

Los porcentajes facilitan la comparación entre mediciones de distintas localidades o de diferentes poblaciones, etc., en general cuando los totales de unidades observadas varían considerablemente.

Se debe tener precaución en el uso de los porcentajes, en especial, y como ya se mencionó, cuando los denominadores son pequeños un cambio en el mismo puede generar una distorsión de gran magnitud en el porcentaje

Las razones son cocientes, divisiones entre un valor y otro valor que podrían provenir de diferentes variables, tal es el caso de la densidad habitacional:

2Km de Cantidad

habitantes de CantidadDensidad

En este caso el numerador no es parte del denominador como en el caso de una proporción. Una razón muy frecuente es la razón de masculinidad que compara varones con mujeres, es decir:

mujeres de Cantidad

varonesde CantidadlinidadRazónMascu

En este caso si la razón es igual a 1 ambos valores son iguales, si es mayor que 1 existe mayor cantidad de varones y si es menor que 1 mayor cantidad de mujeres. 5.2. Análisis de una variable cuantitativa. Medidas de tendencia central. Media, Mediana y Modo. Cálculo en distintas situaciones. Comparaciones e interpretación.

Page 39: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

39

Cuando se describe una variable cuantitativa se pueden utilizar las medidas de tendencia central, las medidas de variabilidad y las de orden.

Las distribuciones de frecuencias y sus derivados son muy útiles, pero en sí mismo no permite realizar afirmaciones cuantitativas que caractericen a la distribución como un todo, como tampoco permite hacer comparaciones cuantitativas entre dos o más distribuciones.

Generalmente se desea describir las características de las distribuciones en forma cuantitativas, por ejemplo, supongamos que se desea conocer características de la edad de un grupo de individuos, categorizados en varones y mujeres.

Si es necesario hacer comparaciones entre las distribuciones, hay que analizar sus caracterizarlas o cuantificarlas para su análisis.

Para ello se cuenta con las Medidas de Tendencia Central, que permiten caracterizar a un grupo de información para luego comparar.

Dentro de las medidas de tendencia central para describir la información que puede o no estar analizada a través de una distribución de frecuencia, se encuentran: la media aritmética, la mediana y el modo.

Para elegir el criterio o tipo de tendencia central que se utilice, se tendrá en cuenta cuál de entre ellas se adapta más convenientemente a la distribución en estudio, ya sea por su forma o por su nivel de medición. Cuando se está en presencia de una variable medida en escala nominal, la única de estas medidas que puede calcularse es el modo, en las otras escala de medición pueden calcularse todas.

La media aritmética es el promedio de las observaciones, es simplemente la suma de todas las observaciones medidas divididas sobre la cantidad de datos o individuos.

Se simboliza con cuando se hace referencia a una media aritmética calculada con los datos muestrales. Si la media se calcula con los datos poblacionales será un parámetro y se simbolizará con µ (letra griega que se pronuncia mu).

Luego en un conjunto de n datos, es decir provenientes de n individuos . Con x se

denota el nombre de la variable, es decir x puede ser la edad, el peso, el puntaje, etc..

Ejemplo: Se posee la edad de 5 alumnos. Las observaciones son 7 9 11 13 10.

Luego , entonces

Esto indica que en promedio los alumnos tienen 10 años.

La mediana es el valor central de las observaciones, es decir si se ordena la información de mayor a menor la mediana es el valor de la variable que toma el lugar central.

Si la cantidad de datos es par se tomará el promedio de las observaciones centrales.

La interpretación que se da es que el 50% de los individuos poseen un valor de hasta el valor de la mediana, aunque en realidad es el valor central de las observaciones.

Puede consultarse http://www.demre.cl/text/doc_tecnicos/p2009/estadistica_descriptiva.pdf.

Ejemplo:

La mediana de la información del ejemplo anterior es 10 años. En este caso coincide con la media. El valor central de la información es 10 años.

El modo es el valor que más frecuencia absoluta posee o el valor que más se repite en la serie de información.

Page 40: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

40

Ejemplo:

Sobre 5 alumnos se miden la edad y el género de cada uno de ellos. La matriz de información es:

Tabla 11: Matriz de datos. Indiv Género Edad

1 F 6 2 F 7 3 F 7 4 M 7 5 M 8

Fuente. Datos ficticios.

En este caso el modo del género es F (Femenino) y el modo de edad 7.

5.3. Medidas de orden: Cuartiles y Percentiles. Usos e interpretación de resultados.

Otras medidas descriptivas importantes son las llamadas medidas de orden. Estas medidas permiten determinar y expresar la posición relativa o posición de orden que un dato individual ocupa en una serie de datos observados en un estudio.

Los cuartiles dividen a la información ordenada en 4 partes iguales. Son valores de la variable observada que dividen en 4 partes iguales correspondientes a un 25% de información. Se simbolizan con Q1, Q2 y Q3.

El Q1 deja a la izquierda un 25% de la información y a la derecha el 75%. El Q2 coincide con la mediana y el Q3 deja a su izquierda el 75% de la información y a la derecha un 25%. Suponga que posee la información graficada en un histograma suavizado que podría tener una forma de campana, entonces los 3 cuartiles serán valores de la variable (peso, altura, puntaje) que delimitarán esas zonas de información.

Figura 11: Posición de los cuartiles

.

2,93 6,46 10,00 13,54 17,07

Edad

0,00

0,07

0,14

0,21

0,28

Fre

cu

en

cia

Q1 Q2 Q3

25% 25% 25% 25%

Ejemplo:

Page 41: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

41

Si se calculan los cuartiles del puntaje de 40 niños, las conclusiones serían: El cuartil 1 igual a 25 puntos significa que de los 40 niños el 25 % de ellos obtuvieron puntajes inferiores a 25 puntos y un 75 % de ellos superiores a 25 puntos. El cuartil 2 igual a 29 puntos significa que de los 40 niños el 50 % de ellos obtuvieron puntajes inferiores a 29 puntos y el otro 50 % de ellos superiores a 29 puntos. El cuartil 3 igual a 36 puntos significa que de los 40 niños el 75 % de ellos obtuvieron puntajes inferiores a 36 puntos y el otro 25 % de ellos superiores a 36 puntos.

Los percentiles constituyen otra medida de orden y dividen a la información en 99 partes iguales. Se poseen 99 percentiles y se simboliza con Pr, donde r indica el porcentaje de la información acumulada.

Ejemplo:

SI el percentil del 70% de edad es 14 implica que el 70% de los alumnos tienen hasta 14 años y el 30% supera ese valor.

5.4. Medidas de dispersión. Rango. Variancia. Desviación estándar. Coeficiente de variación. Cálculos e interpretación.

Dos distribuciones pueden tener iguales medidas de tendencia central y sin embargo mostrar grados de dispersión diferentes. La dispersión indica cuán dispersos o concentrados se encuentran los datos o la información, por lo tanto es necesario contar con indicadores que puedan mostrar este tipo de características de una distribución.

Con la variabilidad de los datos de una distribución se mide cuán heterogéneo ese conjunto de información. A mayor variabilidad o dispersión mayor heterogeneidad a menor dispersión mayor homogeneidad.

Por ejemplo, sobre la edad de un grupo de individuos clasificados por género no sólo interesará el valor promedio sino en lo variable que sea la edad dentro de cada grupo de género.

El rango o recorrido es la diferencia entre el máximo valor y mínimo valor de la variable. Es una medida muy simple de variación. Luego:

La variancia o varianza es una medida de variabilidad de los datos alrededor de su media. Una vez caracterizada la distribución a través de medidas de tendencia central, interesa tener alguna idea acerca de cómo se agrupan las observaciones alrededor de dichos valores centrales. La variancia muestral o de la muestra se simboliza con S2 y la poblacional o

parámetro con 2.

Luego:

es el estadístico y el parámetro.

A mayor varianza, mayor heterogeneidad de datos; a menor variancia menor heterogeneidad lo cual implica mayor homogenenidad en los datos.

Si bien la variancia es una medida de variación de la variable es más apropiado utilizar el denominado desvío estándar ya que este último posee la unidad de medida de la variable situación que no ocurre en la variancia.

Page 42: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

42

El desvío se simboliza con S en la muestra y en la población y se lo define como:

al desvío estándar muestral y al poblacional.

Entonces una forma de interpretar al desvío estándar es que es la distancia promedio de los datos a la media. A mayor distancia mayor variabilidad de la información.

Otra medida de variabilidad es el coeficiente de variación, el cual se utiliza cuando se quiere comparar variabilidades de variables medidas en diferentes unidades de medida. El coeficiente de variación muestral se define en porcentaje:

Este coeficiente no tiene unidad de medida y eso permite las comparaciones entre variables medidas en diferentes unidades de medida.

Ejemplo:

En una escuela se realiza un test a 7 alumnos y se mide su puntaje. Se desea calcular medidas que describan la información para luego compararla con otro grupo de alumnos.

En la planilla siguiente, se presenta la información del puntaje de los 7 alumnos ubicada en la columna B desde la fila 2 hasta la fila 8. En la columna B desde la casilla 9 al 13, se muestran los resultados de las medidas calculadas con las fórmulas o funciones que se presentan en las celdas grises. Estas funciones tal como están escritas en la celda gris, se deberán escribir en la celda 9, 10, etc. para lograr el resultado numérico.

Figura 12: Planilla Excel para el cálculo de estadísticas descriptivas.

5.5. Diagrama de caja y bigotes. (boxplot) Para analizar la distribución de los datos o la información, una vez calculadas las medidas descriptivas, es posible construir un gráfico resumen de cinco números denominado diagrama de caja y bigotes. Se emplean cinco cantidades para resumir los datos:

Page 43: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

43

1.- Valor mínimo. 2.- Primer cuartil. 3.- Mediana. 4.- Tercer cuartil. 5.- Valor máximo. La forma más fácil de elaborar un resumen de cinco números es poner los datos en orden ascendente, así es fácil identificar los cincos datos.

Ejemplo Supongamos tener los pacientes egresados de los últimos 12 años en cierto hospital.- Ordenados en forma creciente son: 2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325 La mediana es Mna = 2905 y los cuartiles Q1 = 2880 y Q3 = 3050 los otros dos datos es fácil verlos.

Un diagrama de caja es un resumen gráfico de los datos basado en un resumen de cinco datos y nos da una idea de forma de la distribución de los datos, además de poder determinar si tenemos valores atípicos. Los pasos para trazar un diagrama de caja y bigote son: 1.- Se traza un rectángulo con los extremos en el primer cuartil y tercer cuartil. Este rectángulo contiene el 50% de los datos. 2.- En la caja se traza una recta vertical en el lugar de la mediana, así, la línea de la mediana divide los datos en dos partes iguales. 3.- Se ubican los límites mediante el rango intercuartil RIC = Q3 – Q1 Los límites en el diagrama estarán dados según la Regla de Tuckey en Q1 - 1,5 * RIC y Q3 + 1,5 * RIC. Todos los valores que nos queden fuera de esos límites son considerados valores atípicos. 4.- Las líneas punteadas a los costados de la caja se llaman bigotes de la caja y se trazan del valor mínimo al cuartil 1 y del cuartil 3 al valor máximo. 5.- Por último se marca con asterisco si hay algún valor atípico.

Ejemplo:

Page 44: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

44

Suponga que tiene las edades de pacientes egresados durante tres años, en base a muestras tomadas de cada año. Decide comparar los tres años respecto a la variable edad de los pacientes egresados, mediante diagramas de caja y bigote. Resulta lo siguiente::

Da

ta

3obs2obs1obs

100

80

60

40

20

0

Boxplot of 1obs; 2obs; 3obs

Ejemplo: La tabla siguiente muestra las puntuaciones obtenidas en el examen final de Bioestadística para quince estudiantes de primer año, quince de segundo año y quince de tercer año.

1er.año 2do. Año 3er.año

47 72 56 76 43 80

52 72 59 80 48 80

52 78 59 83 50 83

57 81 61 83 55 85

63 81 67 84 61 89

64 86 69 90 67 91

69 91 73 94 72 97

71 76 78

1obs 2obs 3obs 41 70 22 78 53 68 84 34 48 60 36 25 46 47 29 64 16 56 43 53 64 37 43 30 50 29 57 57 83 32 24 42 39 78 48 39 51 57 50 41 29 35 56 64 36 46 41 16 99 86 98 71 54 39 41 2 53 41 39 36 22 40 46 62 70 46 64 52 57 44 38 60 41 63 62

Page 45: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

45

3er. Año2do. Año1er. Año

100

90

80

70

60

50

40

Da

tos

Gráfica de caja de 1er. Año. 2do. Año. 3er. Año

La figura anterior contiene los diagramas de caja de las puntuaciones de cada uno de estos tres grupos.- En este ejemplo concreto, puede apreciarse que no hay observaciones excesivamente atípicas en ninguno de los tres grupos.- Por eso, los bigotes de las cajas corresponden a la menor y mayor puntuación de cada grupo.- En el diagrama se observa que los estudiantes del tercer curso consiguieron la mejor mediana, pero sus puntuaciones tienen una variabilidad considerablemente mayor que la de los otros grupos.- Otro hecho que llama la atención es la gran cantidad de puntuaciones bajas obtenidas por los estudiantes del primer curso.

Ejemplo: Un corredor entrena para una determinada carrera y se toman los tiempos que necesita para recorrer los 200 m, durante 10 días consecutivos (cada día se toman varios tiempos y se calculan mediana, cuartiles, valores mínimo y máximo) Observamos que el desplazamiento de las gráficas de caja hacia la izquierda indica que el entrenamiento ha dado resultado, ya que se tardan menos segundos en recorrer la misma distancia, siendo la diferencia entre el máximo y el mínimo menor, como así también la diferencia intercuartílica. Además el día 1 presenta un histograma con asimetría a la derecha, el día 4 un histograma simétrico y el día 10 un histograma con asimetría a la izquierda. Estas cajas pueden presentarse en sentido vertical.

Ver en http://www.estadisticaparatodos.es/taller/graficas/cajas.html

Page 46: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

46

Resumen En esta unidad, luego de resumir la información con tablas de frecuencias se aportan herramientas para el cálculo de estadísticas descriptivas. Ellas aportan indicadores o estadísticos que permiten resumir y describir la información aportando tanto valores de tendencia central como de variación. De tendencia central las más importantes son la media aritmética o promedio y la mediana. De variación el rango, variancia, desvío estándar y coeficiente de correlación. Además se pueden calcular otras medidas de orden o de posición que son muy útiles en diversas áreas de trabajo. El gráfico de caja constituye un elemento fundamental para la exploración de datos, pudiendo determinar la simetría de la distribución de información. Actividad 5 1) Los siguientes datos representan las edades de las personas atendidas en el Hospital

Regional Enrique Vera Barros por congestión alcohólica en el mes de enero de 2011: 16, 21, 20, 40, 30, 19, 25, 28, 30, 28, 50, 12, 47, 35, 32, 45, 19, 22, 46, 32, 52, 42,. 22, 46, 30, 32. Calcule y explique las siguientes medidas descriptivas para datos sin agrupar: La media aritmética.-

a) La mediana. b) El modo.

Page 47: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

47

c) Los cuartiles. d) El percentil 90%. e) El rango o recorrido. f) La desviación estándar. g) El coeficiente de variación.

2) En un estudio para comparar la información de la edad de las personas atendidas en el

Hospital Regional Enrique Vera Barros por congestión alcohólica en el mes de enero de 2011 (Ejercicio 1) con el mes de enero de 2012, se obtuvieron los siguientes resultados:

Enero de 2012: Media Aritmética = 23 Desvío Estándar = 8,5

Calcule y compare los coeficientes de variación (2011/2012) y brinde conclusiones. 3) Los siguientes datos representas las edades de los Lic. en enfermería de una determinada

clínica privada de la Ciudad de La Rioja: 24, 50, 27, 30, 25, 28, 30, 24, 40, 35, 25, 47, 30 Calcule y explique las siguientes medidas descriptivas para datos sin agrupar:

a) La media aritmética. b) La mediana. c) El modo. d) Los cuartiles. e) El percentil 80%. f) El rango o recorrido. g) La desviación estándar. h) El coeficiente de variación.

4) Se le pregunto a los Lic. en Enfermería de una pequeña clínica de las Sierras de Córdoba,

el tiempo en minutos que tardan en llegar a su domicilio una vez finalizada su jornada laboral. Los datos obtenidos fueron los siguientes: Grupo 1: X (hombres) 15’, 9’, 12’, 30’, 21’, 12’, 22’, 17’ Grupo 2: Y(mujeres) 12’, 25’, 10’, 18’, 35’, 20’, 15’, 35’ Calcule y explique para cada uno de los grupos, las siguientes medidas descriptivas para

datos sin agrupar: a) La media aritmética. b) La mediana. c) El modo. d) Los cuartiles. e) El percentil 80%. f) El rango o recorrido. g) La desviación estándar. h) El coeficiente de variación. i) Que interpretación puede extraer comparando los coeficientes de variación del

Grupo 1 y el Grupo 2?

5) A partir del nivel de glucosa (medido en miligramos por decilitro) obtenido en la sangre en ayuna de una muestra de niños, se obtuvieron los siguientes resultados:

a) Muestra = 10 b) Media = 65,10 mg/dl c) Mediana = 65 mg/dl d) Desvío Estándar = 4,43 mg/dl e) Mínimo = 56 mg/dl f) Máximo = 72 mg/dl g) Q1 = 63 mg/dl

Page 48: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

48

h) Q3 = 68 mg/dl i) P(10) = 56 mg/dl

Interprete cada una de las medidas. 6) En 2 consultorios particulares de la Provincia de La Rioja (A y B), interesa tener información

sobre la cantidad de pacientes que asistieron a cada uno de ellos de lunes a viernes, durante una semana determinada, los datos fueron: a) Cantidad de Pacientes del Consultorio A: (8, 8, 6, 7, 10) b) Cantidad de Pacientes del Consultorio B: (8, 9, 8, 9, 9)

Calcule y explique para cada uno de los consultorios (A y B), las siguientes medidas descriptivas para datos sin agrupar:

a) La media aritmética. b) La mediana. c) El modo. d) La desviación estándar. e) El coeficiente de variación.

7) Dado un curso de 70 alumnos de segundo año de la Carrera de Lic. en Enfermería que se dicta en la Universidad Nacional de La Rioja, se tomó la cantidad de materias aprobadas por cada uno de ellos, se obtuvieron los siguientes resultados:

Muestra Media Mínimo Q1 Mediana Q3 Máximo Rango Modo 70 10 2 8 9 12 15 13 12 Se pide: Interprete cada una de las medidas. 8) Seleccionamos una muestra de empleados de comercio de una importante juguetería de la

ciudad de Bs. As. y se les pregunto a cada uno cual es su ingreso mensual. El análisis estadístico arrojo los siguientes resultados:

a) Explique cada medida calculada. b) Realice el Diagrama de Caja y Bigotes.

9) Dados el registro de los minutos consumidos por una muestra de 110 abonados al plan más barato de una compañía de telefonía móvil.

El análisis estadístico arrojo los siguientes resultados:

Medidas Descriptivas Valores

Media 261,06

Mediana 263,00

Modo 252,00

Cuartil 1 251,75

Cuartil 3 271,25

Valor máximo 299,00

Valor mínimo 222,00

CV 6,71%

Explique cada medida calculada.

Medidas Descriptivas Valores

Mediana $3820

Cuartil 1 $3308

Cuartil 3 $4200

Valor máximo $6200

Valor mínimo $2500

Page 49: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

49

10) Los siguientes datos representan el tiempo en minutos que demora una muestra de 8

personas del interior de la Provincia de Catamarca en llegar al centro de salud más cercano a su domicilio: 48; 44; 50; 54; 51; 43; 56; 70

a) Calcule y explique la Media; b) Calcule y explique la Mediana; c) Calcule y explique los Cuartiles 1 y 3;

d) Realice el Diagrama de Caja y Bigotes. 11) Las calificaciones en el examen parcial de la materia BioEstadistica, en un curso de 27

alumnos fueron las siguientes: 2 10 4 5 5 7 5 9 10

4 6 8 10 3 7 8 7 3

8 6 7 9 10 6 7 6 8

a) Agrupe los datos en una distribución de frecuencia sin intervalo. b) Explique la tercera fila. c) Calcule Media; Mediana; Modo; Cuartiles; Percentil 90%; Varianza y Desvío

Estándar. d) Realice el Diagrama de Caja y Bigotes.

12) Supongamos tener las edades de una muestra de 50 pacientes dados de alta de terapia

intensiva del Hospital Vera Barros, durante Enero 2012. Los datos agrupados en una tabla de frecuencia con intervalo fueron:

Li Ls fi hi Fi Fi %

36 44 2 0,04 2 4

44 52 12 0,24 14 28

52 60 15 0,3 29 58

60 68 18 0,36 47 94

68 76 3 0,06 50 100

Total 50 1 ----- ------

a) Explique la tercera fila. b) Calcule la Media. c) Calcule la Mediana. d) Calcule el Modo. e) Calcule los Cuartiles. f) Calcule el Percentil 85%. g) Calcule la Varianza. h) Calcule el Desvío Estándar.

13) La altura en centímetros de los estudiantes de un curso de Estadística Aplicada, dictado por

la Universidad Nacional de Córdoba, viene dada por la siguiente tabla de frecuencia con intervalo:

Altura Nº de

Estudiantes

170 175 2

175 180 12

180 185 15

185 190 18

190 195 3

195 200 3

Total 53

Page 50: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

50

a) Media. b) Mediana. c) Modo. d) Explique la quinta fila. e) Cuartiles. f) Percentil 62%. g) Varianza. h) Desvío Estándar.

14) A los fines de poder abonar el sueldo, se tomaron los días de trabajo de 50 enfermeros

contratados en una Clínica de la Ciudad de Villa María. Los datos fueron los siguientes:

27 23 22 38 43 24 35 26 18 20

25 23 22 52 31 30 41 29 27 43

29 28 27 25 29 28 24 28 29 18

26 33 25 27 25 34 32 22 32 33

21 23 24 18 48 23 36 26 21 23

a) Agrupe los datos en una distribución de frecuencia con intervalos. b) Explique la cuarta fila. c) Calcule la Media. d) Calcule la Mediana. e) Calcule el Modo. f) Calcule los Cuartiles. g) Calcule el Percentil 62%. h) Calcule la Varianza. i) Calcule el Desvío Estándar.

15) Se observó la superficie cubierta de 28 casas seleccionadas al azar de un barrio

residencial. Los resultados fueron los siguientes:

79 93 84 86 77 63 46 97 87 88 87 92 68 72

86 98 81 70 66 98 59 76 68 91 94 85 88 79

a) Construya una tabla de frecuencia con intervalos. b) Calcule la media, mediana y el modo. c) Calcule y explique el Percentil 68%. c) Elabore un diagrama de caja y bigote. Comente.

16) Dada la siguiente información sobre el nivel de glucosa diluida en la sangre, (medido en

miligramos por decilitro mg/dl), de 100 niños, se pide: 1) Indique cual es el tamaño de la muestra; 2) Indique cual es la variable en estudio y de qué tipo es; 3) Elabore una distribución de frecuencia para datos agrupados en intervalos y explique la segunda fila; 4) Calcule la media; 5) Calcule el percentil 70%; 6) Calcule la Varianza y el Desvío Estándar.

56 61 57 77 62 75 63 55 64 60

60 57 61 57 67 62 69 67 68 59

65 72 65 61 68 73 65 62 75 80

66 61 69 76 72 57 75 68 81 64

69 64 66 65 65 76 65 58 65 64

68 71 72 58 73 55 73 79 81 56

65 60 65 80 66 80 68 55 66 71

Page 51: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

51

72 73 73 75 75 74 66 68 73 65

72 74 68 59 69 55 67 65 67 63

67 56 67 62 65 75 62 63 63 59

17) Para poder diseñar un plan integral de tratamiento en niños con desordenes de conducta, el

siquiatra puede utilizar la información del niño, la familia, los profesores y de otros especialistas médicos para entender las causas del desorden. Para ello un siquiatra local ha considerado una muestra aleatoria de 45 niños, anotando el tiempo necesario que requiere en cada niño para lograr un plan integral del tratamiento, obteniéndose la siguiente información (en horas):

7 10 12 4 8 7 3 8 5

12 11 3 8 1 1 13 10 4

4 5 5 8 7 7 3 2 3

8 13 1 7 17 3 4 5 5

3 1 17 10 4 7 7 11 8

a) Indique cual es la variable en estudio y de qué tipo es. b) Agrupe los datos en una tabla de frecuencia con intervalos. c) Calcule la Media Aritmética. d) Calcule la Mediana. e) Calcule el Modo. Calcule los Cuartiles. f) Calcule el Percentil 90%.

18) Se decide tomar un test para medir la compresión lectora en 20 alumnos. Los datos se

presentan a continuación y es necesario hacer un análisis estadístico para tener indicadores de los resultados.

61 81 61 63 82 56 58 80 83 92

54 81 92 71 69 54 75 59 58 94

a) Realice un análisis con tabla de frecuencia para variable continua intervalos de amplitud

10: 50-60; 60-70; etc. b) Realice una análisis con Infostat utilizando medidas de tendencia central, media y

mediana. c) Realice un análisis utilizando rango, desvío estándar y coeficiente de variación. d) Construya un diagrama de caja. Interprete.

19) Un grupo de investigación decide hacer un estudio de la talla de niños que concurren a

cierto establecimiento sanitario. Del listado correspondiente seleccionan una muestra aleatoria de varones y de mujeres, a quienes midieron, resultando los siguientes datos en centímetros:

Varones

111 160 148 140 136 147 144 143 140 161 150 138 133 136 149

146 140 147 136 141 156 138 154 138 134 146 127 147 170 147

121 120 135 158 153 151 134 136 145 150 153 160 130 128 170

Mujeres.

111 138 131 134 142 128 162 126 144 150 146 148 146 150 136

126 158 143 150 142 170 145 140 160 136 141 112 160 132 148

136 140 150 118 143 138 160 132 120 114 141 146 140 152 121

a) Cargue los datos para armar la matriz de datos y utilice el INFOSTAT para interpretar y

comparar los resultados.

Page 52: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

52

b) Realice cálculo de estadísticos descriptivos y grafique el diagrama de caja. Interprete. c) USE el Infostat y seleccione como criterio de clasificación al SEXO.

ANEXO I

FORMULAS PARA EL CALCULO DE ESTADISTICAS DESCRIPTIVAS CON TABLAS DE FRECUENCIA

Fórmulas de cálculo de Medidas descriptivas para utilizar mediante el uso de tablas de frecuencias. Se recuerda que para las variables cualitativas no se calculan medidas descriptivas de tendencia central, dispersión y posición.

1. Media Aritmética

1.1. Cálculo con Tabla de frecuencia para variables discretas

fi = Frecuencia absoluta para el valor xi de la variable.

k = cantidad valores distintos de la variable

1.2. Cálculo con Tabla de frecuencia para variables continuas

x´i = Punto medio del intervalo o marca de clase.

fi = Frecuencia absoluta para el intervalo con x´i de marca de clase.

k = cantidad de intervalos de la variable

2. Mediana 2.1. Cálculo con Tabla de frecuencia para variables discretas Sólo se observa el valor de la variable que acumula el 50% de la información 2.2. Cálculo con Tabla de frecuencia para variables continuas La mediana coincide con el percentil del 50% que es llamado también cuantil, por lo tanto:

Af

Fn

LICuantilPMnai

i

i

1

5050100

50.

LIi = Límite inferior del intervalo que contiene el 50% de la información fi = Frecuencia absoluta para el intervalo

Fi-1 = Frecuencia absoluta Acumulada para el intervalo anterior A = amplitud

n = tamaño de muestra

Page 53: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

53

3. Variancia

3.1. Cálculo con Tabla de frecuencia para variables discretas

fi = Frecuencia absoluta para el valor xi de la variable.

3.2. Cálculo con Tabla de frecuencia para variables continuas

fi = Frecuencia absoluta del intervalo

4. Percentiles o cuantiles (cuartiles, deciles y percentiles)

Con la siguiente fórmula se incluye, la posibilidad de cálculo de cualquier medida de posición u orden: cuartiles, deciles o percentiles. Utilizar el porcentaje que corresponda.

Af

Fr.n

LICuantilPi

i

irr

1

100

LIi = Límite inferior del intervalo que contiene el r% de la información fi = Frecuencia absoluta para el intervalo

Fi-1 = Frecuencia absoluta Acumulada para el intervalo anterior A = amplitud

n = tamaño de muestra

ANEXO II ANALISIS EN INFOSTAT

ANÁLISIS PARA VARIABLES CUANTITATIVAS (discretas o continuas) Ir a Estadísticas-> Medidas resumen y allí seleccionar los estadísticos descriptivos que se solicitan

Page 54: Liliana Recchioni Indice · RESUMEN DE LA INFORMACIÓN .....42 4.1. Distribución de frecuencia para variable cualitativa ... 4.1.2. Tablas de frecuencias conjuntas para variable

Elementos básicos de la estadística Liliana Recchioni

54

Para el diagrama de caja.

Ir a Gráficos-> Diagrama de caja (Box-Plot)