Análisis estadístico según tipo de estudio en la investigación
Transcript of Análisis estadístico según tipo de estudio en la investigación
ESTADÍSTICA
Análisis estadístico según tipo de
estudio en la investigación
Mg. Rosa Padilla Castro
Fac. de Ingeniería y Arquitectura
Dir. CIEST
Mg. Rosa Padilla Castro
Mg. Rosa Padilla Castro
Mg. Rosa Padilla Castro
INVESTIGACIÓN CIENTÍFICA
Sistemática – controlada – empírica - crítica
PROBLEMA
•Descripción
de la
realidad
•Anteceden-
tes teóricos
•Definición
del problema
•Objetivos
•Justificación
•Factivilidad/
viabilidad
HIPÓTESIS
•Preposicio-
nes
•Implican-
cias
•Variables
•Operacio-
nalización
de las
variables
MÉTODO
•Diseño
•Universo
muestra
•Plan de
recolección
de datos
•Plan de
procesami-
ento de
datos
RECOLECCI
ÓN DE
DATOS
•Técnicas
•Observación
•Pruebas
•Experimen-
tos
•Instrumentos
•Datos
PROCESA
MIENTO-
ANÁLISIS
•Crítica
•Tabulación
•Gráfica
•Estadígra-
fos
•Pruebas
de
hipótesis
•Discusión
de
resultados
Co
nclu
sio
ne
s y
Re
co
me
nd
acio
ne
s
MARCO TEÓRICO
Cosmovisión Antecedentes Visión Bases Marco
Histórica Teóricas Conceptual
RE
ALID
AD
RE
ALID
AD
6
Diseño Metodológico
Procedimientos
Plan de Tabulación
y Análisis
Métodos e instrumentos
de recolección de datos
Población y Muestra
Tipo de Estudio
Diseño de investigación
METODOLOGIA DE INVESTIGACION
EXPLORATORIA DESCRIPTIVA CORRELACIONAL
EXPLICATIVAS
TIPOS DE
INVESTIGACIÓN
CUANTITATIVA
Mg. Rosa Padilla Castro
Alcances
Exploratorio
Familiarizarse con el
fenómeno
Lograr inmersión
inicial
Descriptivo
Ubicación de variables
Tener medición precisa o
descripción profunda
Correlacional
Explicación parcial
Relacionar variables
Explicativo
Mayor estructuración
Entender el fenómeno
I
N
V
E
S
T
I
G
A
C
I
Ó
N
Alcance de la
investigación a realizar
Fuente: Hernández, Fernández y Baptista
Mg. Rosa Padilla Castro
Describe y analiza una
población, sin pretender
sacar conclusiones de
tipo general.
ESTADÍSTICA
Estadística
Descriptiva
Estadística
Inferencial
Es el conjunto de métodos,
cuyo propósito es inferir o
inducir leyes de
comportamiento de una
población, a partir del
estudio de una muestra,
las cuales nos ayudaran en
la toma de decisiones bajo
un cierto grado de
confianza; este grado de
confianza se mide por la
“probabilidad”.
Mg. Rosa Padilla Castro
Mg. Rosa Padilla Castro
Mg. Rosa Padilla Castro
Tabla 1: Evolución de la equidad según desnutrición crónica y vacunación, 1992 – 2000
Desnutrición crónica Vacunación
1992 2000 1992 2000
Promedio 36,8 27,3 54,6 40,4
Grupo más pobre 63,2 51,5 41,9 25,3
2ndo 50,6 40,4 49,4 34,7
Medio 37,5 26,8 53,4 40,2
Medio alto 24,7 12,6 60,3 47,8
Grupo más rico 7,8 5,3 68,2 53,8
Ratio pobre/rico 8,1 9,8 0,6 0,5
La tabla 1 muestra que, a pesar de que los niveles de desnutrición crónica mejoraron,
tanto en el nivel promedio como por grupo de ingresos, entre 1992 y 2000, las
desigualdades entre el grupo más pobre y el más rico se acentuaron (el ratio pobre-rico
pasó de 8,1 a 9,8). Esto implicaría que los programas de salud pública están
favoreciendo en mayor medida a las poblaciones con más recursos y, en
consecuencia, aumentando la brecha entre estos grupos y los más pobres. Por el lado
del acceso a los servicios públicos, la situación es aun más grave, como lo revela la
caída del porcentaje de niños que ha recibido vacunación completa en todos los
grupos de ingreso, siendo esta más pronunciada en la población más pobre, lo que
nuevamente ha significado una mayor distancia social.
Ejemplo de cómo se interpreta una tabla
FUENTE: INEI – Encuesta Demográfica y de Salud Familiar, 1992-2000
La presentación de los datos se realizafundamentalmente utilizando dos métodos: elmétodo tabular y el método gráfico.
Método tabular
Consiste en una presentación resumida de lainformación usando tablas. Si se utilizantablas debe prestarse atención a los treselementos que la constituyen: el título, la tablapropiamente dicha y las notas aclaratorias.
Mg. Rosa Padilla Castro
El título.- Es un enunciado breve e informativoacerca del contenido de la tabla, un buen títulodebe contestar a las siguientes preguntas:
¿Qué contiene la tabla?
¿Cómo se presenta este contenido?
¿De dónde se presenta (lugar)?
¿Cuándo se obtuvo la información (fecha)?
Ejemplo: Treinta pacientes con cáncer pulmonarprovenientes de cuatro distritos fueron atendidosen el Hospital de Talara en el 2008.
Mg. Rosa Padilla Castro
Tabla 2. Pacientes con cáncer pulmonar según distrito
de procedencia. Hospital de Talara-Piura. 2008
Distrito Número %
Talara 11 36,7
El Alto 6 20,0
Los Órganos 7 23,3
Lobitos 6 20,0
Total 30 100,0
Fuente: Archivo del Departamento de Estadística del Hospital de
Talara - Piura 2008
Mg. Rosa Padilla Castro
Tabla 3. Pacientes con cáncer pulmonar según distrito
de procedencia y sexo. Hospital de Talara-Piura. 2008
Fuente: Archivo del Departamento de Estadística del Hospital de
Talara - Piura 2008
Sexo
Distrito
TOTALTalara El Alto
Los
ÓrganosLobitos
Femenino 4 3 2 1 10
Masculino 7 3 5 5 20
TOTAL 11 6 7 6 30
Mg. Rosa Padilla Castro
Las notas aclaratorias son toda información
adicional que facilita la interpretación de la tabla
y para enterarse de donde se obtuvo la
información presentada, es decir la fuente. En las
Tablas 1, 2 y 3 la nota aclaratoria es la fuente.
Un aspecto importante de una tabla de doble
entrada (tabla de contingencia) es el cálculo de
los porcentajes, estos deben calcularse tomando
como 100% el total de cada categoría o intervalo
de la variable independiente.
Mg. Rosa Padilla Castro
Tabla 4. Amas de casa según costumbre de cocinar con
leña y presencia de EPOC *. Hospital Hipólito Unanue.
Lima.2008
EPOC*
Cocina con leña
TotalSiempre A veces Nunca
n % n % n % n %
Si 50 67,0 20 24,0 10 7,0 80 27,0
No 25 33,0 65 76,0 130 93,0 220 73,0
Total 75 100,0 85 100,0 140 100,0 300 100,0
* Enfermedad pulmonar obstructiva crónica
Fuente: Servicio de neumología del Hospital Hipólito Unanue.
Mg. Rosa Padilla Castro
Frecuencia %
Sexo del
entrevistado
Femenino134 52.5%
Masculino121 47.5%
Total255 100.0%
Tabla 5: Pacientes que acuden al hospital de
Tarapoto según sexo, 2006
En SPSS:
Analizar/Tablas/Tablas personalizadas/ Aceptar/Seleccionar la
variable que se desea estudiar/ pasarla Aceptar
Tablas simples en SPSS
Fuente: Encuesta a pacientes
Construir una tabla de frecuencia de la variable sexo
Mg. Rosa Padilla Castro
Para desarrollar los temas siguientes abrir la data proporcionada en clase: Hospital
Tarapoto.sav
Tablas agrupadas para variables cuantitativas
En la siguiente tabla se presentará la edad de los pacientes, siendo esta
una variable cuantitativa se formaran intervalos de clase
Regla general para la construcción de intervalos.
Determinación del rango (R): R = Xmáx - Xmín
Determinación del número de intervalos de clase (I): I = 1+3.32*log(n)
Amplitud del intervalo (A): A=R/I
Determinación de los límites de clase: LCI – LCS
Sin embargo, para formar los intervalos de clase, generalmente el
investigador usa su criterio y/o generalmente la variable ya tiene intervalos
definidos.
Mg. Rosa Padilla Castro
Transformar/recodificar/en distintas variables/ seleccionar la
variable y pasarla a Var. Numérica Var. de resultado haciendo
clik en /poner nombre en Variable de resultado/hacer clik en
cambiar/valores antiguos y nuevos/clik en rango (poner los
intervalos de clase)/valor nuevo (1)(el número de
intervalo)/añadir/continuar/aceptar
Ejercicio: Agrupar la variable edad en los siguientes intervalos: (menor de
18=menor de edad, de 18 – 60=adulto, mayor de 60=adulto mayor)
Agrupar variable en SPSS:
Tabla 6. Pacientes que acuden al hospital de Tarapoto según
grupos de edad, 2006
Tablas agrupadas
Fuente: Encuesta a pacientes
Práctica:
Recodificar la variable edad en 4 intervalos: Menor de edad, jóvenes,
adultos y adulto mayor
Grupos de edad Intervalos Frecuencia Porcentaje
Porcentaje
acumulado
Menor de edad Menor de 18 26 10.20 10.20Adulto 18 - 60 180 70.59 80.78Adulto mayor Mayor 60 49 19.22 100.00Total 255 100
Mg. Rosa Padilla Castro
En SPSS: Analizar/Estadísticos descriptivos/Tablas de contingencia/Seleccionar
la variable y pasarla a fila, otra a columna haciendo clik en /Casillas: se puede
seleccionar reportes de porcentajes/Continuar/ Aceptar
Tabla 7. Opinión del paciente que acude al hospital de Tarapoto según sexo
Tablas de contingencia
Ejercicio: Construir una tabla de contingencia con las variables
“recomendaría al hospital de Tarapoto” y grupos de edad
Es el análisis de variables categóricas, donde las filas y las columnas de una tabla
están formadas por las categorías de dos variables.
Se construyen tales tablas porque ellas muestran el comportamiento de las respuestas
a preguntas con datos nominales u ordinales. Igualmente se estudia la relaciones
entre dos o tres variables categóricas.
¿Recomendaría el Hospital de
Tarapoto?
Sexo del entrevistado
TotalFemenino Masculino
si Frecuencia 84 81 165
% de Sexo 62.7 66.9 64.7
no Frecuencia 50 40 90
% de Sexo 37.3 33.1 35.3
Total Frecuencia 134 121 255
% de Sexo 100 100 100
Sexo del entrevistado
¿Acudiría nuevamente al Hospital de Tarapoto?
Frecuencias Total
FemeninoSi 65 25.5
No 69 27.1
MasculinoSi 48 18.8
No 73 28.6
Total 255 100%
Tabla 8. Frecuencia de asistencia al hospital de Tarapoto
según sexo de los entrevistados, 2006
En SPSS: Analizar/Tablas/Tablas personalizadas/Aceptar/Seleccionar
las variables y pasarlas /Aceptar
Fuente: elaboración propia
Tablas apiladas
Ejercicio: Construir una tabla apilada con las variables “acudiría
nuevamente al hospital de Tarapoto” y “sexo”
Mg. Rosa Padilla Castro
Un gráfico estadístico es la presentación de la información por medio de
figuras geométricas. El objetivo primordial de un gráfico es dar una
impresión visual de conjunto para una rápida y fácil comprensión. Es
importante considerar el titulo de la figura, especificar las escalas, la leyenda
y determinar la figura adecuada a la información.
Tipos de gráficosPara variables categóricas: (sexo, estadio TNM, profesión, etc.) se quiereconocer la frecuencia y el porcentaje del total de casos que caen en cadacategoría.
• Gráfico de barras:Simples Una variable, también cuando la variable escuantitativa pero discretaAgrupadas Dos variablesApiladas Dos variables
• Gráfico de sectores circulares Una variablePara variables cuantitativas:
• Histogramas• Líneas• Tallo y hojas• Cajas (combinación de cuantitativa y cualitativa)
Mg. Rosa Padilla Castro
En SPSS: Gráficos/Generador de gráficos/Aceptar/seleccionar el
tipo de gráfico/pasar la variable al eje correspondiente/aceptar
Mg. Rosa Padilla Castro
Gráficos para variables categóricas
Barras: Para representar variables cualitativas. Representa hechos o
fenómenos sin continuidad. Las categorías pueden representar distintos
aspectos, no ordenados de una característica.
Figura 1. Opinión de los pacientes que acuden al hospital Tarapoto, 2006
Cuando se ha clasificado la información según dos variables.
Figura 2. Opinión de los pacientes acerca de la calidad de los alimentos
según sexo, Hospital Tarapoto, 2006
Barras agrupadas
En SPSS. Gráficos/cuadro de diálogos antiguos/barras/apiladas/
definir/continuar los pasos según observa la figura
Mg. Rosa Padilla Castro
Barras apiladas
Figura 3. Opinión de los pacientes acerca de la calidad de los alimentos
según sexo, Hospital Tarapoto, 2006
Barras apiladas
Mg. Rosa Padilla Castro
Gráfico de sectores o circulares
Para representar una variable cualitativa cuyo principal interés
es conocer su frecuencia relativa.
Figura 4. Percepción del paciente según trato
que recibió de la enfermera, Hospital Tarapoto,
2006
En SPSS. Gráficos/cuadro de
diálogos antiguos/ sectores/
resúmenes para grupos de
casos/ definir sectores por/
pasar la variable de interés/
resaltar % de casos/aceptar
Gráficos para variables cuantitativas:
HistogramaGráfico utilizado para representar las frecuencias absolutas o relativas
mediante rectángulos, adyacentes teniendo como base los respectivos límites
reales de los intervalos de clase y la altura igual a la frecuencia respectiva.
Figura 5. Pacientes que acuden al
hospital de Tarapoto según edad, 2006
En SPSS.
Gráficos/cuadro de diálogos
/histograma/pasar la variable
de interés/mostrar curva
normal/aceptar
Histograma
Figura 6. Edad de los pacientes que acuden al hospital de
Tarapoto según sexo, 2006
En SPSS.
Gráficos/cuadro de diálogos/pasar la variable de interés a: variable / a panel
por filas (pasar la variable sexo)/aceptar
Polígono de frecuencias o Líneas
Cuando se tiene una variable cuantitativa continua y en
especial que se mida a través del tiempoFigura 7. Nº de veces que los pacientes
recibieron un servicio, Hospital Tarapoto, 2006
En SPSS.
Gráficos/cuadro de diálogos
/líneas/pasar la variable de
interés a eje de
categorías/resaltar porcentaje
de casos/aceptar
Diagrama de caja
Esta herramienta permite estudiar la simetría de los datos y detectar
valores atípicos (outliers). Este gráfico divide los datos en cuatro áreas de
igual frecuencia. La caja central (donde se encuentra el 50% central de los
datos) tiene una línea vertical (u horizontal) en el interior de la caja que
indica la mediana (si esta línea está en el centro en el centro de la caja hay
simetría). Partiendo del centro de cada lado vertical (u horizontal) de la caja
se dibujan los bigotes. El bigote de la izquierda (o inferior) tiene su extremo
en el valor más cerca de Q1 – 1,5*RIC, mientras que el bigote de la derecha
(o superior) tiene su extremo en el valor más cerca de Q3 + 1,5*RIC. Se
consideran atípicos (outliers) los valores mayores a Q3 + 1,5*RIC y
menores a Q1 – 1,5*RIC y se consideran atípicos extremos los mayores a
Q3 + 3*RIC o menores a Q1 – 3*RIC (en SPSS se representan por o y x,
respectivamente)
Recordar que.
Q1= cuartil uno o percentil 25.
Q3 = cuartil tres o percentil 75.
RIC = rango intercuartílico = Q3 - Q1.
Escala
Q1 Q3mediana
MaxMin
Diagrama de caja
Diagrama de caja
Se usa para comparar muestras, mediante los cuantiles.
Figura 8. Nº de veces que los pacientes recibieron
un servicio según sexo, Hospital Tarapoto, 2006
En SPSS. Gráficos/cuadro de
diálogos antiguos/diagramas de
caja/Simple/resaltar
Resúmenes para grupos de
casos/ pasar la variable de
interés a eje de categorías
pasar la variable sexo/aceptar
N° de veces que asistió a recibir un servicioStem-and-Leaf Plot
Frequency Stem & Leaf
25.00 1 . 000000000000
43.00 2 . 000000000000000000000
51.00 3 . 0000000000000000000000000
39.00 4 . 0000000000000000000
29.00 5 . 00000000000000
12.00 6 . 000000
16.00 7 . 00000000
20.00 8 . 0000000000
4.00 9 . 00
4.00 10 . 00
8.00 11 . 0000
4.00 12 . 00
Stem width: 1
Each leaf: 2 case(s)
Se usa para observar la variable en su forma original, muestra los valores
extremos y atípicos.
Gráfico de Tallo y Hojas
Figura 9. Nº de veces que los pacientes recibieron un servicio. Hospital
Tarapoto, 2006
Mg. Rosa Padilla Castro
Se usa para comparar intervalos de confianza entre muestras.
En SPSS: Gráficos/cuadro de diálogo antiguo /barras de error/simple/definir/pasar
la variable de interés/al eje de categorías pasar la variable a contrastar/aceptar
Barras de error
Mg. Rosa Padilla Castro
Barras de error
Figura 10. Pacientes que acuden al hospital de Tarapoto según edad y sexo, 2006
Las barras de error, nos permiten identificar la variabilidad de la medida empleada
como función de resumen en el gráfico (ya sea la media, desviación estándar,
etc). La estructura del gráfico se basa en un punto central que identifica el valor de
la media, la cual se ubica en una línea vertical; la longitud de la línea (barra de
error) indica un intervalo de confianza (porcentaje de los datos) o un número
especificado de errores.
Mg. Rosa Padilla Castro
Barras de error
Figura 11. Pacientes que acuden al hospital de Tarapoto según edad y opinión
acerca de la calidad de los alimentos, 2006
Mg. Rosa Padilla Castro
Mg. Rosa Padilla
Figura 12. Salario actual según sexo y clasificación de minorías de un grupo
de empleados del banco “x”
Barras de error
Parámetro: Es una cantidad numérica calculada sobre una población
› El colesterol promedio en varones menores de 30 años de los individuos de un país
La idea es resumir toda la información que hay en la población en unos pocos números (parámetros).
Estadístico: Es una cantidad numérica calculada sobre una muestra
› El colesterol promedio en varones menores de 30 años de los que estamos en este aula.
Somos una muestra (¿representativa?) de la población.
› Si un estadístico se usa para aproximar un parámetro también se le suele llamar estimador.
Normalmente nos interesa conocer un parámetro, pero por la dificultad que conlleva estudiar a *TODA* la población, calculamos un estimador sobre una muestra y “confiamos” en que sean próximos. Más adelante veremos como elegir muestras para que el error sea “confiablemente” pequeño.
Mg. Rosa Padilla Castro
Mg. Rosa Padilla Castro
Nominal Ordinal Escala
Definición Categorías no
ordenadas
Categorías
ordenadas
Métrica-valores numéricos
Ejemplos Género, estado
civil,
procedencia
Nivel de
satisfacción, rango
de edades
Edad, peso, talla, ingreso
Medida de
tendencia central
Moda Moda y mediana Moda, mediana, media aritmética
Medida de
dispersión
Min/max/Rango/RIC Min/max/Rango/RIC/desviación
Gráficos Sectores/Barras Barras/sectores Histograma/líneas/cajas/Tallo y
hojas/diagrama de dispersión
Procedimientos Frecuencias/% Frecuencias/% Frecuencias/descriptivos
Medidas de resumen en SPSS
Mg. Rosa Padilla Castro
Mg. Rosa Padilla Castro
Centralización
› Indican valores centrales en que los datos parecen
agruparse.
Media, mediana y moda
Dispersión
› Indican la mayor o menor concentración de los
datos con respecto a las medidas de centralización.
Desviación típica, coeficiente de variación, rango,
varianza, rango intercuartil
Posición (cuantiles)
› Dividen un conjunto ordenado de datos en grupos
con la misma cantidad de individuos.
Percentiles, deciles, cuartiles, ...
Forma
› Asimetría
› Apuntamiento o curtosis
Medidas de resumen en SPSS
Medidas de resumen en SPSS
En SPSS: Analizar/Estadísticos
descriptivos/frecuencias/Selec-
cionar la variables y pasarla a
variables haciendo clik en
/Estadísticos: seleccionar
todas las medidas de resumen
que se desee/Continuar/
Aceptar.
Ejercicio: Hallar las medidas de
resumen para la variable edad.
Estadísticos
edad
N Válidos 255
Perdidos 0
Media 44.83
Mediana 46.00
Moda 40.00
Desv. típ. 18.34
Varianza 336.5
Asimetría -0.06
Error típ. de asimetría 0.15
Curtosis -0.30
Error típ. de curtosis 0.30
Mínimo 86.00
Máximo 3.00
Percentiles 25 33.00
35 39
50 46
75 57
Medidas de tendencia central
Media: Muestra el centro de gravedad de los datos.
Se usa cuando la población es homogénea
Datos simples
n
xx
Mediana: Divide a los datos en dos partes iguales.
Se usa cuando la población es heterogénea.
Datos simples: Se ordena los datos y se toma el
valor central si la serie es impar, o la semisuma de
los dos datos centrales si la serie es impar.
Moda: Muestra el valor más frecuente de los datos
Mg. Rosa Padilla Castro
Altura mediana
Medidas de tendencia central
Mg. Rosa Padilla Castro
Cuartiles: Divide a los datos en 4 partes iguales
Deciles: Divide a los datos en diez partes iguales
Percentiles: Divide a la información en 100 partes
iguales
Medidas de posición: Cuantiles
Se define el cuantil de orden como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada
Casos particulares son los percentiles, cuartiles, deciles, ...
Mg. Rosa Padilla Castro
Medidas de posición: Cuantiles
Ejemplos (si estuviéramos analizando la variable peso en recién nacidos y la variable
colesterol en adultos)
› El 5% de los recién nacidos tiene un peso demasiado bajo. ¿Qué peso se considera “demasiado bajo”?
Percentil 5
› ¿Qué peso es superado sólo por el 25% de los individuos?
Percentil 75
› El colesterol se distribuye simétricamente en la población. Se considera patológico los valores extremos. El 90% de los individuos son normales ¿Entre qué valores se encuentran los individuos normales?
Entre el percentil 5 y el 95
› ¿Entre qué valores se encuentran la mitad de los individuos “más normales” de una población?
Entre el cuartil 1º y 3ºMg. Rosa Padilla Castro
¿Qué edad no llega a alcanzar el 25% de los individuos?› Primer cuartil = percentil 25 = 33 años.
¿Qué edad es superado por el 25% de los individuos?› Tercer cuartil= percentil 75= 57 años.
¿Entre qué valores se encuentra el 50% de los individuos con una edad “más normal”?› Entre el primer y tercer cuartil = entre 33 y 57
años
› Observar que indica cómo de dispersos están los individuos que ocupan la “parte central” de la muestra. Ver más adelante rango intercuartílico.
› Los diagramas de caja („boxplot‟) sintetizan esta información (y algo más).
Mg. Rosa Padilla Castro
Estadísticos
edad
Percentiles 25 33.00
50 46.00
75 57.00
Medidas de dispersión
Miden el grado de dispersión (variabilidad) de los
datos, independientemente de su causa.
Varianza:
Es una medida teórica, muestra la variabilidad al
cuadrado.
En una muestra:
Datos simples
Datos agrupados
1
)( 22
2
n
xnxs
1
)(22
2
f
xnfxs
En la población:
N
Nx 22
2)(
Mg. Rosa Padilla Castro
Desviación típica:
Muestra la dispersión de los datos respecto a la media.
A una distancia de una desviación típica de la media tendremos
68% observaciones.
A una distancia de dos desviación típica de la media tendremos 95%
observaciones.
Coeficiente de variación: Es la dispersión relativa de datos. Permite
comparar variabilidad entre muestras en donde las unidades son
diferentes.
Rango intercuartílico:Es la distancia entre el primer y tercer cuartil.
RI= P75 - P25
Parecida al rango, pero eliminando las observaciones más extremas inferiores y superiores. No es tan sensible a valores extremos.
2ss
100.%x
scv
Medidas de dispersión
Mg. Rosa Padilla Castro
Centrado en la media y a una desviación típica de distancia tenemos más de la mitad de las observaciones (izquierda)
A dos desviaciones típicas las tenemos a casi todas (derecha.)
Mg. Rosa Padilla Castro
Medidas de forma
Asimetría: Permite identificar hacia donde se acumula la
información.
Sí: As 0 La distribución es simétrica
As > 0 La distribución es positiva (Sesgo positivo)
As < 0 La distribución es negativa (Sesgo
negativo)
Es una cantidad adimensional. Interesante para comparar la
variabilidad de diferentes variables.Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan más dispersión en peso que en altura
Mg. Rosa Padilla Castro
Una distribución es simétrica si la mitad izquierda de su distribución es la imagen especular de su mitad derecha.
En las distribuciones simétricas media y mediana coinciden. Si sólo hay una moda también coincide
La asimetría es positiva o negativa en función de a qué lado se encuentra la cola de la distribución.
La media tiende a desplazarse hacia las valores extremos (colas).
Las discrepancias entre las medidas de centralización son indicación de asimetría.Mg. Rosa Padilla Castro
Medidas de forma
Apuntamiento (Coeficiente de Kurtosis): Indica el
grado de apuntamiento (aplastamiento) que tiene la
distribución con respecto a la distribución normal o
gaussiana.
Si k 0,263, diremos que la curva
correspondiente a la distribución de
frecuencias es mesocúrtica (tiene igual
apuntamiento que la normal o
campana de Gauss)
si k < 0,263, diremos que la curva
correspondiente a la distribución de
frecuencias es platicúrtica
si k > 0,263, diremos que la curva
correspondiente a la distribución de
frecuencias es leptocúrtica
Mg. Rosa Padilla Castro
Platicúrtica
8481787572696663605754514845
Fre
cu
en
cia
160
140
120
100
80
60
40
Leptocúrtica
138
108
102
97
92
87
82
77
72
67
62
57
52
47
42
37
32
27
16
3F
recu
en
cia
400
300
200
100
0
Mesocúrtica
99
93
89
85
81
77
73
69
65
61
57
53
49
45
41
37
32
27
Fre
cu
en
cia
300
200
100
0
Las medidas de resumen numérico
empleadas para variables cualitativas son:
Proporción (prevalencia)
Razón (muertes fetales/nacidos vivos)
Tasa (incidencia)
Mg. Rosa Padilla Castro
Medidas de resumen para variables
cualitativas
Es el cociente entre el número de elementosde un subconjunto y el número de elementosdel conjunto al que pertenece dichosubconjunto. En este caso el numerador estáincluido en el denominador, por este motivolos valores siempre van a ser menores que launidad.
Por ejemplo, si en la población hubo 175casos de cáncer pulmonar de un total de1925 casos de todos los tipos de cáncer, laproporción se calculará.
175 / 1925 = 0.09Mg. Rosa Padilla Castro
Proporción
Es el cociente entre dos cifras de diferentes osimilar naturaleza en donde el numerador y eldenominador son excluyentes.
Por ejemplo, si tenemos 380 camashospitalarias y 95 enfermeras y queremosencontrar la razón entre ellas, tenemos quedividir:
380 camas hospitalarias / 95 enfermeras = 4
camas/enfermera
Este número constituye un valor que refleja unarelación. Indica que por cada enfermera haycuatro camas hospitalarias.
Razón
Mg. Rosa Padilla Castro
Posición País
Tasa de
mortalidad
(muertes/
1000
habitantes)
3 Sudáfrica 22.7
11 Afganistán 19.56
15 Nigeria 16.41
18 Rusia 16.06
20 Ucrania 15.93
23
Costa de
Marfil 14.65
26 Bulgaria 14.3
29 Bielorrusia 13.92
39 Camerún 12.41
41 Congo 12.28
1000*N
Dd
ZVI30
ZZ
dZ : La tasa bruta de mortalidad en el año Z
DZ : Número total de fallecimientos ocurridos en el año Z.
N30 – VI – Z : Población total a mitad del año Z (30 de junio de
dicho año).
Mg. Rosa Padilla Castro
Tasa
Menores
Puesto País
Tasa de
mortalidad
(muertes/
1000
habitantes)
155 Perú 6.16
186 Venezuela 5.1
187 Egipto 5.09
192 México 4.78
199 Singapur 4.53
201 Paraguay 4.49
204 Nicaragua 4.33
205 Costa Rica4.31
207 Ecuador 4.21
220
Emiratos
Árabes
Unidos 2.13
1000*N
Dd
ZVI30
ZZ
dZ > 6.16Así, se puede
afirmar que en
2008, por cada
Mil fallecieron un
poco más de 6
personas.
DZ > 179,754
N30 – VI – Z> 29,180,899
Mg. Rosa Padilla Castro
Tasa
Mayorespuesto
s
País
Tasa de
natalidad
(nacimientos/1
000
habitantes)
4 Afganistán 45.82
9
República
del Congo 43
19 Nigeria 39.98
25 Madagascar 38.38
41 Camerún 34.59
44
Costa de
Marfil 34.26
49 Iraq 30.77
52 Nepal 29.92
56 Guatemala 28.55
58 Paraguay 28.47
1000N
Bb
ZVI30
ZZ
bZ : La tasa bruta de natalidad en el año Z
BZ : Número total de nacimientos vivos ocurren en el año Z.
N30 – VI – Z : Población total a mitad del año Z (30 de junio de dicho
año).
Mg. Rosa Padilla Castro
Tasa
1000N
Bb
ZVI30
ZZ
bZ = 19.77Este valor indica
que en 2008,
ocurrieron en el
Perú 19.77
nacimientos por
cada mil habitantes.
BZ = 576,906
N30 – VI – Z = 29,180,899
Puesto País
Tasa de
natalidad
(nacimiento
s/1000
habitantes)
108 Perú 19.77
205 Grecia 9.54
208 Taiwán 8.99
209 Singapur 8.99
211
República
Checa 8.89
215 Austria 8.66
217 Italia 8.36
219 Alemania 8.18
220 Japón 7.87
221
Hong
Kong 7.37
Mg. Rosa Padilla Castro
Tasa
68
Trabajo de aplicación grupal
Con la base de datos “Hospital Tarapoto” construir e interpretar:
1. Una tabla simple
2. Una tabla agrupada con la variable frecuencia de asistencia
3. Una tabla de contingencia
4. Una tabla apilada
5. Dos gráficos para variables cualitativas
6. Dos gráficos para variables cuantitativas
7. Un gráfico de cajas con la variable frecuencia de asistencia y
edad recodificada
8. Calcular todas las medidas de resumen para la variable
frecuencia de asistencia
Mg. Rosa Padilla
ObjetivoSupuestos
básicos-
prueba
paramétrica
Prueba
paramé-
trica
Supuestos
básicos-
prueba no
paramétrica
Prueba no
paramétrica
Estudios de una sola
muestra
Estimación de la
media ( )
Estimación de la
proporción ( )
Prueba de hipótesis
para ( )
Prueba de hipótesis
para ( )
Bondad de ajuste
Normalidad
Se conoce
Se
desconoce
“t” de
Student
“Z ”
“t” de
Student
“Z ”
Libre
distribución
Kolmogorov,2
Mg. Rosa Padilla
ObjetivoSupuestos
básicos-prueba
paramétrica
Prueba
paramé-
trica
Supuesto
s no
paramét
rica
Prueba no
paramétrica
Comparación de dos muestras independientes
Diferencias de
promedios
Independencia (2x2)
Independencia (rxc)
Nominal por nominal
Ordinal por ordinal
Nominal x intervalo
Acuerdo entre 2 jueces
Numérica y categórica
Normalidad
Homogeneidad
“t” de
Student
para
grupos
independi
entes
Libre
distribuci
ón
U de Mann-
Whitney
Fisher,
Coeficiente Phi
sin corregir
Coeficiente de
contingencia
V de Cramer
Coeficiente de
incertidumbre
Gamma, d de
Somers; Tau-b de
Kendall
Eta
Kappa
Mediana
2
Mg. Rosa Padilla
ObjetivoSupuestos
básicos-
prueba
paramétrica
Prueba
paramé-
trica
Supuestos
básicos-
prueba no
paramétrica
Prueba no
paramétrica
Estudios de 2 muestras relacionadas
Diferencia de
muestras relacionadas
Antes / después
Normalidad “t” para
muestras
relaciona
das
Libre
distribución
Útil para
evaluar el
cambio en
dos
momentos-
diseños
antes/despu
és
Wilcoxon
Signos
McNemar(respuestas dicotómicas)
Homogeneid
ad marginal (respuestas
multinomiales)
Mg. Rosa Padilla
ObjetivoSupuestos
básicos-
prueba
paramétrica
Prueba
paramé-
trica
Supuestos
básicos-
prueba no
paramétrica
Prueba no
paramétrica
Estudios con más de 2 muestras
Muestras
independientes:
Diferencia de
promedios
Numérica y ordinal
Muestras relacionadas
Variables numéricas
Homogeneidad
(dicotómica)
Concordancia
Normalidad
Homogenei
dad ANOVA
ANOVA
bloques
aleatorios
Libre
distribución Kruskal
Wallis
Mediana
Friedman
Q de
Cochran
W de
Kendall
Mg. Rosa Padilla
ObjetivoSupuestos
básicos-
prueba
paramétrica
Prueba
paramé-
trica
Supuestos
básicos-
prueba no
paramétrica
Prueba no
paramétrica
Análisis correlacional
Entre dos variables :
Ambas numéricas
Ambas ordinales
Ambas nominales
Análisis de
los errores
Tamaño de
muestra
grande
Regresión
/ r de
Pearson
Libre
distribución
(numérica u
ordinal)
R de
Spearman
Tau-b de
Kendall
Riesgo
relativo
Odds ratio
Mg. Rosa Padilla
ObjetivoSupuestos no paramétrica Prueba no
paramétrica
Estudios con dos muestras independientes
Diseños prospectivos o
de cohortes (hacia
adelante)
Diseños retrospectivos
o de caso control (hacía
atrás)
Se establecen dos grupos de sujetos
a partir de la presencia o ausencia de
una condición que se considera
desencadenante y se hace
seguimiento hacia adelante para
determinar en que proporción de
sujetos de cada grupo se produce un
determinado desenlace
Se forman dos grupos de sujetos a
partir de alguna condición de interés,
se va hacía atrás buscando la
presencia de algún factor
desencadenante
Riesgo relativo (Rr)
Odds ratio
Mg. Rosa Padilla
Métodos de análisis
multivariante
Pruebas
multivariantes
I. Método predictivo
Regresión lineal múltiple
Análisis de covarianza
Análisis de varianza
Regresión logística
múltiple
Análisis discriminante
II. Métodos reductivos
Componentes
principales
Análisis factorial
Correlación canónica
Análisis cluster
Análisis de
correspondencia
Mg. Rosa Padilla Castro
Población: Nx
Muestra: n
Inferencia
Representatividad (tipo de muestreo)
Tamaño de muestra
Estimación de
parámetros
Pruebas de hipótesis
2
2S
Probabilidades
Inferencia
Los métodos estadísticos inferenciales
constituyen una forma de extraer conclusiones
respecto a una población, de los datos
obtenidos de una muestra.
La inferencia estadística comprende dos tipos
principales de técnicas: Estimación de
parámetros y contrastación de hipótesis.
Independientemente de la técnica que se utilice,
la finalidad general es utilizar datos de una
muestra para extraer conclusiones respecto a
una población.
Estimación de parámetros
Las técnicas de estimación son utilizadas cuando el
investigador no tiene hipótesis previa respecto al valor
de una característica de la población y desea conocer
cuál podría ser tal valor.
La estimación puede asumir 2 formas:
• Estimación puntual
• Estimación por intervalos
Mg. Rosa Padilla Castro
Estimación puntual
n
x = x = i
(A) Estimación Puntual para la media poblacional.
Se halla mediante las siguientes fórmulas.
n
xnx = s
2
1
)( 22
2
(B) Estimación Puntual para la varianza poblacional.
Se halla mediante las siguientes fórmulas.
Mg. Rosa Padilla Castro
Estimación de parámetros
Estimación por intervalos
La estimación por intervalos de un parámetro nos
indica límites dentro de los cuales el parámetro
tiene la probabilidad especificada de estar. Los
estimados por intervalos se conoce como
intervalos de confianza y los límites inferior y
superior como los límites de confianza.
P( - k + k ) = 1 -
Mg. Rosa Padilla Castro
Mg. Rosa Padilla CastroMg. Rosa Padilla Castro
En muchos problemas, los datos de sólo una parte
de la población (muestra), pueden dar la
información necesaria para tomar una decisión o
probar una hipótesis referente a la población o
universo.
El objetivo del muestreo es seleccionar una muestra
que sea representativa de la población. Para esto, se
debe determinar el método adecuado de selección,
el tamaño correcto de la muestra y la técnica de
estimación de las características de la población en
base a la muestra.
Mg. Rosa Padilla Castro
DISEÑO MUESTRAL
Definición de la población a estudiar
Determinación del marco muestral
Fijación de las unidades de muestreo
Tipo de muestreo
Cálculo del tamaño de muestra
(confiabilidad y error de estimación)
Determinación de los niveles de
inferenciaMg. Rosa Padilla Castro
84
Marco muestral: es el listado de
unidades del cual se seleccionará una
muestra.
Unidades del
Marco
Muestral
Unidades de la
Población≠
Por ejemplo: En una encuesta de hogares, si bien el objeto de
estudio es la población, el marco muestral esta conformado por las
unidades habitacionales, las manzanas o las viviendas.
CONTIENE
85
¿Por que muestrear?
› La naturaleza destructiva de ciertas pruebas: Los catadores de vino,
Quienes prueban la calidad de una semilla
› La imposibilidad de revisar todos los integrantes de la población: poblaciones de aves, peces, mosquitos, en constante
movimiento.
Incluso los humanos: migran, nacen, mueren
› El costo de estudiar a todas las unidades de una población es prohibitivo
› La muestra genera información útil a bajo costo:
› Tiempo consumido para entrevistar a la totalidad de una población.
Mg. Rosa Padilla Castro
86
NIVEL TECNICO
¿Cuál será el tamaño
adecuado de mi muestra para
que sea representativa?
•Tomar el 5% o 10% de los
casos.
•Tomar 100, 400 o 1000
casos.
NIVEL ECONOMICO
¿Cuál es la cantidad de error
que su presupuesto puede
pagar?
• Solicitar más
presupuesto.
• Dejar de hacer otras
actividades para
realizar la encuesta.
Mg. Rosa Padilla Castro
87
Muestra al azar
EDAD Media = 47 EDAD Media = 48.5
Población
DIFERENCIA =1.5
=
Error de
estimación
Mg. Rosa Padilla Castro
88
Universo de
estudio
Variables de
interésNo probabilístico
Parámetros a
investigar
Muestreo por
cuotas
Muestreo por
conveniencia
Muestreo
bola de nieve
Tipos de Muestreo
Muestreo
polietápico
Muestreo
sistemático
Muestreo
estratificadoMuestreo aleatorio
simple
Muestreo
conglomerados
n
Margen de error
Probabilístico
Muestreo
a juicio de expertos
Condiciones básicas
La muestra debe ser representativa
› Tipo de muestreo
La muestra debe ser adecuada
› Tamaño optimo
Mg. Rosa Padilla Castro
• Para elegir una muestra de individuos o elementos de una población de estudio, tenemos dos posibilidades de llevar acabo:
– Muestreos probabilísticos• Conocemos la probabilidad de que un individuo o elemento sea
elegido para la muestra.
• Interesantes pues sus resultados se pueden extrapolar a la población de estudio con un mínimo sesgo de error y un grado de confianza asumido por el investigador.
– Muestreos no probabilísticos• No se conoce la probabilidad.
• Son muestreos que seguramente esconden sesgos.
• En principio no se pueden extrapolar los resultados a la población.– A pesar de ello una buena parte de los estudios que se publican usan
esta técnica.
• En adelante vamos a tratar exclusivamente con muestreos con la menor posibilidad de sesgo (probabilísticos)
Tipos de muestreo
Mg. Rosa Padilla Castro
Muestreo aleatorio simple (m.a.s.)
• Se eligen individuos de la población de estudio, de manera que todos tienen la
misma probabilidad de aparecer, hasta alcanzar el tamaño muestral deseado.
• Se puede realizar partiendo de listas de individuos de la población, y eligiendo
individuos aleatoriamente con un ordenador o una tabla de números aleatorios.
• Normalmente tiene un costo bastante alto su aplicación.
• En general, las técnicas de inferencia estadística suponen que la muestra ha
sido elegida usando m.a.s., aunque en realidad se use alguna de las que
veremos a continuación.
Mg. Rosa Padilla Castro
Muestreo sistemático
• Se tiene una lista de los individuos de la población de estudio. Si queremos
una muestra de un tamaño dado, elegimos individuos igualmente espaciados
de la lista, donde el primero ha sido elegido al azar.
• CUIDADO: Si en la lista existen periodicidades, obtendremos una muestra
sesgada.
– Un caso real: Se eligió una de cada cinco casas para un estudio de
salud pública en una ciudad donde las casas se distribuyen en
manzanas de cinco casas. Salieron con mucha frecuencia las de las
esquinas, que reciben más sol, están mejor ventiladas,…
Mg. Rosa Padilla Castro
Muestreo estratificado
• Se aplica cuando sabemos que hay ciertos factores (variables, subpoblaciones
o estratos) que pueden influir en el estudio y queremos asegurarnos de tener
cierta cantidad mínima de individuos de cada tipo:
– Hombres y mujeres,
– Jóvenes, adultos y ancianos…
• Se divide a la población en estratos y luego se toma la muestra aleatoria de los
individuos de cada uno de los estratos.
• Al extrapolar los resultados a la población hay que tener en cuenta el tamaño
relativo del estrato con respecto al total de la población.
Mg. Rosa Padilla Castro
Muestreo por grupos o conglomerados
Se aplica cuando es difícil tener una lista de todos los individuos que forman
parte de la población de estudio, pero sin embargo sabemos que se
encuentran agrupados naturalmente en grupos.
Se realiza eligiendo varios de esos grupos al azar, y ya elegidos algunos
podemos estudiar a todos los individuos de los grupos elegidos o bien
seguir aplicando dentro de ellos más muestreos por grupos, por estratos,
aleatorios simples,…
Ejemplo: Para conocer la opinión de los médicos del sistema nacional
de salud, podemos elegir a varias regiones del país, dentro de ellas
varias ciudades, y dentro de ellas varios centros de salud, y…
Al igual que en el muestreo estratificado, al extrapolar los resultados a la población hay que
tener en cuenta el tamaño relativo de unos grupos con respecto a otros regiones con diferente
población pueden tener probabilidades diferentes de ser elegidas, ciudades, hospitales
grandes frente a pequeños,…
Mg. Rosa Padilla Castro
Muestreo no probabilístico
También conocido como muestreo por "conveniencia", no es aleatorio,
método cuyos resultados y estimaciones no son de ninguna manera
confiables, dado que la selección de las unidades que conforman la
muestra no se realiza en forma aleatoria, sino por conveniencia,
primando el juicio del investigador.
En términos generales no se recomienda utilizar el muestreo no
probabilístico en las investigaciones cuantitativas, debido a que por sus
características no permite calcular el error de muestreo (diferencia que
existe entre el verdadero valor de la población y el valor encontrado en la
muestra).
Mg. Rosa Padilla Castro
Muestreo a juicio o intencional.
Donde se eligen los elementos que están más al alcance del investigador, o
los que él a su juicio conoce que pueden aportar datos relevantes a su
investigación.
Muestreo por voluntarios.
Donde el informante, voluntariamente suministra información sin ser
seleccionado.
Muestreo por cuotas.
Es un número de entrevistas, encuestas, condiciones o cuotas que se le
fijan al encuestador para que a su vez seleccione los elementos en la forma
que considere oportuno, un ejemplo de esto son las encuestas de opinión
pública, en las que los encuestadores proceden a buscar las personas
hasta cubrir la cuota previamente fijada, sin preocuparse por áreas
geográficas, zonas u otros criterios.
Muestreo bola de nieve
Tipos de muestreo no probabilístico
Mg. Rosa Padilla Castro
qpEN
qpN
n..1
..
2
2
2
2
2
Si la población es finita
Proporción
Si la población es infinita
2
2
2
..
E
qp
n
10,00
N
nsi
N
n
nnc
1
TAMAÑO DE MUESTRA: variables cualitativas
Mg. Rosa Padilla Castro
98
Promedio
+Zc-Zc
N
10.0N
n
Ajuste de tamaño de muestra:
Si
N
n
nn
10
2
22
e
zn
222
22
)1( zNe
zNn
TAMAÑO DE MUESTRA: variables cuantitativas
Mg. Rosa Padilla Castro
Ejemplo de aplicación
Evaluación del Impacto en Programa
“Amigo del Cepillo de Dientes” en los
conocimientos, Actitudes y Practicas en
Alumnos del 4to y 5to de secundaria del
CNMx “1230” de Viña Alta –La Molina
Mg. Rosa Padilla Castro
Población y Muestra
Población. La constituyen 400 alumnos del nivel secundario del CNMx
1230 de Viña Alta que se matricularon el año 2007.
Muestra. La muestra está constituida por 110 alumnos de 4to y 5to de
secundaria del CNMx 1230 de Viña Alta, la selección de unidades se
realizó mediante un Muestreo probabilístico, con un error máximo de
estimación del 8%.
Diseño muestral. La población de estudio se encuentra conformada por
400 alumnos nivel secundario del CNMx 1230 de Viña Alta. Para la
determinación del número de las unidades de análisis se tomó el tamaño
de muestra estratificado por asignación proporcional:
Mg. Rosa Padilla Castro
Población y Muestra
qpeN
qpN
n2
2
2
2
20
1 50.050.096.108.01400
50.050.096.140022
2
0xxx
xxxn
ALUMNOSn 15087.1490
0,08eError de estimación
0.50qProporción de la población que no presenta la
característica
0,50pProporción de población que presenta la
característica
400NTamaño de población
1,96Z=Z(1- α/2)Distribución normal inversa
0,951-αConfianza
N
nsi 0 10.0375.0
400
150
11009.109
400
1501
150
1N
n
nnc
Como el factor de corrección para poblaciones finitas es
mayor que 0.10
entonces se corrige el tamaño de muestra utilizando la
siguiente fórmula:alumnos.
Ejercicio de aplicación
Un hospital dispone de un listado de los
pacientes, organizados por áreas de
atención (neurología, traumatología,....).
Comente en grupo que tipo de muestreo
podría realizarse, y como lo harían.
Mg. Rosa Padilla Castro
Ejercicio de aplicación
Un hospital dispone de un listado de los
pacientes, organizados por áreas de
atención (neurología, traumatología,....).
Comente en grupo que tipo de muestreo
podría realizarse, y como lo harían.
Mg. Rosa Padilla Castro
• Un grupo de especialistas de la Salud, entre ellos Médicos, Enfermeros, Nutricionistas, Psicólogos, están interesados en indagar acerca de la relación que existe entre desnutrición y grado de conocimiento de la población del adulto mayor en cuanto a una alimentación balanceada. Suponga que la población objetivo son todos los barrios marginales del Cono Sur de Lima. Sugiera el tipo de muestreo más conveniente, el tamaño de muestra apropiado, ¿quién es la unidad de análisis?
Ejercicio de aplicación
Mg. Rosa Padilla Castro
• Se toma una encuesta de hogares sobre violencia familiar, el objetivo es obtener información acerca de los conocimientos, valores, actitudes y prácticas respecto a la violencia en el ámbito familiar según las percepciones de las mujeres en Lima y Callao, que sirvan de apoyo a la formulación y evaluación de políticas públicas, de iniciativas legislativas y la proposición de programas de prevención que contribuyan a disminuirla. La población de estudio estuvo conformada por las mujeres de 15 a 65 años de edad, residentes habituales en Lima y Callao.
La cobertura geográfica fue 43 distritos de la provincia de Lima y 6 distritos de la provincia constitucional del Callao. Según data del INEI se calcula que en el 1993 los delitos ocurridos (violencia familiar) fue de 532,968. y según el censo nacional la población de mujeres de 15 años y más fue de 4809624.
Determinar el tamaño de muestra.
Ejercicio de aplicación
Mg. Rosa Padilla Castro
106
Se precisa conocer cual es la tasa de desnutrición
crónica actual entre los niños menores de 6 años de
una determinada región.
El error máximo permitido para la evaluación es de 3%
y el nivel de confianza 95%.
De un estudio realizado en la región durante el 2000 se
sabe que la tasa de desnutrición crónica fue de 25%.
Determinar el tamaño de muestra necesario para el
estudio
Ejercicio de aplicación
Mg. Rosa Padilla Castro
107
Se precisa conocer cual es la tasa de desnutrición crónica actual entre los niños menores de 6 años de una determinada región.
La población de niños en este tramo de edad es aproximadamente de 1352.
El error máximo permitido para la evaluación es de 3% y el nivel de confianza 99%.
De un estudio realizado en la región durante el 2000 se sabe que la tasa de desnutrición crónica fue de 25%.
Determinar el tamaño de muestra necesario para el estudio
Ejercicio de aplicación
Mg. Rosa Padilla Castro
Mg. Rosa Padilla CastroMg. Rosa Padilla Castro
Pruebas de hipótesis
Hipótesis: Una Hipótesis estadística es una afirmación
relativa sobre un modelo probabilístico y una prueba de
hipótesis es un método para determinar la posibilidad de
esa afirmación relativa en base a una muestra.
Hipótesis establecidas en esta forma proporcionan con
frecuencia motivo para realizar una investigación. Por esta
razón se le denomina hipótesis de investigación
.
Hipótesis nula (Ho): Son aquellas que están referidas a
algún parámetro de la población o de las poblaciones de
estudio. Estas son llamadas hipótesis científicas.
Hipótesis alternativa (Ha): Junto a la hipótesis nula se debe
formular la denominada hipótesis alternativa que es la que
sirve para contrastarla.Mg. Rosa Padilla Castro
Decisión correcta
El tratamiento no
tiene efecto y así se
decide
Decisión correcta
El tratamiento tiene
efecto y el
experimento lo
confirma
Error de Tipo I (
El tratamiento no
tiene efecto, pero se
decide que si
Error de Tipo II (
El tratamiento si
tiene efecto, pero
no lo percibimos
Ho cierta
No rechazo Ho
Ho falsa
Siempre que se rechaza una Hipótesis nula se corre el riego de cometer un
error del tipo I
Siempre que no se rechaza una Hipótesis nula existe el riego de cometer al
error tipo II )(
)(
Rechaza Ho
La decisión de una prueba estadística está asociada al nivel de significación:
a) Si P < 0.05 ( = 0.05). Se dice que existe significación en la prueba
b) Si P < 0.01 ( = 0.01). Se dice que existe alta significación en la prueba
Errores de prueba y nivel de significación
1.Formular dos hipótesis mutuamente excluyentes
Hipótesis nula (Ho): que especifica valores hipotéticos
para uno o más de los parámetros poblacionales.
Hipótesis alterna (Ha): donde se afirma que el parámetro
poblacional tiene un valor distinto al hipotético, esta se
acepta cuando se rechaza la Ho.
2.Determinar el nivel de significancia a la probabilidad de
cometer un error tipo I pueden ser:
3. Determinar la prueba a utilizar.
05.001.0
Pasos para las pruebas de Hipótesis
10.0
Mg. Rosa Padilla Castro
4. Determinar la potencia de la prueba o probabilidad de
aceptar la hipótesis nula.
p-valúe ó sig.
5. Tomar la decisión de aceptar o rechazar la Ho, o nos
abstenemos de tomar la decisión de acuerdo al criterio.La decisión de una prueba estadística está asociada al nivel de
significación ( = 0.05, 0.01)
a) Si P < Se rechaza la hipótesis nula, es decir existe
significación en la prueba
b) Si P >= No se puede rechazar la hipótesis nula, es decir no
existe significación en la prueba
6. Formular las conclusiones finales.
Pasos para las pruebas de Hipótesis
Mg. Rosa Padilla Castro
Mg. Rosa Padilla Castro
unilateral
bilateralHa
H
o
o
o
oo
.:
:
Hipótesis relativa a una media
o
o
/2/2
Nivel de significancia: 01.0
05.0
Supuestos para pruebas paramétricas
Normalidad
H0: La variable se distribuye
normalmente
Sig = .200 >.05
Decisión: No se puede rechazar H0
Por lo tanto concluimos que la variable
sigue una distribución normal
Kolmogorov-Smirnov(a) Shapiro-Wilk
Estadísti
co gl Sig.
Estadísti
co gl Sig.
edad .035 255 .200(*) .992 255 .214
Valor observado
100806040200-20
No
rmal e
sp
era
do
3
2
1
0
-1
-2
-3
Gráfico Q-Q normal de edad
En SPSS: Analizar/estadísticos descriptivos/explorar/gráficos (continuar según
figura al pie)
Ejercicio: probar si la variable edad sigue una
distribución normal
Prueba t para una muestra
H0: = 0
vs.
Ha: 0
Se determina el nivel de significación , y si el
valor resultante es menor o mayor se rechaza
la hipótesis nula
Para cada variable a contrastar se calcula, la
media, desviación típica y error típico de la
media. La diferencia promedio entre cada
valor de los datos y el valor de contraste
hipotético.
Contrasta si la media de una variable difiere
de una constante especifica.
Mg. Rosa Padilla Castro
Prueba t para una muestra
En SPSS:
Una media poblacional: Analizar/Comparar medias/Prueba t para una
muestra/seleccionar la variable a probar, pasarla a contrastar variables
haciendo clik en /Valor de prueba: poner el valor del parámetro a
probar/Opciones: cambiar la confianza/Continuar/Aceptar
Ejm. Probar, si los pacientes asisten a recibir algún servicio al hospital más de 4
veces por año: Ho: 4
Ha: > 4
Mg. Rosa Padilla Castro
Prueba t para una muestra
Reporte en el SPSS
N Media Desviación típ.
Error típ. de la
media
Nº de veces que asistió a recibir un servicio
255 4.40 2.692 0.169
Valor de prueba = 4
t gl
Sig.
(bilateral)Diferencia de
medias
95% Intervalo de
confianza para la
diferencia
Inferior Superior
Nº de veces que asistió a recibir un servicio 2.349 254 0.020 0.396 0.064 0.728
Decisión: Dado que el valor p o sig es menor que el 5%, rechazamos la Ho, por
lo tanto al nivel de significancia del 5% se puede afirmar que los pacientes
acuden al hospital en promedio más de 4 veces por añoMg. Rosa Padilla Castro
Mg. Rosa Padilla Castro
PoblaciónN1
Muestran1
PoblaciónN2
Muestran2
Comparación
Muestras independientes
Prueba t para muestras independientes
Prueba t para muestras independientes
H0: 1 = 2
vs.
Ha: 1 2
Se base en el tamaño de la
muestra, media, desviación típica
y error típico. Adicionalmente, se
realiza la prueba de Levene sobre
la igualdad de varianzas.
Compara las medias de dos
grupos de casos. Para esta
prueba, idealmente los sujetos
deben asignarse aleatoriamente a
dos grupos, de forma que
cualquier diferencia en la
respuesta sea debida al
tratamiento (o falta de tratamiento)
y no a otros factores.
Sexo del entrevistado
MasculinoFemenino
ed
ad
100
80
60
40
20
0
Mg. Rosa Padilla Castro
En SPSS:
Para comparar medias poblacionales: Analizar/Comparar
medias/Prueba t para muestras independientes/seleccionar la
variable a comparar pasarla a contrastar variables haciendo
clik en /Seleccionar la variable y pasarla a variable de
agrupación/Definir grupos: dar valor al grupo 1 y grupo
2/Continuar/Opciones: cambiar la confianza si se
desea/Continuar/Aceptar
Ej: Probar si existe diferencia significativa en la
edad del entrevistado según su genero
Ho: 1= 2
Ha: 1≠ 2
Mg. Rosa Padilla Castro
Sexo del
entrevistad
o N Media
Desvia
ción
típ.
Error
típ. de
la
media
edad Femenino 134 45.20 18.221 1.574
Masculino 121 44.42 18.548 1.686
Prueba de Levene para la
igualdad de varianzas Prueba T para la igualdad de medias
F Sig. t gl
Sig.
(bilateral)
Diferencia
de medias
Error típ. de
la diferencia
95% Intervalo de
confianza para la
diferencia
Inferior Superior Inferior Superior Inferior Superior Inferior Superior Inferior
edad Se han
asumido
varianzas
iguales
.064 .800 .338 253 .735 .780 2.305 -3.759 5.319
No se han
asumido
varianzas
iguales
.338 249.392 .736 .780 2.307 -3.763 5.323
Reporte según el SPSS
Decisión: Siendo que el p valor o sig es mayor que el 5%, no podemos rechazar la
Ho, por lo tanto concluimos que la edad no difiere según el sexo de los pacientes
Homogeneidad (Levene)
Sig= .800 > 0.05
Decisión: No se puede rechazar H0
Por lo tanto concluimos que las varianzas de
ambos grupos son homogéneas
2
2
2
1:Ho
Prueba de Levene para la
igualdad de varianzas
F Sig.
edad Se han asumido
varianzas iguales .064 .800
No se han
asumido varianzas
iguales
Supuestos para la prueba de muestras independientes
Ejercicio: Ademas de probar la normalidad de los datos, también probar la
homogeneidad de varianzas para la variable edad según sexo
Mg. Rosa Padilla Castro
Mg. Rosa Padilla Castro
PoblaciónN1
Muestran0 ; t=0
Muestran1 ; t=1
intervención
Muestras relacionadas
Prueba t para muestras relacionadas
H0: d = 0
vs.
Ha: d 0
Compara las medias de dos variables de un
solo grupo. Calcula las diferencias entre los
valores de las dos variables de cada caso y
contrasta si la media difiere de 0.
En SPSS:
Para comparar medias poblacionales: Analizar/Comparar medias/
Prueba t para muestras relacionadas/seleccionar a la vez las dos
variables a comparar/ pasarla a variables relacionadas haciendo
clik en / Estadísticos/Continuar/Aceptar
Ejm: Se desea determinar la efectividad del programa “consumo de
hierro” en el incremento de la hemoglobina de los pacientes que
asisten al Hospital… Ho: d =0
Ha: d ≠0
Hb_antes Hb_despues
12.8 16.1
10.8 15.1
12 11.7
11 12.7
10.9 14
10.5 13.9
11 11.8
12.8 13.7
13.5 15.1
13.5 12.6
10.9 14.4
10.5 15.7
14.1 15.4
14.3 15.6
13 15.5
10.9 13.1
13.1 12.9
13.5 13.2
10.3 11.4
11.6 13.1
Prueba t para muestras relacionadas
Media N
Desviación
típ.
Error típ. de
la media
Hb_antes12.05 20 1.348 .301
Hb_después 13.85 20 1.457 .326
Diferencias relacionadas
Media
Desvia
ción
típ.
Error típ.
de la
media
95% Intervalo de
confianza para la
diferenciat gl
Sig.
(bilateral)Inferior Superior
Hb_antes
Hb_después-1.800 1.64 .366 -2.57 -1.03 -4.918 19 .000
Reporte del SPSS
Decisión: Siendo que el p valor o sig es .000 menor que el
5%, rechazamos la Ho, por lo tanto concluimos que el
programa “consumo de hierro” incrementó la hemoglobina de
los pacientes que asisten al Hospital xxxMg. Rosa Padilla Castro
H0: 1 = 2 = ... = k
vs.
Ha: Al menos un par de
medias difieren
Además de determinar que existen diferencias entre las medias, es posible
que desee saber qué medias difieren. Existen dos tipos de contrastes para
comparar medias: a priori y post hoc. También puede contrastar las
tendencias existentes a través de las categorías.
El procedimiento ANOVA de un factor genera
un análisis de varianza para una variable
dependiente cuantitativa respecto a una única
variable de factor. El análisis de varianza se
utiliza para contrastar la hipótesis de que
varias medias son iguales. Esta técnica es una
extensión de la prueba t para dos muestras.
Prueba para más de dos grupos (ANOVA)
Mg. Rosa Padilla Castro
Ejemplo: Se quiere determinar si existe diferencia significativa entre la
percepción del trato por parte del Residente y la edad de los pacientes.
Para cada grupo se tiene en cuenta el número de casos, media, desviación
típica, error típico, mínimo, máximo, intervalo de confianza al 95% para la
media. Prueba de Levene sobre la homogeneidad de varianzas, tabla de
análisis de varianza y contrastes robustos de igualdad de medias para cada
variable.
Prueba para más de dos grupos (ANOVA)
En SPSS:
Para comparar medias poblacionales:
Analizar/Comparar medias/ANOVA de un
factor/seleccionar la variable cuantitativa a
comparar trasladar a dependientes haciendo clik
en / seleccionar la variable cualitativa y trasladar
a factor(los subgrupos)/Estadísticos/ Opciones:
prueba de homogeneidad/Post hoc (Prueba de
comparaciones múltiples) seleccionar una prueba/
Continuar/Aceptar
Prueba para más de dos grupos (ANOVA)
Mg. Rosa Padilla Castro
Prueba para más de dos grupos (ANOVA)
Mg. Rosa Padilla Castro
Resultados ANOVA)
H0: 1 = 2 = 3
vs.
Ha: Al menos un par de medias difieren
Decisión: Sig 0.001< 0.05
Rechazamos Ho
Conclusión: Existe diferencia significativa entre la percepción que
tiene el paciente acerca del trato que da el Residente según el
número de veces que acude a recibir un servicio
Fuentes de
variación
Suma de
cuadrados gl
Media
cuadrática F Sig.Inter-grupos 100.3 2 50.2 7.261 0.001Intra-grupos 1740.7 252 6.9Total 1841.0 254
Reporte del SPSS
Mg. Rosa Padilla Castro
Opciones y pruebas post hoc
Homogeneidad
Normalidad
Estadístico de Levene gl1 gl2 Sig.
4.852 2 252 0.009
Fue amable el trato que recibió por parte del RESIDENTE
Kolmogorov-Smirnov(a)
Nº de veces que asistió a recibir un servicio Estadístico gl Sig.Totalmente de Acuerdo 0.194 165 0.000Acuerdo 0.158 45 0.007Desacuerdo 0.198 45 0.000Corrección de la significación de Lilliefors
Duncan Nº de veces que asistió a recibir
un servicioFue amable el trato
que recibió por parte del
RESIDENTE N
Subconjunto para alfa = .05
1 2Desacuerdo 45 3.044Totalmente de Acuerdo 165 4.661Acuerdo 45 4.778Sig. 1 0.808
Se puede observa que para aquellos que
presentan mayor promedio de asistencia
son los que opinan a favor del trato que
perciben del residente
Sin embargo, también se puede observar
que la variable dependiente no cumple
el requisito de la homogeneidad ni
normalidad, por lo tanto se recomienda
hacer una prueba no paramétrica “H de
Kruscal-Wallis”
Decisión: Sig <0.05, por lo tanto rechazo Ho.
Las variables no son homogéneas
Decisión: Sig <0.05, por lo tanto rechazo Ho.
Las variables no siguen una distribución normal
Mg. Rosa Padilla CastroMg. Rosa Padilla Castro
En este capítulo vamos a tratar diferentes formas de describir la relación entre dos variables cuando estas son numéricas.
•Estudiar si hay relación entre la altura y el peso.
También se hace estudios correlacionales cuando alguna de las variables es ordinal.
•Estudiar la relación entre el sobrepeso y el dolor de espalda (ordinal)
Hay más de dos variables relacionadas.•¿Conocer el peso de una persona conociendo su altura y contorno
de cintura?
El estudio conjunto de dos variables cualitativas lo vemos a través del contraste de hipótesis (X2).
•¿Hay relación entre fumar y padecer enfermedad de pulmón?
Mg. Rosa Padilla Castro
Análisis de regresión. Se utiliza para realizar
estimaciones de una variable dependiente
en función a un valor específico de las
variables independientes.
Análisis de correlación. Es utilizada para
determinar el grado de asociación entre
variables.
Regresión y correlación: datos
cuantitativos
OBJETIVO:
› Entender como los valores de Y
cambian en promedio cuando X
varia entre los posibles valores
que puede tener.
El análisis de Regresión se enfoca
al establecimiento de una
ecuación que permite que el
valor desconocido de una
variable se pueda estimar a
partir del valor conocido de una
o más variables.
Regresión lineal
0 40 80 120
X
0.00
0.50
1.00
1.50
2.00
Y
1Y = 0.15 + 0.01 * x
R-cuadrado = 0.68
Mg. Rosa Padilla Castro
nn XXXXY 3322110
Suposiciones del modelo:
La variable predictora X es no aleatoria
Los errores ei son variables aleatorias con media 0 y varianza
constante 2.
Los errores y (i j=1…,n) son independientes entre si ie
XY
iii eXY
je
El modelo de regresion lineal simple
Su representacion para la observacion i
Mg. Rosa Padilla Castro
Mg. Rosa Padilla Castro
1. Los residuales son aleatorios
2. Los residuales siguen una distribución
normal
3. Tienen media igual a 0
4. Tienen varianza constante
5. No están auto correlacionadosa) Durbin Watson
b) Grafico de Auto correlación
El análisis de regresión múltiple produce una ecuación con
varios coeficiente , dependiendo del número de variables
independientes X que se introduzcan al modelo, generando
de esta forma hiperplanos.
El Coeficiente de Correlación Múltiple mide la proporción de
la variación total de los valores de la variable independiente,
que es explicada por la regresión múltiple.
nn XXXXY 3322110
Mg. Rosa Padilla Castro
Regresión Múltiple
Caso I Caso II Caso III
Ho: * Ho: = * Ho: *
Ha: * Ha: * Ha: *
Prueba Estadística
Regla de DecisiónRechazar Ho, Rechazar Ho Rechazar Ho
si tcal<-t( ,n-2) si |tcal |>t( /2,n-2) si tcal>t( ,n-2)
*Un “P-value o Sig” cercano a cero, sug
iriría rechazar la hipótesis nula.
)2(~*
nt
Sxx
st
Mg. Rosa Padilla Castro
El objetivo del análisis de correlación es medir
el grado de relación que existe entre las
variables.
El coeficiente de determinación mide el aporte
de la variable independiente sobre la
dependiente.(r2)
Correlación
Mg. Rosa Padilla Castro
Sólo toma valores en [-1,1]
Las variables son incorreladas r=0
Relación lineal perfecta entre dos variables r=+1 o r=-1
Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal
-1 +10
Relación
inversa
casi
perfecta
Relación
directa
casi
perfecta
Variables
incorreladas
Mg. Rosa Padilla Castro
Ejemplo: Hallar el diagrama de dispersión, la
recta estimada de regresión, el coeficiente de
correlación y determinación de las variables
Coste del tratamiento en función de la
duración de la estancia.
Regresión y correlaciónCon la data “patient_los.sav” (SPSS<tutorial<sample_files)
Mg. Rosa Padilla Castro
En SPSS:
• 1. Gráfico de dispersión
Gráficos/dispersión/simple/definir/Coste del
tratamiento trasladar a Y y duración de la estancia a
X/aceptar.
• 2. Correlación
Analizar/Correlación bivariada/se seleccionan las
variables cuantitativas y se trasladan/Seleccionar
Pearson/aceptar
• 3. Regresión
Analizar/Regresión lineal/se selecciona la variable
cuantitativa dependiente y se traslada a dependiente,
luego la independiente o independientes y se traslada
a independientes/aceptar
Regresión y correlación
Mg. Rosa Padilla Castro
Mg. Rosa Padilla Castro
Diagrama de dispersión
En el diagrama de dispersión se aprecia una fuerte relación lineal directa
Regresión y correlación múltiple
Mg. Rosa Padilla Castro
Regresión
Modelo
Coeficientes no
estandarizados
Coeficientes
estandarizad
os
t Sig.B Error típ. Beta
1 (Constante) .667 .016 42.318 .000
Duración de la estancia .146 0.0005961 .939 244.369 .000
Coeficientes
tesConsyXY tan, 1010
1146.0667.0 XY
Mg. Rosa Padilla Castro
Idoneidad del modelo de regresión
Modelo R
R
cuadrado
R cuadrado
corregida
Error típ. de
la estimación
Durbin-
Watson
1 .939(a) .882 .882 .923 2.029
Modelo
Suma de
cuadrados gl
Media
cuadrática F Sig.
1 Regresión50860.685 1 50860.685 59716.253 .000(a)
Residual6810.240 7996 .852
Total57670.925 7997
Resumen del modelo
ANOVA
Coeficiente de determinación: r2 = 88.2%; el costo del tratamiento está siendo
explicado en un 88.2% por la variabilidad de la duración de la estancia y un 11.8%
se debe a la intervención de otras variables.
Siendo que el análisis de varianza (ANOVA) da una significancia < 0.05, entonces
podemos decir que el modelo de regresión propuesto es muy bueno (p=.000)
Mg. Rosa Padilla Castro
Correlación
Mg. Rosa Padilla Castro
Duración de
la estancia
Costes de
tratamiento
Duración de la
estancia
Correlación de
Pearson 1 0.94Sig. (bilateral) .000N 7998 7998
Costes de tratamiento Correlación de
Pearson 0.94 1Sig. (bilateral) 0N 7998 8629
0:
0:
Ha
Ho No existe correlación
Existe correlación
Decisión:
Dado que el p value o sig < 0.05 , rechazamos Ho; concluimos que el
costo del tratamiento esta asociado a la duración de la estancia
Mg. Rosa Padilla Castro
Ejercicio:
Determinar el modelo de regresión para la duración
de la estancia según el resultado quirúrgico y la
edad del paciente.
En SPSS:
Regresión
Analizar/Regresión lineal/se selecciona la variable
cuantitativa dependiente y se traslada a dependiente,
luego las variables independientes y se traslada a
independientes/gráficos: pasar (zpred) a (x) y (zresid) a
(y); click en histograma y gráfico de prob.
Normal/continuar/ aceptar
Mg. Rosa Padilla Castro
Regresión y correlación múltiple
Regresión y correlación múltiple
Resumen del modelob
.379a .144 .144 1.574 2.012
Modelo
1
R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación
Durbin-
Watson
Variables predictoras: (Constante), Resultado quirúrgico, Edad en añosa.
Variable dependiente: Duración de la estanciab.
ANOVAb
1801.795 2 900.898 363.410 .000a
10719.245 4324 2.479
12521.040 4326
Regresión
Residual
Total
Modelo
1
Suma de
cuadrados gl
Media
cuadrática F Sig.
Variables predictoras: (Constante), Resultado quirúrgico, Edad en añosa.
Variable dependiente: Duración de la estanciab.
Modelo
Coeficientes no
estandarizados
Coeficientes
estandarizad
os
t Sig.B Error típ. Beta
1 (Constante) 1.897 .180 10.547 .000
Edad en años .045 .003 .232 16.497 .000
Resultado quirúrgico .802 .039 .291 20.668 .000
Mg. Rosa Padilla Castro
Mg. Rosa Padilla Castro
Las pruebas no paramétricas llamadas de
distribución libre, no asumen ningún parámetro,
trabajan con simple ordenación y recuento
(asignando rangos) a los valores de la variable.
Se deben usar con:
Datos de distribución libre
Se puede usar con datos nominales, ordinales e
incluso cuantitativos (convertir a ordinal)
Cuando la data es cuantitativa pero no cumple
los supuestos básicos de normalidad y
homogeneidad, si se trata de más de dos grupos.
Mg. Rosa Padilla Castro
Chi cuadrado
1 muestraCuantitativa-
cualitativa
Binomial
Independientes CuantitativaU de Mann-
Whitney
2 muestras
Relacionadas Cuantitativa Wilcoxon
Antes/después Mc Nemar
Independientes Cuantitativa Kruscal Wallis
Más de 2
muestras
Cuantitativa Friedman
Relacionadas
Cualitativa Q de Cochran
Pruebas no paramétricas de acuerdo al tipo de muestras y
variables
Mg. Rosa Padilla Castro
F
1i
C
1j
2
ij1)1)(C(F
2)(O
Xij
ij
E
E
CRITERIO DE LA INDEPENDENCIA
Ho: Las variables son independientes
Ha: Las variables están relacionadas
En el SPSS:
Analizar/estadísticos descriptivos/tablas de contingencia/pasar las
variables/pedir en estadísticos/Chi cuadrado/continuar/aceptar
Mg. Rosa Padilla Castro
Es una prueba de significación estadística que responde a la siguienteecuación general:
Prueba Chi-cuadrado: criterio de
independencia
En SPSS:
Para comparar medias poblacionales:
Analizar/Estadísticos descriptivos/Tablas de
contingencia/seleccionar las variables
cualitativas y trasladar a fila y a columna
haciendo clik en /Estadísticos/seleccionar
Chi-cuadrado y coeficiente de
contingencia/Continuar/Aceptar
Ej: Probar si el trato que recibe por parte del médico influye para
recomendar al Hospital de Tarapoto
Ho: El trato que recibe por parte del médico no influye para recomendar
al Hospital de Tarapoto
Ha: El trato que recibe por parte del médico influye para recomendar al
Hospital de Tarapoto
Mg. Rosa Padilla Castro
Prueba Chi-cuadradoHo: El trato que recibe el paciente de parte del médico no influye para
recomendar al Hospital de Tarapoto
Ha: El trato que recibe el paciente de parte del médico influye para recomendar
al Hospital de TarapotoPruebas de chi-cuadrado
Valor gl
Sig. asintótica
(bilateral)
Sig. exacta
(bilateral)
Sig. exacta
(unilateral)Chi-cuadrado de Pearson 29,219a 1 .000
Corrección por continuidadb
26.286 1 .000
Razón de verosimilitudes 32.995 1 .000
Estadístico exacto de
Fisher .000 .000
Asociación lineal por lineal29.104 1 .000
N de casos válidos 255
Decisión: siendo sig 0.000<0.05, por lo tanto rechazamos la Ho
Conclusión: Al nivel de confiabilidad del 95% podemos concluir que el trato que
recibe por parte del médico influye para recomendar al Hospital de Tarapoto
U de Man Witney
Comparar dos grupos independientes que no siguen una distribución normal y no homogéneas o que sean ordinales
Paralela a la prueba t de muestras independientes
Contrasta si dos poblaciones son equivalentes en su posición
Es recomendable pero no imprescindible que las poblaciones comparadas tengan el mismo tamaño
Pruebas no paramétricas: Comparación de
grupos (dos muestras independientes)
Mg. Rosa Padilla Castro
Ejemplo: Con la data “patient_los.sav” (SPSS<tutorial<sample_files)
Ho: La duración de la estancia es igual a si presentan o no infarto
del miocardio
Ho: La duración de la estancia no es igual a si presentan o no
infarto del miocardio
U de Man Witney: Comparación de grupos (dos
muestras independientes)
Historial de
infarto de
miocardio N
Rango
prome
dio
Suma
de
rango
s
Duración de la
estancia
No535 645.85
34553
0.50
Sí946 794.81
75189
0.50
Total 1481
Duración de
la estancia
U de Mann-Whitney 202150.500
W de Wilcoxon 345530.500
Z -6.595
Sig. asintót.
(bilateral).000
El rango promedio de duración de la estancia de los que no presentan historial de
infarto de miocardio esta en 645.85 y los que si presentan infarto esta en 794.81,
es decir hay diferencia entre los que presentan y los que no presentan historial de
infarto y como sig<0.05, se rechaza Ho
Conclusión: La duración de la estancia es diferente en los que si presentan con
los que no presentan, siendo mayor en los que si presentan historial de infarto de
miocardio. Mg. Rosa Padilla Castro
Comparar k grupos independientes y variables
cuantitativas que no cumplan los supuestos básicos de
normalidad y homogeneidad
Paralela a la prueba paramétrica ANOVA para muestras
independientes
Ejemplo: Con la data “patient_los.sav” (SPSS<tutorial<sample_files)
Ho: La duración de la estancia es igual en los tres grupos
de resultado quirúrgico (cualquiera sea el resultado)
Ho: La duración de la estancia no es igual en los tres
grupos de resultado quirúrgico
H de Kruskal Wallis: Comparación de k grupos
independientes
Mg. Rosa Padilla Castro
Resultados
H de Kruskal Wallis: Comparación de k
grupos independientes
Resultado
quirúrgico N
Rango
promedio
Duración de la
estancia
Recuperado 1323 686.04
Estable 121 1153.55
Crítico 37 1357.19
Total 1481
Duración de la
estancia
Chi-cuadrado 221.625
gl 2
Sig. asintót. .000
a Prueba de Kruskal-Wallis
b Variable de agrupación: Resultado quirúrgico
Rangos
Conclusión: Hay diferencia entre los tres grupos para tener más días de
estancia en el hospital frente al resultado quirúrgico
Regla de decisión:
Con sig<0.05 se rechaza Ho
Con sig>0.05 no se rechaza Ho
Mg. Rosa Padilla Castro
Pruebas no paramétricas: Dos muestras
relacionadas (Mac Nemar –antes/despues)
Ejemplo: Una muestra aleatoria de 150 estudiantes se sometió a un cuestionario de opinión acerca
de si fumar produce cáncer al pulmonar. Obtenida la información se les dio una conferencia y se
les presento una exposición llevada acabo por un equipo de sanidad explicando los peligros de
fumar y se les explico la relación sobre el efecto de fumar sobre el cáncer pulmonar
(se les hizo una encuesta y luego recibieron una charla y se quiere ver que tan fructífera fue esa
charla)
Después de la conferencia
Antes de la
conferencia NO SI Total
NO 43 67 110
SI 10 30 40
150
Test Statisticsb
150
40.727
.000
N
Chi-Square a
Asymp. Sig.
antes de la
conferencia &
despues de la
conferencia
Continuity Correcteda.
McNemar Testb.
Ho: la probabilidad de que la conferencia no
tenga efecto sobre la opinión de los
estudiantes es igual a que la probabilidad de
que la conferencia si tenga efecto sobre la
opinión de los estudiantes
Ha: la probabilidad de que la conferencia es
mayor sobre la opinión de los estudiantes
El sig<0.05, rechazamos la Ho por lo tanto
concluimos que si existe un efecto
estadísticamente significativo de que la
conferencia cambie la opinión de los
estudiantes a favor de que el fumar si
produce cáncer Mg. Rosa Padilla Castro
Pruebas no paramétricas: Dos muestras
relacionadas (Wilcoxon)
• Comparar dos grupos relacionados y variables cuantitativas que no tienen
distribución normal o que sean ordinales
• Paralela a la prueba paramétrica de contraste t para muestras relacionadas
• Contrasta si dos poblaciones muestreadas son equivalentes en su posición
• Es recomendable pero no imprescindible que las poblaciones tengan el mismo
tamaño
Ejemplo: Con la data tabaquismo probar si existe relación entre las variables
consumo de tabaco y presentar problemas vasculares
Ho: Problemas vasculares = si consume o no tabaco
Ha: Problemas vasculares si consume o no tabaco
Mg. Rosa Padilla Castro
Pruebas no paramétricas: Dos muestras relacionadas
(Wilcoxon)Con la data tabaquismo probar si existe relación entre las variables consumo de
tabaco y presentar problemas vasculares
sexo tabaco vascular ncasos1 1 1 221 1 2 1031 2 1 171 2 2 1512 1 1 232 1 2 812 2 1 92 2 2 127
Prueba de los rangos con signo de
Wilcoxon
N
Rango
promedi
o
Suma
de
rangos
vascular -
tabaco
Rangos
negativos26(a) 105.50
2743.0
0
Rangos
positivos184(b) 105.50
19412.
00
Empates 323(c)
Total 533
vascular -
tabaco
Z -10.903(a)
Sig. asintót. (bilateral) .000
E
a Basado en los rangos negativos.
b Prueba de los rangos con signo de Wilcoxon
Estadísticos de contraste(b)
Conclusión: El consumo de
tabaco incide significativamente
en los problemas vasculares
Mg. Rosa Padilla Castro
Mg. Rosa Padilla Castro
PRUEBA PARA K MUESTRAS RELACIONADAS: en
dos direcciones por Rangos de Friedman
•Comparar k grupos relacionados y variables cuantitativas que no siguen una
distribución normal o que sean datos ordinales
•Paralela a la prueba paramétrica de ANOVA para muestras relacionadas
•Contrasta si K poblaciones son equivalentes en su posición
•Es recomendable pero no imprescindible que las poblaciones comparadas
tengan el mismo tamaño
Ejemplo:
Suponga que se desea comprobar la hipótesis nula de que un grupo de 10
sujetos reaccionan de la misma manera ante tres situaciones diferentes; Se
obtienen los siguientes resultados, que se ubican en cada uno de los tres
grupos I, II, III
Ho: La reacción de los sujetos ante situaciones diferentes es igual
Ha: La reacción de los sujetos ante situaciones diferentes no es igual
Mg. Rosa Padilla Castro
PRUEBA PARA K MUESTRAS RELACIONADAS: en
dos direcciones por Rangos de Friedman
Puntajes
Sujeto Grupo 1 Grupo 2 Grupo 3
A
B
C
D
E
F
G
H
I
J
25
30
21
28
19
22
31
17
25
33
28
33
19
31
22
21
33
14
21
35
29
32
16
32
23
25
34
21
24
37
N 10
Chi-cuadrado 5.600
gl 2
Sig. asintót. .061
Estadísticos de contraste(a)
a Prueba de Friedman
Conclusión: No existe diferencia significativa de los grupos en cuanto a
la reacción tras diferentes estímulos. (p= 0,061>0.05).
Mg. Rosa Padilla Castro
2 Timoteo 2:15Procura con
diligenciapresentarte ante Dios, aprobado
como obrero queno tiene de que
avergonzarse queusa bien la palabra
de verdad
Mg. Rosa Padilla Castro