Análisis estadístico según tipo de estudio en la investigación

ESTADÍSTICA

Análisis estadístico según tipo de

estudio en la investigación

Mg. Rosa Padilla Castro

Fac. de Ingeniería y Arquitectura

Dir. CIEST

INVESTIGACIÓN CIENTÍFICA

Sistemática – controlada – empírica - crítica

PROBLEMA

•Descripción

de la

realidad

•Anteceden-

tes teóricos

•Definición

del problema

•Objetivos

•Justificación

•Factivilidad/

viabilidad

HIPÓTESIS

•Preposicio-

nes

•Implican-

cias

•Variables

•Operacio-

nalización

de las

variables

MÉTODO

•Diseño

•Universo

muestra

•Plan de

recolección

de datos

•Plan de

procesami-

ento de

datos

RECOLECCI

ÓN DE

DATOS

•Técnicas

•Observación

•Pruebas

•Experimen-

tos

•Instrumentos

•Datos

PROCESA

MIENTO-

ANÁLISIS

•Crítica

•Tabulación

•Gráfica

•Estadígra-

fos

•Pruebas

de

hipótesis

•Discusión

de

resultados

Co

nclu

sio

ne

s y

Re

co

me

nd

acio

ne

s

MARCO TEÓRICO

Cosmovisión Antecedentes Visión Bases Marco

Histórica Teóricas Conceptual

RE

ALID

AD

RE

ALID

AD

6

Diseño Metodológico

Procedimientos

Plan de Tabulación

y Análisis

Métodos e instrumentos

de recolección de datos

Población y Muestra

Tipo de Estudio

Diseño de investigación

METODOLOGIA DE INVESTIGACION

EXPLORATORIA DESCRIPTIVA CORRELACIONAL

EXPLICATIVAS

TIPOS DE

INVESTIGACIÓN

CUANTITATIVA


Alcances

Exploratorio

Familiarizarse con el

fenómeno

Lograr inmersión

inicial

Descriptivo

Ubicación de variables

Tener medición precisa o

descripción profunda

Correlacional

Explicación parcial

Relacionar variables

Explicativo

Mayor estructuración

Entender el fenómeno

I

N

V

E

S

T

I

G

A

C

I

Ó

N

Alcance de la

investigación a realizar

Fuente: Hernández, Fernández y Baptista

Describe y analiza una

población, sin pretender

sacar conclusiones de

tipo general.

ESTADÍSTICA

Estadística

Descriptiva

Estadística

Inferencial

Es el conjunto de métodos,

cuyo propósito es inferir o

inducir leyes de

comportamiento de una

población, a partir del

estudio de una muestra,

las cuales nos ayudaran en

la toma de decisiones bajo

un cierto grado de

confianza; este grado de

confianza se mide por la

“probabilidad”.



Tabla 1: Evolución de la equidad según desnutrición crónica y vacunación, 1992 – 2000

Desnutrición crónica Vacunación

1992 2000 1992 2000

Promedio 36,8 27,3 54,6 40,4

Grupo más pobre 63,2 51,5 41,9 25,3

2ndo 50,6 40,4 49,4 34,7

Medio 37,5 26,8 53,4 40,2

Medio alto 24,7 12,6 60,3 47,8

Grupo más rico 7,8 5,3 68,2 53,8

Ratio pobre/rico 8,1 9,8 0,6 0,5

La tabla 1 muestra que, a pesar de que los niveles de desnutrición crónica mejoraron,

tanto en el nivel promedio como por grupo de ingresos, entre 1992 y 2000, las

desigualdades entre el grupo más pobre y el más rico se acentuaron (el ratio pobre-rico

pasó de 8,1 a 9,8). Esto implicaría que los programas de salud pública están

favoreciendo en mayor medida a las poblaciones con más recursos y, en

consecuencia, aumentando la brecha entre estos grupos y los más pobres. Por el lado

del acceso a los servicios públicos, la situación es aun más grave, como lo revela la

caída del porcentaje de niños que ha recibido vacunación completa en todos los

grupos de ingreso, siendo esta más pronunciada en la población más pobre, lo que

nuevamente ha significado una mayor distancia social.

Ejemplo de cómo se interpreta una tabla

FUENTE: INEI – Encuesta Demográfica y de Salud Familiar, 1992-2000

La presentación de los datos se realizafundamentalmente utilizando dos métodos: elmétodo tabular y el método gráfico.

Método tabular

Consiste en una presentación resumida de lainformación usando tablas. Si se utilizantablas debe prestarse atención a los treselementos que la constituyen: el título, la tablapropiamente dicha y las notas aclaratorias.


El título.- Es un enunciado breve e informativoacerca del contenido de la tabla, un buen títulodebe contestar a las siguientes preguntas:

¿Qué contiene la tabla?

¿Cómo se presenta este contenido?

¿De dónde se presenta (lugar)?

¿Cuándo se obtuvo la información (fecha)?

Ejemplo: Treinta pacientes con cáncer pulmonarprovenientes de cuatro distritos fueron atendidosen el Hospital de Talara en el 2008.


Tabla 2. Pacientes con cáncer pulmonar según distrito

de procedencia. Hospital de Talara-Piura. 2008

Distrito Número %

Talara 11 36,7

El Alto 6 20,0

Los Órganos 7 23,3

Lobitos 6 20,0

Total 30 100,0

Fuente: Archivo del Departamento de Estadística del Hospital de

Talara - Piura 2008


Tabla 3. Pacientes con cáncer pulmonar según distrito

de procedencia y sexo. Hospital de Talara-Piura. 2008

Fuente: Archivo del Departamento de Estadística del Hospital de

Talara - Piura 2008

Sexo

Distrito

TOTALTalara El Alto

Los

ÓrganosLobitos

Femenino 4 3 2 1 10

Masculino 7 3 5 5 20

TOTAL 11 6 7 6 30


Las notas aclaratorias son toda información

adicional que facilita la interpretación de la tabla

y para enterarse de donde se obtuvo la

información presentada, es decir la fuente. En las

Tablas 1, 2 y 3 la nota aclaratoria es la fuente.

Un aspecto importante de una tabla de doble

entrada (tabla de contingencia) es el cálculo de

los porcentajes, estos deben calcularse tomando

como 100% el total de cada categoría o intervalo

de la variable independiente.


Tabla 4. Amas de casa según costumbre de cocinar con

leña y presencia de EPOC *. Hospital Hipólito Unanue.

Lima.2008

EPOC*

Cocina con leña

TotalSiempre A veces Nunca

n % n % n % n %

Si 50 67,0 20 24,0 10 7,0 80 27,0

No 25 33,0 65 76,0 130 93,0 220 73,0

Total 75 100,0 85 100,0 140 100,0 300 100,0

* Enfermedad pulmonar obstructiva crónica

Fuente: Servicio de neumología del Hospital Hipólito Unanue.


Frecuencia %

Sexo del

entrevistado

Femenino134 52.5%

Masculino121 47.5%

Total255 100.0%

Tabla 5: Pacientes que acuden al hospital de

Tarapoto según sexo, 2006

En SPSS:

Analizar/Tablas/Tablas personalizadas/ Aceptar/Seleccionar la

variable que se desea estudiar/ pasarla Aceptar

Tablas simples en SPSS

Fuente: Encuesta a pacientes

Construir una tabla de frecuencia de la variable sexo


Para desarrollar los temas siguientes abrir la data proporcionada en clase: Hospital

Tarapoto.sav

Tablas agrupadas para variables cuantitativas

En la siguiente tabla se presentará la edad de los pacientes, siendo esta

una variable cuantitativa se formaran intervalos de clase

Regla general para la construcción de intervalos.

Determinación del rango (R): R = Xmáx - Xmín

Determinación del número de intervalos de clase (I): I = 1+3.32*log(n)

Amplitud del intervalo (A): A=R/I

Determinación de los límites de clase: LCI – LCS

Sin embargo, para formar los intervalos de clase, generalmente el

investigador usa su criterio y/o generalmente la variable ya tiene intervalos

definidos.


Transformar/recodificar/en distintas variables/ seleccionar la

variable y pasarla a Var. Numérica Var. de resultado haciendo

clik en /poner nombre en Variable de resultado/hacer clik en

cambiar/valores antiguos y nuevos/clik en rango (poner los

intervalos de clase)/valor nuevo (1)(el número de

intervalo)/añadir/continuar/aceptar

Ejercicio: Agrupar la variable edad en los siguientes intervalos: (menor de

18=menor de edad, de 18 – 60=adulto, mayor de 60=adulto mayor)

Agrupar variable en SPSS:

Tabla 6. Pacientes que acuden al hospital de Tarapoto según

grupos de edad, 2006

Tablas agrupadas

Fuente: Encuesta a pacientes

Práctica:

Recodificar la variable edad en 4 intervalos: Menor de edad, jóvenes,

adultos y adulto mayor

Grupos de edad Intervalos Frecuencia Porcentaje

Porcentaje

acumulado

Menor de edad Menor de 18 26 10.20 10.20Adulto 18 - 60 180 70.59 80.78Adulto mayor Mayor 60 49 19.22 100.00Total 255 100


En SPSS: Analizar/Estadísticos descriptivos/Tablas de contingencia/Seleccionar

la variable y pasarla a fila, otra a columna haciendo clik en /Casillas: se puede

seleccionar reportes de porcentajes/Continuar/ Aceptar

Tabla 7. Opinión del paciente que acude al hospital de Tarapoto según sexo

Tablas de contingencia

Ejercicio: Construir una tabla de contingencia con las variables

“recomendaría al hospital de Tarapoto” y grupos de edad

Es el análisis de variables categóricas, donde las filas y las columnas de una tabla

están formadas por las categorías de dos variables.

Se construyen tales tablas porque ellas muestran el comportamiento de las respuestas

a preguntas con datos nominales u ordinales. Igualmente se estudia la relaciones

entre dos o tres variables categóricas.

¿Recomendaría el Hospital de

Tarapoto?

Sexo del entrevistado

TotalFemenino Masculino

si Frecuencia 84 81 165

% de Sexo 62.7 66.9 64.7

no Frecuencia 50 40 90

% de Sexo 37.3 33.1 35.3

Total Frecuencia 134 121 255

% de Sexo 100 100 100


¿Acudiría nuevamente al Hospital de Tarapoto?

Frecuencias Total

FemeninoSi 65 25.5

No 69 27.1

MasculinoSi 48 18.8

No 73 28.6

Total 255 100%

Tabla 8. Frecuencia de asistencia al hospital de Tarapoto

según sexo de los entrevistados, 2006

En SPSS: Analizar/Tablas/Tablas personalizadas/Aceptar/Seleccionar

las variables y pasarlas /Aceptar

Fuente: elaboración propia

Tablas apiladas

Ejercicio: Construir una tabla apilada con las variables “acudiría

nuevamente al hospital de Tarapoto” y “sexo”


Un gráfico estadístico es la presentación de la información por medio de

figuras geométricas. El objetivo primordial de un gráfico es dar una

impresión visual de conjunto para una rápida y fácil comprensión. Es

importante considerar el titulo de la figura, especificar las escalas, la leyenda

y determinar la figura adecuada a la información.

Tipos de gráficosPara variables categóricas: (sexo, estadio TNM, profesión, etc.) se quiereconocer la frecuencia y el porcentaje del total de casos que caen en cadacategoría.

• Gráfico de barras:Simples Una variable, también cuando la variable escuantitativa pero discretaAgrupadas Dos variablesApiladas Dos variables

• Gráfico de sectores circulares Una variablePara variables cuantitativas:

• Histogramas• Líneas• Tallo y hojas• Cajas (combinación de cuantitativa y cualitativa)


En SPSS: Gráficos/Generador de gráficos/Aceptar/seleccionar el

tipo de gráfico/pasar la variable al eje correspondiente/aceptar


Gráficos para variables categóricas

Barras: Para representar variables cualitativas. Representa hechos o

fenómenos sin continuidad. Las categorías pueden representar distintos

aspectos, no ordenados de una característica.

Figura 1. Opinión de los pacientes que acuden al hospital Tarapoto, 2006

Cuando se ha clasificado la información según dos variables.

Figura 2. Opinión de los pacientes acerca de la calidad de los alimentos

según sexo, Hospital Tarapoto, 2006

Barras agrupadas

En SPSS. Gráficos/cuadro de diálogos antiguos/barras/apiladas/

definir/continuar los pasos según observa la figura


Barras apiladas

Figura 3. Opinión de los pacientes acerca de la calidad de los alimentos

según sexo, Hospital Tarapoto, 2006

Barras apiladas


Gráfico de sectores o circulares

Para representar una variable cualitativa cuyo principal interés

es conocer su frecuencia relativa.

Figura 4. Percepción del paciente según trato

que recibió de la enfermera, Hospital Tarapoto,

2006

En SPSS. Gráficos/cuadro de

diálogos antiguos/ sectores/

resúmenes para grupos de

casos/ definir sectores por/

pasar la variable de interés/

resaltar % de casos/aceptar

Gráficos para variables cuantitativas:

HistogramaGráfico utilizado para representar las frecuencias absolutas o relativas

mediante rectángulos, adyacentes teniendo como base los respectivos límites

reales de los intervalos de clase y la altura igual a la frecuencia respectiva.

Figura 5. Pacientes que acuden al

hospital de Tarapoto según edad, 2006

En SPSS.

Gráficos/cuadro de diálogos

/histograma/pasar la variable

de interés/mostrar curva

normal/aceptar

Histograma

Figura 6. Edad de los pacientes que acuden al hospital de

Tarapoto según sexo, 2006

En SPSS.

Gráficos/cuadro de diálogos/pasar la variable de interés a: variable / a panel

por filas (pasar la variable sexo)/aceptar

Polígono de frecuencias o Líneas

Cuando se tiene una variable cuantitativa continua y en

especial que se mida a través del tiempoFigura 7. Nº de veces que los pacientes

recibieron un servicio, Hospital Tarapoto, 2006

En SPSS.

Gráficos/cuadro de diálogos

/líneas/pasar la variable de

interés a eje de

categorías/resaltar porcentaje

de casos/aceptar

Diagrama de caja

Esta herramienta permite estudiar la simetría de los datos y detectar

valores atípicos (outliers). Este gráfico divide los datos en cuatro áreas de

igual frecuencia. La caja central (donde se encuentra el 50% central de los

datos) tiene una línea vertical (u horizontal) en el interior de la caja que

indica la mediana (si esta línea está en el centro en el centro de la caja hay

simetría). Partiendo del centro de cada lado vertical (u horizontal) de la caja

se dibujan los bigotes. El bigote de la izquierda (o inferior) tiene su extremo

en el valor más cerca de Q1 – 1,5*RIC, mientras que el bigote de la derecha

(o superior) tiene su extremo en el valor más cerca de Q3 + 1,5*RIC. Se

consideran atípicos (outliers) los valores mayores a Q3 + 1,5*RIC y

menores a Q1 – 1,5*RIC y se consideran atípicos extremos los mayores a

Q3 + 3*RIC o menores a Q1 – 3*RIC (en SPSS se representan por o y x,

respectivamente)

Recordar que.

Q1= cuartil uno o percentil 25.

Q3 = cuartil tres o percentil 75.

RIC = rango intercuartílico = Q3 - Q1.

Escala

Q1 Q3mediana

MaxMin

Diagrama de caja

Diagrama de caja

Se usa para comparar muestras, mediante los cuantiles.

Figura 8. Nº de veces que los pacientes recibieron

un servicio según sexo, Hospital Tarapoto, 2006

En SPSS. Gráficos/cuadro de

diálogos antiguos/diagramas de

caja/Simple/resaltar

Resúmenes para grupos de

casos/ pasar la variable de

interés a eje de categorías

pasar la variable sexo/aceptar

N° de veces que asistió a recibir un servicioStem-and-Leaf Plot

Frequency Stem & Leaf

25.00 1 . 000000000000

43.00 2 . 000000000000000000000

51.00 3 . 0000000000000000000000000

39.00 4 . 0000000000000000000

29.00 5 . 00000000000000

12.00 6 . 000000

16.00 7 . 00000000

20.00 8 . 0000000000

4.00 9 . 00

4.00 10 . 00

8.00 11 . 0000

4.00 12 . 00

Stem width: 1

Each leaf: 2 case(s)

Se usa para observar la variable en su forma original, muestra los valores

extremos y atípicos.

Gráfico de Tallo y Hojas

Figura 9. Nº de veces que los pacientes recibieron un servicio. Hospital

Tarapoto, 2006


Se usa para comparar intervalos de confianza entre muestras.

En SPSS: Gráficos/cuadro de diálogo antiguo /barras de error/simple/definir/pasar

la variable de interés/al eje de categorías pasar la variable a contrastar/aceptar

Barras de error


Barras de error

Figura 10. Pacientes que acuden al hospital de Tarapoto según edad y sexo, 2006

Las barras de error, nos permiten identificar la variabilidad de la medida empleada

como función de resumen en el gráfico (ya sea la media, desviación estándar,

etc). La estructura del gráfico se basa en un punto central que identifica el valor de

la media, la cual se ubica en una línea vertical; la longitud de la línea (barra de

error) indica un intervalo de confianza (porcentaje de los datos) o un número

especificado de errores.


Barras de error

Figura 11. Pacientes que acuden al hospital de Tarapoto según edad y opinión

acerca de la calidad de los alimentos, 2006


Mg. Rosa Padilla

Figura 12. Salario actual según sexo y clasificación de minorías de un grupo

de empleados del banco “x”

Barras de error

Parámetro: Es una cantidad numérica calculada sobre una población

› El colesterol promedio en varones menores de 30 años de los individuos de un país

La idea es resumir toda la información que hay en la población en unos pocos números (parámetros).

Estadístico: Es una cantidad numérica calculada sobre una muestra

› El colesterol promedio en varones menores de 30 años de los que estamos en este aula.

Somos una muestra (¿representativa?) de la población.

› Si un estadístico se usa para aproximar un parámetro también se le suele llamar estimador.

Normalmente nos interesa conocer un parámetro, pero por la dificultad que conlleva estudiar a *TODA* la población, calculamos un estimador sobre una muestra y “confiamos” en que sean próximos. Más adelante veremos como elegir muestras para que el error sea “confiablemente” pequeño.



Nominal Ordinal Escala

Definición Categorías no

ordenadas

Categorías

ordenadas

Métrica-valores numéricos

Ejemplos Género, estado

civil,

procedencia

Nivel de

satisfacción, rango

de edades

Edad, peso, talla, ingreso

Medida de

tendencia central

Moda Moda y mediana Moda, mediana, media aritmética

Medida de

dispersión

Min/max/Rango/RIC Min/max/Rango/RIC/desviación

Gráficos Sectores/Barras Barras/sectores Histograma/líneas/cajas/Tallo y

hojas/diagrama de dispersión

Procedimientos Frecuencias/% Frecuencias/% Frecuencias/descriptivos

Medidas de resumen en SPSS



Centralización

› Indican valores centrales en que los datos parecen

agruparse.

Media, mediana y moda

Dispersión

› Indican la mayor o menor concentración de los

datos con respecto a las medidas de centralización.

Desviación típica, coeficiente de variación, rango,

varianza, rango intercuartil

Posición (cuantiles)

› Dividen un conjunto ordenado de datos en grupos

con la misma cantidad de individuos.

Percentiles, deciles, cuartiles, ...

Forma

› Asimetría

› Apuntamiento o curtosis


En SPSS: Analizar/Estadísticos

descriptivos/frecuencias/Selec-

cionar la variables y pasarla a

variables haciendo clik en

/Estadísticos: seleccionar

todas las medidas de resumen

que se desee/Continuar/

Aceptar.

Ejercicio: Hallar las medidas de

resumen para la variable edad.

Estadísticos

edad

N Válidos 255

Perdidos 0

Media 44.83

Mediana 46.00

Moda 40.00

Desv. típ. 18.34

Varianza 336.5

Asimetría -0.06

Error típ. de asimetría 0.15

Curtosis -0.30

Error típ. de curtosis 0.30

Mínimo 86.00

Máximo 3.00

Percentiles 25 33.00

35 39

50 46

75 57

Medidas de tendencia central

Media: Muestra el centro de gravedad de los datos.

Se usa cuando la población es homogénea

Datos simples

n

xx

Mediana: Divide a los datos en dos partes iguales.

Se usa cuando la población es heterogénea.

Datos simples: Se ordena los datos y se toma el

valor central si la serie es impar, o la semisuma de

los dos datos centrales si la serie es impar.

Moda: Muestra el valor más frecuente de los datos


Altura mediana

Medidas de tendencia central


Cuartiles: Divide a los datos en 4 partes iguales

Deciles: Divide a los datos en diez partes iguales

Percentiles: Divide a la información en 100 partes

iguales

Medidas de posición: Cuantiles

Se define el cuantil de orden como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada

Casos particulares son los percentiles, cuartiles, deciles, ...


Medidas de posición: Cuantiles

Ejemplos (si estuviéramos analizando la variable peso en recién nacidos y la variable

colesterol en adultos)

› El 5% de los recién nacidos tiene un peso demasiado bajo. ¿Qué peso se considera “demasiado bajo”?

Percentil 5

› ¿Qué peso es superado sólo por el 25% de los individuos?

Percentil 75

› El colesterol se distribuye simétricamente en la población. Se considera patológico los valores extremos. El 90% de los individuos son normales ¿Entre qué valores se encuentran los individuos normales?

Entre el percentil 5 y el 95

› ¿Entre qué valores se encuentran la mitad de los individuos “más normales” de una población?

Entre el cuartil 1º y 3ºMg. Rosa Padilla Castro

¿Qué edad no llega a alcanzar el 25% de los individuos?› Primer cuartil = percentil 25 = 33 años.

¿Qué edad es superado por el 25% de los individuos?› Tercer cuartil= percentil 75= 57 años.

¿Entre qué valores se encuentra el 50% de los individuos con una edad “más normal”?› Entre el primer y tercer cuartil = entre 33 y 57

años

› Observar que indica cómo de dispersos están los individuos que ocupan la “parte central” de la muestra. Ver más adelante rango intercuartílico.

› Los diagramas de caja („boxplot‟) sintetizan esta información (y algo más).


Estadísticos

edad

Percentiles 25 33.00

50 46.00

75 57.00

Medidas de dispersión

Miden el grado de dispersión (variabilidad) de los

datos, independientemente de su causa.

Varianza:

Es una medida teórica, muestra la variabilidad al

cuadrado.

En una muestra:

Datos simples

Datos agrupados

1

)( 22

2

n

xnxs

1

)(22

2

f

xnfxs

En la población:

N

Nx 22

2)(


Desviación típica:

Muestra la dispersión de los datos respecto a la media.

A una distancia de una desviación típica de la media tendremos

68% observaciones.

A una distancia de dos desviación típica de la media tendremos 95%

observaciones.

Coeficiente de variación: Es la dispersión relativa de datos. Permite

comparar variabilidad entre muestras en donde las unidades son

diferentes.

Rango intercuartílico:Es la distancia entre el primer y tercer cuartil.

RI= P75 - P25

Parecida al rango, pero eliminando las observaciones más extremas inferiores y superiores. No es tan sensible a valores extremos.

2ss

100.%x

scv

Medidas de dispersión


Centrado en la media y a una desviación típica de distancia tenemos más de la mitad de las observaciones (izquierda)

A dos desviaciones típicas las tenemos a casi todas (derecha.)


Medidas de forma

Asimetría: Permite identificar hacia donde se acumula la

información.

Sí: As 0 La distribución es simétrica

As > 0 La distribución es positiva (Sesgo positivo)

As < 0 La distribución es negativa (Sesgo

negativo)

Es una cantidad adimensional. Interesante para comparar la

variabilidad de diferentes variables.Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan más dispersión en peso que en altura


Una distribución es simétrica si la mitad izquierda de su distribución es la imagen especular de su mitad derecha.

En las distribuciones simétricas media y mediana coinciden. Si sólo hay una moda también coincide

La asimetría es positiva o negativa en función de a qué lado se encuentra la cola de la distribución.

La media tiende a desplazarse hacia las valores extremos (colas).

Las discrepancias entre las medidas de centralización son indicación de asimetría.Mg. Rosa Padilla Castro

Medidas de forma

Apuntamiento (Coeficiente de Kurtosis): Indica el

grado de apuntamiento (aplastamiento) que tiene la

distribución con respecto a la distribución normal o

gaussiana.

Si k 0,263, diremos que la curva

correspondiente a la distribución de

frecuencias es mesocúrtica (tiene igual

apuntamiento que la normal o

campana de Gauss)

si k < 0,263, diremos que la curva


frecuencias es platicúrtica

si k > 0,263, diremos que la curva


frecuencias es leptocúrtica


Platicúrtica

8481787572696663605754514845

Fre

cu

en

cia

160

140

120

100

80

60

40

Leptocúrtica

138

108

102

97

92

87

82

77

72

67

62

57

52

47

42

37

32

27

16

3F

recu

en

cia

400

300

200

100

0

Mesocúrtica

99

93

89

85

81

77

73

69

65

61

57

53

49

45

41

37

32

27

Fre

cu

en

cia

300

200

100

0

Las medidas de resumen numérico

empleadas para variables cualitativas son:

Proporción (prevalencia)

Razón (muertes fetales/nacidos vivos)

Tasa (incidencia)


Medidas de resumen para variables

cualitativas

Es el cociente entre el número de elementosde un subconjunto y el número de elementosdel conjunto al que pertenece dichosubconjunto. En este caso el numerador estáincluido en el denominador, por este motivolos valores siempre van a ser menores que launidad.

Por ejemplo, si en la población hubo 175casos de cáncer pulmonar de un total de1925 casos de todos los tipos de cáncer, laproporción se calculará.

175 / 1925 = 0.09Mg. Rosa Padilla Castro

Proporción

Es el cociente entre dos cifras de diferentes osimilar naturaleza en donde el numerador y eldenominador son excluyentes.

Por ejemplo, si tenemos 380 camashospitalarias y 95 enfermeras y queremosencontrar la razón entre ellas, tenemos quedividir:

380 camas hospitalarias / 95 enfermeras = 4

camas/enfermera

Este número constituye un valor que refleja unarelación. Indica que por cada enfermera haycuatro camas hospitalarias.

Razón


Posición País

Tasa de

mortalidad

(muertes/

1000

habitantes)

3 Sudáfrica 22.7

11 Afganistán 19.56

15 Nigeria 16.41

18 Rusia 16.06

20 Ucrania 15.93

23

Costa de

Marfil 14.65

26 Bulgaria 14.3

29 Bielorrusia 13.92

39 Camerún 12.41

41 Congo 12.28

1000*N

Dd

ZVI30

ZZ

dZ : La tasa bruta de mortalidad en el año Z

DZ : Número total de fallecimientos ocurridos en el año Z.

N30 – VI – Z : Población total a mitad del año Z (30 de junio de

dicho año).


Tasa

Menores

Puesto País

Tasa de

mortalidad

(muertes/

1000

habitantes)

155 Perú 6.16

186 Venezuela 5.1

187 Egipto 5.09

192 México 4.78

199 Singapur 4.53

201 Paraguay 4.49

204 Nicaragua 4.33

205 Costa Rica4.31

207 Ecuador 4.21

220

Emiratos

Árabes

Unidos 2.13

1000*N

Dd

ZVI30

ZZ

dZ > 6.16Así, se puede

afirmar que en

2008, por cada

Mil fallecieron un

poco más de 6

personas.

DZ > 179,754

N30 – VI – Z> 29,180,899


Tasa

http://indexmundi.com/es/gaza_strip/

Mayorespuesto

s

País

Tasa de

natalidad

(nacimientos/1

000

habitantes)

4 Afganistán 45.82

9

República

del Congo 43

19 Nigeria 39.98

25 Madagascar 38.38

41 Camerún 34.59

44

Costa de

Marfil 34.26

49 Iraq 30.77

52 Nepal 29.92

56 Guatemala 28.55

58 Paraguay 28.47

1000N

Bb

ZVI30

ZZ

bZ : La tasa bruta de natalidad en el año Z

BZ : Número total de nacimientos vivos ocurren en el año Z.

N30 – VI – Z : Población total a mitad del año Z (30 de junio de dicho

año).


Tasa

1000N

Bb

ZVI30

ZZ

bZ = 19.77Este valor indica

que en 2008,

ocurrieron en el

Perú 19.77

nacimientos por

cada mil habitantes.

BZ = 576,906

N30 – VI – Z = 29,180,899

Puesto País

Tasa de

natalidad

(nacimiento

s/1000

habitantes)

108 Perú 19.77

205 Grecia 9.54

208 Taiwán 8.99

209 Singapur 8.99

211

República

Checa 8.89

215 Austria 8.66

217 Italia 8.36

219 Alemania 8.18

220 Japón 7.87

221

Hong

Kong 7.37


Tasa

68

Trabajo de aplicación grupal

Con la base de datos “Hospital Tarapoto” construir e interpretar:

1. Una tabla simple

2. Una tabla agrupada con la variable frecuencia de asistencia

3. Una tabla de contingencia

4. Una tabla apilada

5. Dos gráficos para variables cualitativas

6. Dos gráficos para variables cuantitativas

7. Un gráfico de cajas con la variable frecuencia de asistencia y

edad recodificada

8. Calcular todas las medidas de resumen para la variable

frecuencia de asistencia

Mg. Rosa Padilla

ObjetivoSupuestos

básicos-

prueba

paramétrica

Prueba

paramé-

trica

Supuestos

básicos-

prueba no

paramétrica

Prueba no

paramétrica

Estudios de una sola

muestra

Estimación de la

media ( )

Estimación de la

proporción ( )

Prueba de hipótesis

para ( )

Prueba de hipótesis

para ( )

Bondad de ajuste

Normalidad

Se conoce

Se

desconoce

“t” de

Student

“Z ”

“t” de

Student

“Z ”

Libre

distribución

Kolmogorov,2

Mg. Rosa Padilla

ObjetivoSupuestos

básicos-prueba

paramétrica

Prueba

paramé-

trica

Supuesto

s no

paramét

rica

Prueba no

paramétrica

Comparación de dos muestras independientes

Diferencias de

promedios

Independencia (2x2)

Independencia (rxc)

Nominal por nominal

Ordinal por ordinal

Nominal x intervalo

Acuerdo entre 2 jueces

Numérica y categórica

Normalidad

Homogeneidad

“t” de

Student

para

grupos

independi

entes

Libre

distribuci

ón

U de Mann-

Whitney

Fisher,

Coeficiente Phi

sin corregir

Coeficiente de

contingencia

V de Cramer

Coeficiente de

incertidumbre

Gamma, d de

Somers; Tau-b de

Kendall

Eta

Kappa

Mediana

2

Mg. Rosa Padilla

ObjetivoSupuestos

básicos-

prueba

paramétrica

Prueba

paramé-

trica

Supuestos

básicos-

prueba no

paramétrica

Prueba no

paramétrica

Estudios de 2 muestras relacionadas

Diferencia de

muestras relacionadas

Antes / después

Normalidad “t” para

muestras

relaciona

das

Libre

distribución

Útil para

evaluar el

cambio en

dos

momentos-

diseños

antes/despu

és

Wilcoxon

Signos

McNemar(respuestas dicotómicas)

Homogeneid

ad marginal (respuestas

multinomiales)

Mg. Rosa Padilla

ObjetivoSupuestos

básicos-

prueba

paramétrica

Prueba

paramé-

trica

Supuestos

básicos-

prueba no

paramétrica

Prueba no

paramétrica

Estudios con más de 2 muestras

Muestras

independientes:

Diferencia de

promedios

Numérica y ordinal

Muestras relacionadas

Variables numéricas

Homogeneidad

(dicotómica)

Concordancia

Normalidad

Homogenei

dad ANOVA

ANOVA

bloques

aleatorios

Libre

distribución Kruskal

Wallis

Mediana

Friedman

Q de

Cochran

W de

Kendall

Mg. Rosa Padilla

ObjetivoSupuestos

básicos-

prueba

paramétrica

Prueba

paramé-

trica

Supuestos

básicos-

prueba no

paramétrica

Prueba no

paramétrica

Análisis correlacional

Entre dos variables :

Ambas numéricas

Ambas ordinales

Ambas nominales

Análisis de

los errores

Tamaño de

muestra

grande

Regresión

/ r de

Pearson

Libre

distribución

(numérica u

ordinal)

R de

Spearman

Tau-b de

Kendall

Riesgo

relativo

Odds ratio

Mg. Rosa Padilla

ObjetivoSupuestos no paramétrica Prueba no

paramétrica

Estudios con dos muestras independientes

Diseños prospectivos o

de cohortes (hacia

adelante)

Diseños retrospectivos

o de caso control (hacía

atrás)

Se establecen dos grupos de sujetos

a partir de la presencia o ausencia de

una condición que se considera

desencadenante y se hace

seguimiento hacia adelante para

determinar en que proporción de

sujetos de cada grupo se produce un

determinado desenlace

Se forman dos grupos de sujetos a

partir de alguna condición de interés,

se va hacía atrás buscando la

presencia de algún factor

desencadenante

Riesgo relativo (Rr)

Odds ratio

Mg. Rosa Padilla

Métodos de análisis

multivariante

Pruebas

multivariantes

I. Método predictivo

Regresión lineal múltiple

Análisis de covarianza

Análisis de varianza

Regresión logística

múltiple

Análisis discriminante

II. Métodos reductivos

Componentes

principales

Análisis factorial

Correlación canónica

Análisis cluster

Análisis de

correspondencia


Población: Nx

Muestra: n

Inferencia

Representatividad (tipo de muestreo)

Tamaño de muestra

Estimación de

parámetros

Pruebas de hipótesis

2

2S

Probabilidades

Inferencia

Los métodos estadísticos inferenciales

constituyen una forma de extraer conclusiones

respecto a una población, de los datos

obtenidos de una muestra.

La inferencia estadística comprende dos tipos

principales de técnicas: Estimación de

parámetros y contrastación de hipótesis.

Independientemente de la técnica que se utilice,

la finalidad general es utilizar datos de una

muestra para extraer conclusiones respecto a

una población.

Estimación de parámetros

Las técnicas de estimación son utilizadas cuando el

investigador no tiene hipótesis previa respecto al valor

de una característica de la población y desea conocer

cuál podría ser tal valor.

La estimación puede asumir 2 formas:

• Estimación puntual

• Estimación por intervalos


Estimación puntual

n

x = x = i

(A) Estimación Puntual para la media poblacional.

Se halla mediante las siguientes fórmulas.

n

xnx = s

2

1

)( 22

2

(B) Estimación Puntual para la varianza poblacional.

Se halla mediante las siguientes fórmulas.


Estimación de parámetros

Estimación por intervalos

La estimación por intervalos de un parámetro nos

indica límites dentro de los cuales el parámetro

tiene la probabilidad especificada de estar. Los

estimados por intervalos se conoce como

intervalos de confianza y los límites inferior y

superior como los límites de confianza.

P( - k + k ) = 1 -


Mg. Rosa Padilla CastroMg. Rosa Padilla Castro

En muchos problemas, los datos de sólo una parte

de la población (muestra), pueden dar la

información necesaria para tomar una decisión o

probar una hipótesis referente a la población o

universo.

El objetivo del muestreo es seleccionar una muestra

que sea representativa de la población. Para esto, se

debe determinar el método adecuado de selección,

el tamaño correcto de la muestra y la técnica de

estimación de las características de la población en

base a la muestra.


DISEÑO MUESTRAL

Definición de la población a estudiar

Determinación del marco muestral

Fijación de las unidades de muestreo

Tipo de muestreo

Cálculo del tamaño de muestra

(confiabilidad y error de estimación)

Determinación de los niveles de

inferenciaMg. Rosa Padilla Castro

84

Marco muestral: es el listado de

unidades del cual se seleccionará una

muestra.

Unidades del

Marco

Muestral

Unidades de la

Población≠

Por ejemplo: En una encuesta de hogares, si bien el objeto de

estudio es la población, el marco muestral esta conformado por las

unidades habitacionales, las manzanas o las viviendas.

CONTIENE

85

¿Por que muestrear?

› La naturaleza destructiva de ciertas pruebas: Los catadores de vino,

Quienes prueban la calidad de una semilla

› La imposibilidad de revisar todos los integrantes de la población: poblaciones de aves, peces, mosquitos, en constante

movimiento.

Incluso los humanos: migran, nacen, mueren

› El costo de estudiar a todas las unidades de una población es prohibitivo

› La muestra genera información útil a bajo costo:

› Tiempo consumido para entrevistar a la totalidad de una población.


86

NIVEL TECNICO

¿Cuál será el tamaño

adecuado de mi muestra para

que sea representativa?

•Tomar el 5% o 10% de los

casos.

•Tomar 100, 400 o 1000

casos.

NIVEL ECONOMICO

¿Cuál es la cantidad de error

que su presupuesto puede

pagar?

• Solicitar más

presupuesto.

• Dejar de hacer otras

actividades para

realizar la encuesta.


87

Muestra al azar

EDAD Media = 47 EDAD Media = 48.5

Población

DIFERENCIA =1.5

=

Error de

estimación


88

Universo de

estudio

Variables de

interésNo probabilístico

Parámetros a

investigar

Muestreo por

cuotas

Muestreo por

conveniencia

Muestreo

bola de nieve

Tipos de Muestreo

Muestreo

polietápico

Muestreo

sistemático

Muestreo

estratificadoMuestreo aleatorio

simple

Muestreo

conglomerados

n

Margen de error

Probabilístico

Muestreo

a juicio de expertos

Condiciones básicas

La muestra debe ser representativa

› Tipo de muestreo

La muestra debe ser adecuada

› Tamaño optimo


• Para elegir una muestra de individuos o elementos de una población de estudio, tenemos dos posibilidades de llevar acabo:

– Muestreos probabilísticos• Conocemos la probabilidad de que un individuo o elemento sea

elegido para la muestra.

• Interesantes pues sus resultados se pueden extrapolar a la población de estudio con un mínimo sesgo de error y un grado de confianza asumido por el investigador.

– Muestreos no probabilísticos• No se conoce la probabilidad.

• Son muestreos que seguramente esconden sesgos.

• En principio no se pueden extrapolar los resultados a la población.– A pesar de ello una buena parte de los estudios que se publican usan

esta técnica.

• En adelante vamos a tratar exclusivamente con muestreos con la menor posibilidad de sesgo (probabilísticos)

Tipos de muestreo


Muestreo aleatorio simple (m.a.s.)

• Se eligen individuos de la población de estudio, de manera que todos tienen la

misma probabilidad de aparecer, hasta alcanzar el tamaño muestral deseado.

• Se puede realizar partiendo de listas de individuos de la población, y eligiendo

individuos aleatoriamente con un ordenador o una tabla de números aleatorios.

• Normalmente tiene un costo bastante alto su aplicación.

• En general, las técnicas de inferencia estadística suponen que la muestra ha

sido elegida usando m.a.s., aunque en realidad se use alguna de las que

veremos a continuación.


Muestreo sistemático

• Se tiene una lista de los individuos de la población de estudio. Si queremos

una muestra de un tamaño dado, elegimos individuos igualmente espaciados

de la lista, donde el primero ha sido elegido al azar.

• CUIDADO: Si en la lista existen periodicidades, obtendremos una muestra

sesgada.

– Un caso real: Se eligió una de cada cinco casas para un estudio de

salud pública en una ciudad donde las casas se distribuyen en

manzanas de cinco casas. Salieron con mucha frecuencia las de las

esquinas, que reciben más sol, están mejor ventiladas,…


Muestreo estratificado

• Se aplica cuando sabemos que hay ciertos factores (variables, subpoblaciones

o estratos) que pueden influir en el estudio y queremos asegurarnos de tener

cierta cantidad mínima de individuos de cada tipo:

– Hombres y mujeres,

– Jóvenes, adultos y ancianos…

• Se divide a la población en estratos y luego se toma la muestra aleatoria de los

individuos de cada uno de los estratos.

• Al extrapolar los resultados a la población hay que tener en cuenta el tamaño

relativo del estrato con respecto al total de la población.


Muestreo por grupos o conglomerados

Se aplica cuando es difícil tener una lista de todos los individuos que forman

parte de la población de estudio, pero sin embargo sabemos que se

encuentran agrupados naturalmente en grupos.

Se realiza eligiendo varios de esos grupos al azar, y ya elegidos algunos

podemos estudiar a todos los individuos de los grupos elegidos o bien

seguir aplicando dentro de ellos más muestreos por grupos, por estratos,

aleatorios simples,…

Ejemplo: Para conocer la opinión de los médicos del sistema nacional

de salud, podemos elegir a varias regiones del país, dentro de ellas

varias ciudades, y dentro de ellas varios centros de salud, y…

Al igual que en el muestreo estratificado, al extrapolar los resultados a la población hay que

tener en cuenta el tamaño relativo de unos grupos con respecto a otros regiones con diferente

población pueden tener probabilidades diferentes de ser elegidas, ciudades, hospitales

grandes frente a pequeños,…


Muestreo no probabilístico

También conocido como muestreo por "conveniencia", no es aleatorio,

método cuyos resultados y estimaciones no son de ninguna manera

confiables, dado que la selección de las unidades que conforman la

muestra no se realiza en forma aleatoria, sino por conveniencia,

primando el juicio del investigador.

En términos generales no se recomienda utilizar el muestreo no

probabilístico en las investigaciones cuantitativas, debido a que por sus

características no permite calcular el error de muestreo (diferencia que

existe entre el verdadero valor de la población y el valor encontrado en la

muestra).


Muestreo a juicio o intencional.

Donde se eligen los elementos que están más al alcance del investigador, o

los que él a su juicio conoce que pueden aportar datos relevantes a su

investigación.

Muestreo por voluntarios.

Donde el informante, voluntariamente suministra información sin ser

seleccionado.

Muestreo por cuotas.

Es un número de entrevistas, encuestas, condiciones o cuotas que se le

fijan al encuestador para que a su vez seleccione los elementos en la forma

que considere oportuno, un ejemplo de esto son las encuestas de opinión

pública, en las que los encuestadores proceden a buscar las personas

hasta cubrir la cuota previamente fijada, sin preocuparse por áreas

geográficas, zonas u otros criterios.

Muestreo bola de nieve

Tipos de muestreo no probabilístico


qpEN

qpN

n..1

..

2

2

2

2

2

Si la población es finita

Proporción

Si la población es infinita

2

2

2

..

E

qp

n

10,00

N

nsi

N

n

nnc

1

TAMAÑO DE MUESTRA: variables cualitativas


98

Promedio

+Zc-Zc

N

10.0N

n

Ajuste de tamaño de muestra:

Si

N

n

nn

10

2

22

e

zn

222

22

)1( zNe

zNn

TAMAÑO DE MUESTRA: variables cuantitativas


Ejemplo de aplicación

Evaluación del Impacto en Programa

“Amigo del Cepillo de Dientes” en los

conocimientos, Actitudes y Practicas en

Alumnos del 4to y 5to de secundaria del

CNMx “1230” de Viña Alta –La Molina



Población. La constituyen 400 alumnos del nivel secundario del CNMx

1230 de Viña Alta que se matricularon el año 2007.

Muestra. La muestra está constituida por 110 alumnos de 4to y 5to de

secundaria del CNMx 1230 de Viña Alta, la selección de unidades se

realizó mediante un Muestreo probabilístico, con un error máximo de

estimación del 8%.

Diseño muestral. La población de estudio se encuentra conformada por

400 alumnos nivel secundario del CNMx 1230 de Viña Alta. Para la

determinación del número de las unidades de análisis se tomó el tamaño

de muestra estratificado por asignación proporcional:



qpeN

qpN

n2

2

2

2

20

1 50.050.096.108.01400

50.050.096.140022

2

0xxx

xxxn

ALUMNOSn 15087.1490

0,08eError de estimación

0.50qProporción de la población que no presenta la

característica

0,50pProporción de población que presenta la

característica

400NTamaño de población

1,96Z=Z(1- α/2)Distribución normal inversa

0,951-αConfianza

N

nsi 0 10.0375.0

400

150

11009.109

400

1501

150

1N

n

nnc

Como el factor de corrección para poblaciones finitas es

mayor que 0.10

entonces se corrige el tamaño de muestra utilizando la

siguiente fórmula:alumnos.

Ejercicio de aplicación

Un hospital dispone de un listado de los

pacientes, organizados por áreas de

atención (neurología, traumatología,....).

Comente en grupo que tipo de muestreo

podría realizarse, y como lo harían.


• Un grupo de especialistas de la Salud, entre ellos Médicos, Enfermeros, Nutricionistas, Psicólogos, están interesados en indagar acerca de la relación que existe entre desnutrición y grado de conocimiento de la población del adulto mayor en cuanto a una alimentación balanceada. Suponga que la población objetivo son todos los barrios marginales del Cono Sur de Lima. Sugiera el tipo de muestreo más conveniente, el tamaño de muestra apropiado, ¿quién es la unidad de análisis?



• Se toma una encuesta de hogares sobre violencia familiar, el objetivo es obtener información acerca de los conocimientos, valores, actitudes y prácticas respecto a la violencia en el ámbito familiar según las percepciones de las mujeres en Lima y Callao, que sirvan de apoyo a la formulación y evaluación de políticas públicas, de iniciativas legislativas y la proposición de programas de prevención que contribuyan a disminuirla. La población de estudio estuvo conformada por las mujeres de 15 a 65 años de edad, residentes habituales en Lima y Callao.

La cobertura geográfica fue 43 distritos de la provincia de Lima y 6 distritos de la provincia constitucional del Callao. Según data del INEI se calcula que en el 1993 los delitos ocurridos (violencia familiar) fue de 532,968. y según el censo nacional la población de mujeres de 15 años y más fue de 4809624.

Determinar el tamaño de muestra.



106

Se precisa conocer cual es la tasa de desnutrición

crónica actual entre los niños menores de 6 años de

una determinada región.

El error máximo permitido para la evaluación es de 3%

y el nivel de confianza 95%.

De un estudio realizado en la región durante el 2000 se

sabe que la tasa de desnutrición crónica fue de 25%.

Determinar el tamaño de muestra necesario para el

estudio



107

Se precisa conocer cual es la tasa de desnutrición crónica actual entre los niños menores de 6 años de una determinada región.

La población de niños en este tramo de edad es aproximadamente de 1352.

El error máximo permitido para la evaluación es de 3% y el nivel de confianza 99%.

De un estudio realizado en la región durante el 2000 se sabe que la tasa de desnutrición crónica fue de 25%.

Determinar el tamaño de muestra necesario para el estudio



Pruebas de hipótesis

Hipótesis: Una Hipótesis estadística es una afirmación

relativa sobre un modelo probabilístico y una prueba de

hipótesis es un método para determinar la posibilidad de

esa afirmación relativa en base a una muestra.

Hipótesis establecidas en esta forma proporcionan con

frecuencia motivo para realizar una investigación. Por esta

razón se le denomina hipótesis de investigación

.

Hipótesis nula (Ho): Son aquellas que están referidas a

algún parámetro de la población o de las poblaciones de

estudio. Estas son llamadas hipótesis científicas.

Hipótesis alternativa (Ha): Junto a la hipótesis nula se debe

formular la denominada hipótesis alternativa que es la que

sirve para contrastarla.Mg. Rosa Padilla Castro

Decisión correcta

El tratamiento no

tiene efecto y así se

decide

Decisión correcta

El tratamiento tiene

efecto y el

experimento lo

confirma

Error de Tipo I (

El tratamiento no

tiene efecto, pero se

decide que si

Error de Tipo II (

El tratamiento si

tiene efecto, pero

no lo percibimos

Ho cierta

No rechazo Ho

Ho falsa

Siempre que se rechaza una Hipótesis nula se corre el riego de cometer un

error del tipo I

Siempre que no se rechaza una Hipótesis nula existe el riego de cometer al

error tipo II )(

)(

Rechaza Ho

La decisión de una prueba estadística está asociada al nivel de significación:

a) Si P < 0.05 ( = 0.05). Se dice que existe significación en la prueba

b) Si P < 0.01 ( = 0.01). Se dice que existe alta significación en la prueba

Errores de prueba y nivel de significación

1.Formular dos hipótesis mutuamente excluyentes

Hipótesis nula (Ho): que especifica valores hipotéticos

para uno o más de los parámetros poblacionales.

Hipótesis alterna (Ha): donde se afirma que el parámetro

poblacional tiene un valor distinto al hipotético, esta se

acepta cuando se rechaza la Ho.

2.Determinar el nivel de significancia a la probabilidad de

cometer un error tipo I pueden ser:

3. Determinar la prueba a utilizar.

05.001.0

Pasos para las pruebas de Hipótesis

10.0


4. Determinar la potencia de la prueba o probabilidad de

aceptar la hipótesis nula.

p-valúe ó sig.

5. Tomar la decisión de aceptar o rechazar la Ho, o nos

abstenemos de tomar la decisión de acuerdo al criterio.La decisión de una prueba estadística está asociada al nivel de

significación ( = 0.05, 0.01)

a) Si P < Se rechaza la hipótesis nula, es decir existe

significación en la prueba

b) Si P >= No se puede rechazar la hipótesis nula, es decir no

existe significación en la prueba

6. Formular las conclusiones finales.

Pasos para las pruebas de Hipótesis



unilateral

bilateralHa

H

o

o

o

oo

.:

:

Hipótesis relativa a una media

o

o

/2/2

Nivel de significancia: 01.0

05.0

Supuestos para pruebas paramétricas

Normalidad

H0: La variable se distribuye

normalmente

Sig = .200 >.05

Decisión: No se puede rechazar H0

Por lo tanto concluimos que la variable

sigue una distribución normal

Kolmogorov-Smirnov(a) Shapiro-Wilk

Estadísti

co gl Sig.

Estadísti

co gl Sig.

edad .035 255 .200(*) .992 255 .214

Valor observado

100806040200-20

No

rmal e

sp

era

do

3

2

1

0

-1

-2

-3

Gráfico Q-Q normal de edad

En SPSS: Analizar/estadísticos descriptivos/explorar/gráficos (continuar según

figura al pie)

Ejercicio: probar si la variable edad sigue una

distribución normal

Prueba t para una muestra

H0: = 0

vs.

Ha: 0

Se determina el nivel de significación , y si el

valor resultante es menor o mayor se rechaza

la hipótesis nula

Para cada variable a contrastar se calcula, la

media, desviación típica y error típico de la

media. La diferencia promedio entre cada

valor de los datos y el valor de contraste

hipotético.

Contrasta si la media de una variable difiere

de una constante especifica.



En SPSS:

Una media poblacional: Analizar/Comparar medias/Prueba t para una

muestra/seleccionar la variable a probar, pasarla a contrastar variables

haciendo clik en /Valor de prueba: poner el valor del parámetro a

probar/Opciones: cambiar la confianza/Continuar/Aceptar

Ejm. Probar, si los pacientes asisten a recibir algún servicio al hospital más de 4

veces por año: Ho: 4

Ha: > 4



Reporte en el SPSS

N Media Desviación típ.

Error típ. de la

media

Nº de veces que asistió a recibir un servicio

255 4.40 2.692 0.169

Valor de prueba = 4

t gl

Sig.

(bilateral)Diferencia de

medias

95% Intervalo de

confianza para la

diferencia

Inferior Superior

Nº de veces que asistió a recibir un servicio 2.349 254 0.020 0.396 0.064 0.728

Decisión: Dado que el valor p o sig es menor que el 5%, rechazamos la Ho, por

lo tanto al nivel de significancia del 5% se puede afirmar que los pacientes

acuden al hospital en promedio más de 4 veces por añoMg. Rosa Padilla Castro


PoblaciónN1

Muestran1

PoblaciónN2

Muestran2

Comparación

Muestras independientes

Prueba t para muestras independientes

Prueba t para muestras independientes

H0: 1 = 2

vs.

Ha: 1 2

Se base en el tamaño de la

muestra, media, desviación típica

y error típico. Adicionalmente, se

realiza la prueba de Levene sobre

la igualdad de varianzas.

Compara las medias de dos

grupos de casos. Para esta

prueba, idealmente los sujetos

deben asignarse aleatoriamente a

dos grupos, de forma que

cualquier diferencia en la

respuesta sea debida al

tratamiento (o falta de tratamiento)

y no a otros factores.


MasculinoFemenino

ed

ad

100

80

60

40

20

0


En SPSS:

Para comparar medias poblacionales: Analizar/Comparar

medias/Prueba t para muestras independientes/seleccionar la

variable a comparar pasarla a contrastar variables haciendo

clik en /Seleccionar la variable y pasarla a variable de

agrupación/Definir grupos: dar valor al grupo 1 y grupo

2/Continuar/Opciones: cambiar la confianza si se

desea/Continuar/Aceptar

Ej: Probar si existe diferencia significativa en la

edad del entrevistado según su genero

Ho: 1= 2

Ha: 1≠ 2


Sexo del

entrevistad

o N Media

Desvia

ción

típ.

Error

típ. de

la

media

edad Femenino 134 45.20 18.221 1.574

Masculino 121 44.42 18.548 1.686

Prueba de Levene para la

igualdad de varianzas Prueba T para la igualdad de medias

F Sig. t gl

Sig.

(bilateral)

Diferencia

de medias

Error típ. de

la diferencia

95% Intervalo de

confianza para la

diferencia

Inferior Superior Inferior Superior Inferior Superior Inferior Superior Inferior

edad Se han

asumido

varianzas

iguales

.064 .800 .338 253 .735 .780 2.305 -3.759 5.319

No se han

asumido

varianzas

iguales

.338 249.392 .736 .780 2.307 -3.763 5.323

Reporte según el SPSS

Decisión: Siendo que el p valor o sig es mayor que el 5%, no podemos rechazar la

Ho, por lo tanto concluimos que la edad no difiere según el sexo de los pacientes

Homogeneidad (Levene)

Sig= .800 > 0.05

Decisión: No se puede rechazar H0

Por lo tanto concluimos que las varianzas de

ambos grupos son homogéneas

2

2

2

1:Ho

Prueba de Levene para la

igualdad de varianzas

F Sig.

edad Se han asumido

varianzas iguales .064 .800

No se han

asumido varianzas

iguales

Supuestos para la prueba de muestras independientes

Ejercicio: Ademas de probar la normalidad de los datos, también probar la

homogeneidad de varianzas para la variable edad según sexo



PoblaciónN1

Muestran0 ; t=0

Muestran1 ; t=1

intervención

Muestras relacionadas

Prueba t para muestras relacionadas

H0: d = 0

vs.

Ha: d 0

Compara las medias de dos variables de un

solo grupo. Calcula las diferencias entre los

valores de las dos variables de cada caso y

contrasta si la media difiere de 0.

En SPSS:

Para comparar medias poblacionales: Analizar/Comparar medias/

Prueba t para muestras relacionadas/seleccionar a la vez las dos

variables a comparar/ pasarla a variables relacionadas haciendo

clik en / Estadísticos/Continuar/Aceptar

Ejm: Se desea determinar la efectividad del programa “consumo de

hierro” en el incremento de la hemoglobina de los pacientes que

asisten al Hospital… Ho: d =0

Ha: d ≠0

Hb_antes Hb_despues

12.8 16.1

10.8 15.1

12 11.7

11 12.7

10.9 14

10.5 13.9

11 11.8

12.8 13.7

13.5 15.1

13.5 12.6

10.9 14.4

10.5 15.7

14.1 15.4

14.3 15.6

13 15.5

10.9 13.1

13.1 12.9

13.5 13.2

10.3 11.4

11.6 13.1

Prueba t para muestras relacionadas

Media N

Desviación

típ.

Error típ. de

la media

Hb_antes12.05 20 1.348 .301

Hb_después 13.85 20 1.457 .326

Diferencias relacionadas

Media

Desvia

ción

típ.

Error típ.

de la

media

95% Intervalo de

confianza para la

diferenciat gl

Sig.

(bilateral)Inferior Superior

Hb_antes

Hb_después-1.800 1.64 .366 -2.57 -1.03 -4.918 19 .000

Reporte del SPSS

Decisión: Siendo que el p valor o sig es .000 menor que el

5%, rechazamos la Ho, por lo tanto concluimos que el

programa “consumo de hierro” incrementó la hemoglobina de

los pacientes que asisten al Hospital xxxMg. Rosa Padilla Castro

H0: 1 = 2 = ... = k

vs.

Ha: Al menos un par de

medias difieren

Además de determinar que existen diferencias entre las medias, es posible

que desee saber qué medias difieren. Existen dos tipos de contrastes para

comparar medias: a priori y post hoc. También puede contrastar las

tendencias existentes a través de las categorías.

El procedimiento ANOVA de un factor genera

un análisis de varianza para una variable

dependiente cuantitativa respecto a una única

variable de factor. El análisis de varianza se

utiliza para contrastar la hipótesis de que

varias medias son iguales. Esta técnica es una

extensión de la prueba t para dos muestras.

Prueba para más de dos grupos (ANOVA)


Ejemplo: Se quiere determinar si existe diferencia significativa entre la

percepción del trato por parte del Residente y la edad de los pacientes.

Para cada grupo se tiene en cuenta el número de casos, media, desviación

típica, error típico, mínimo, máximo, intervalo de confianza al 95% para la

media. Prueba de Levene sobre la homogeneidad de varianzas, tabla de

análisis de varianza y contrastes robustos de igualdad de medias para cada

variable.


En SPSS:

Para comparar medias poblacionales:

Analizar/Comparar medias/ANOVA de un

factor/seleccionar la variable cuantitativa a

comparar trasladar a dependientes haciendo clik

en / seleccionar la variable cualitativa y trasladar

a factor(los subgrupos)/Estadísticos/ Opciones:

prueba de homogeneidad/Post hoc (Prueba de

comparaciones múltiples) seleccionar una prueba/

Continuar/Aceptar



Resultados ANOVA)

H0: 1 = 2 = 3

vs.

Ha: Al menos un par de medias difieren

Decisión: Sig 0.001< 0.05

Rechazamos Ho

Conclusión: Existe diferencia significativa entre la percepción que

tiene el paciente acerca del trato que da el Residente según el

número de veces que acude a recibir un servicio

Fuentes de

variación

Suma de

cuadrados gl

Media

cuadrática F Sig.Inter-grupos 100.3 2 50.2 7.261 0.001Intra-grupos 1740.7 252 6.9Total 1841.0 254

Reporte del SPSS


Opciones y pruebas post hoc

Homogeneidad

Normalidad

Estadístico de Levene gl1 gl2 Sig.

4.852 2 252 0.009

Fue amable el trato que recibió por parte del RESIDENTE

Kolmogorov-Smirnov(a)

Nº de veces que asistió a recibir un servicio Estadístico gl Sig.Totalmente de Acuerdo 0.194 165 0.000Acuerdo 0.158 45 0.007Desacuerdo 0.198 45 0.000Corrección de la significación de Lilliefors

Duncan Nº de veces que asistió a recibir

un servicioFue amable el trato

que recibió por parte del

RESIDENTE N

Subconjunto para alfa = .05

1 2Desacuerdo 45 3.044Totalmente de Acuerdo 165 4.661Acuerdo 45 4.778Sig. 1 0.808

Se puede observa que para aquellos que

presentan mayor promedio de asistencia

son los que opinan a favor del trato que

perciben del residente

Sin embargo, también se puede observar

que la variable dependiente no cumple

el requisito de la homogeneidad ni

normalidad, por lo tanto se recomienda

hacer una prueba no paramétrica “H de

Kruscal-Wallis”

Decisión: Sig <0.05, por lo tanto rechazo Ho.

Las variables no son homogéneas

Decisión: Sig <0.05, por lo tanto rechazo Ho.

Las variables no siguen una distribución normal

En este capítulo vamos a tratar diferentes formas de describir la relación entre dos variables cuando estas son numéricas.

•Estudiar si hay relación entre la altura y el peso.

También se hace estudios correlacionales cuando alguna de las variables es ordinal.

•Estudiar la relación entre el sobrepeso y el dolor de espalda (ordinal)

Hay más de dos variables relacionadas.•¿Conocer el peso de una persona conociendo su altura y contorno

de cintura?

El estudio conjunto de dos variables cualitativas lo vemos a través del contraste de hipótesis (X2).

•¿Hay relación entre fumar y padecer enfermedad de pulmón?


Análisis de regresión. Se utiliza para realizar

estimaciones de una variable dependiente

en función a un valor específico de las

variables independientes.

Análisis de correlación. Es utilizada para

determinar el grado de asociación entre

variables.

Regresión y correlación: datos

cuantitativos

OBJETIVO:

› Entender como los valores de Y

cambian en promedio cuando X

varia entre los posibles valores

que puede tener.

El análisis de Regresión se enfoca

al establecimiento de una

ecuación que permite que el

valor desconocido de una

variable se pueda estimar a

partir del valor conocido de una

o más variables.

Regresión lineal

0 40 80 120

X

0.00

0.50

1.00

1.50

2.00

Y

1Y = 0.15 + 0.01 * x

R-cuadrado = 0.68


nn XXXXY 3322110

Suposiciones del modelo:

La variable predictora X es no aleatoria

Los errores ei son variables aleatorias con media 0 y varianza

constante 2.

Los errores y (i j=1…,n) son independientes entre si ie

XY

iii eXY

je

El modelo de regresion lineal simple

Su representacion para la observacion i



1. Los residuales son aleatorios

2. Los residuales siguen una distribución

normal

3. Tienen media igual a 0

4. Tienen varianza constante

5. No están auto correlacionadosa) Durbin Watson

b) Grafico de Auto correlación

El análisis de regresión múltiple produce una ecuación con

varios coeficiente , dependiendo del número de variables

independientes X que se introduzcan al modelo, generando

de esta forma hiperplanos.

El Coeficiente de Correlación Múltiple mide la proporción de

la variación total de los valores de la variable independiente,

que es explicada por la regresión múltiple.

nn XXXXY 3322110


Regresión Múltiple

Caso I Caso II Caso III

Ho: * Ho: = * Ho: *

Ha: * Ha: * Ha: *

Prueba Estadística

Regla de DecisiónRechazar Ho, Rechazar Ho Rechazar Ho

si tcal<-t( ,n-2) si |tcal |>t( /2,n-2) si tcal>t( ,n-2)

*Un “P-value o Sig” cercano a cero, sug

iriría rechazar la hipótesis nula.

)2(~*

nt

Sxx

st


El objetivo del análisis de correlación es medir

el grado de relación que existe entre las

variables.

El coeficiente de determinación mide el aporte

de la variable independiente sobre la

dependiente.(r2)

Correlación


Sólo toma valores en [-1,1]

Las variables son incorreladas r=0

Relación lineal perfecta entre dos variables r=+1 o r=-1

Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal

-1 +10

Relación

inversa

casi

perfecta

Relación

directa

casi

perfecta

Variables

incorreladas


Ejemplo: Hallar el diagrama de dispersión, la

recta estimada de regresión, el coeficiente de

correlación y determinación de las variables

Coste del tratamiento en función de la

duración de la estancia.

Regresión y correlaciónCon la data “patient_los.sav” (SPSS<tutorial<sample_files)


En SPSS:

• 1. Gráfico de dispersión

Gráficos/dispersión/simple/definir/Coste del

tratamiento trasladar a Y y duración de la estancia a

X/aceptar.

• 2. Correlación

Analizar/Correlación bivariada/se seleccionan las

variables cuantitativas y se trasladan/Seleccionar

Pearson/aceptar

• 3. Regresión

Analizar/Regresión lineal/se selecciona la variable

cuantitativa dependiente y se traslada a dependiente,

luego la independiente o independientes y se traslada

a independientes/aceptar

Regresión y correlación



Diagrama de dispersión

En el diagrama de dispersión se aprecia una fuerte relación lineal directa

Regresión y correlación múltiple


Regresión

Modelo

Coeficientes no

estandarizados

Coeficientes

estandarizad

os

t Sig.B Error típ. Beta

1 (Constante) .667 .016 42.318 .000

Duración de la estancia .146 0.0005961 .939 244.369 .000

Coeficientes

tesConsyXY tan, 1010

1146.0667.0 XY


Idoneidad del modelo de regresión

Modelo R

R

cuadrado

R cuadrado

corregida

Error típ. de

la estimación

Durbin-

Watson

1 .939(a) .882 .882 .923 2.029

Modelo

Suma de

cuadrados gl

Media

cuadrática F Sig.

1 Regresión50860.685 1 50860.685 59716.253 .000(a)

Residual6810.240 7996 .852

Total57670.925 7997

Resumen del modelo

ANOVA

Coeficiente de determinación: r2 = 88.2%; el costo del tratamiento está siendo

explicado en un 88.2% por la variabilidad de la duración de la estancia y un 11.8%

se debe a la intervención de otras variables.

Siendo que el análisis de varianza (ANOVA) da una significancia < 0.05, entonces

podemos decir que el modelo de regresión propuesto es muy bueno (p=.000)


Correlación


Duración de

la estancia

Costes de

tratamiento

Duración de la

estancia

Correlación de

Pearson 1 0.94Sig. (bilateral) .000N 7998 7998

Costes de tratamiento Correlación de

Pearson 0.94 1Sig. (bilateral) 0N 7998 8629

0:

0:

Ha

Ho No existe correlación

Existe correlación

Decisión:

Dado que el p value o sig < 0.05 , rechazamos Ho; concluimos que el

costo del tratamiento esta asociado a la duración de la estancia


Ejercicio:

Determinar el modelo de regresión para la duración

de la estancia según el resultado quirúrgico y la

edad del paciente.

En SPSS:

Regresión

Analizar/Regresión lineal/se selecciona la variable

cuantitativa dependiente y se traslada a dependiente,

luego las variables independientes y se traslada a

independientes/gráficos: pasar (zpred) a (x) y (zresid) a

(y); click en histograma y gráfico de prob.

Normal/continuar/ aceptar




Resumen del modelob

.379a .144 .144 1.574 2.012

Modelo

1

R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación

Durbin-

Watson

Variables predictoras: (Constante), Resultado quirúrgico, Edad en añosa.

Variable dependiente: Duración de la estanciab.

ANOVAb

1801.795 2 900.898 363.410 .000a

10719.245 4324 2.479

12521.040 4326

Regresión

Residual

Total

Modelo

1

Suma de

cuadrados gl

Media

cuadrática F Sig.

Variables predictoras: (Constante), Resultado quirúrgico, Edad en añosa.

Variable dependiente: Duración de la estanciab.

Modelo

Coeficientes no

estandarizados

Coeficientes

estandarizad

os

t Sig.B Error típ. Beta

1 (Constante) 1.897 .180 10.547 .000

Edad en años .045 .003 .232 16.497 .000

Resultado quirúrgico .802 .039 .291 20.668 .000


Las pruebas no paramétricas llamadas de

distribución libre, no asumen ningún parámetro,

trabajan con simple ordenación y recuento

(asignando rangos) a los valores de la variable.

Se deben usar con:

Datos de distribución libre

Se puede usar con datos nominales, ordinales e

incluso cuantitativos (convertir a ordinal)

Cuando la data es cuantitativa pero no cumple

los supuestos básicos de normalidad y

homogeneidad, si se trata de más de dos grupos.


Chi cuadrado

1 muestraCuantitativa-

cualitativa

Binomial

Independientes CuantitativaU de Mann-

Whitney

2 muestras

Relacionadas Cuantitativa Wilcoxon

Antes/después Mc Nemar

Independientes Cuantitativa Kruscal Wallis

Más de 2

muestras

Cuantitativa Friedman

Relacionadas

Cualitativa Q de Cochran

Pruebas no paramétricas de acuerdo al tipo de muestras y

variables


F

1i

C

1j

2

ij1)1)(C(F

2)(O

Xij

ij

E

E

CRITERIO DE LA INDEPENDENCIA

Ho: Las variables son independientes

Ha: Las variables están relacionadas

En el SPSS:

Analizar/estadísticos descriptivos/tablas de contingencia/pasar las

variables/pedir en estadísticos/Chi cuadrado/continuar/aceptar


Es una prueba de significación estadística que responde a la siguienteecuación general:

Prueba Chi-cuadrado: criterio de

independencia

En SPSS:

Para comparar medias poblacionales:

Analizar/Estadísticos descriptivos/Tablas de

contingencia/seleccionar las variables

cualitativas y trasladar a fila y a columna

haciendo clik en /Estadísticos/seleccionar

Chi-cuadrado y coeficiente de

contingencia/Continuar/Aceptar

Ej: Probar si el trato que recibe por parte del médico influye para

recomendar al Hospital de Tarapoto

Ho: El trato que recibe por parte del médico no influye para recomendar

al Hospital de Tarapoto

Ha: El trato que recibe por parte del médico influye para recomendar al

Hospital de Tarapoto

Prueba Chi-cuadradoHo: El trato que recibe el paciente de parte del médico no influye para

recomendar al Hospital de Tarapoto

Ha: El trato que recibe el paciente de parte del médico influye para recomendar

al Hospital de TarapotoPruebas de chi-cuadrado

Valor gl

Sig. asintótica

(bilateral)

Sig. exacta

(bilateral)

Sig. exacta

(unilateral)Chi-cuadrado de Pearson 29,219a 1 .000

Corrección por continuidadb

26.286 1 .000

Razón de verosimilitudes 32.995 1 .000

Estadístico exacto de

Fisher .000 .000

Asociación lineal por lineal29.104 1 .000

N de casos válidos 255

Decisión: siendo sig 0.000<0.05, por lo tanto rechazamos la Ho

Conclusión: Al nivel de confiabilidad del 95% podemos concluir que el trato que

recibe por parte del médico influye para recomendar al Hospital de Tarapoto

U de Man Witney

Comparar dos grupos independientes que no siguen una distribución normal y no homogéneas o que sean ordinales

Paralela a la prueba t de muestras independientes

Contrasta si dos poblaciones son equivalentes en su posición

Es recomendable pero no imprescindible que las poblaciones comparadas tengan el mismo tamaño

Pruebas no paramétricas: Comparación de

grupos (dos muestras independientes)


Ejemplo: Con la data “patient_los.sav” (SPSS<tutorial<sample_files)

Ho: La duración de la estancia es igual a si presentan o no infarto

del miocardio

Ho: La duración de la estancia no es igual a si presentan o no

infarto del miocardio

U de Man Witney: Comparación de grupos (dos

muestras independientes)

Historial de

infarto de

miocardio N

Rango

prome

dio

Suma

de

rango

s

Duración de la

estancia

No535 645.85

34553

0.50

Sí946 794.81

75189

0.50

Total 1481

Duración de

la estancia

U de Mann-Whitney 202150.500

W de Wilcoxon 345530.500

Z -6.595

Sig. asintót.

(bilateral).000

El rango promedio de duración de la estancia de los que no presentan historial de

infarto de miocardio esta en 645.85 y los que si presentan infarto esta en 794.81,

es decir hay diferencia entre los que presentan y los que no presentan historial de

infarto y como sig<0.05, se rechaza Ho

Conclusión: La duración de la estancia es diferente en los que si presentan con

los que no presentan, siendo mayor en los que si presentan historial de infarto de

miocardio. Mg. Rosa Padilla Castro

Comparar k grupos independientes y variables

cuantitativas que no cumplan los supuestos básicos de

normalidad y homogeneidad

Paralela a la prueba paramétrica ANOVA para muestras

independientes

Ejemplo: Con la data “patient_los.sav” (SPSS<tutorial<sample_files)

Ho: La duración de la estancia es igual en los tres grupos

de resultado quirúrgico (cualquiera sea el resultado)

Ho: La duración de la estancia no es igual en los tres

grupos de resultado quirúrgico

H de Kruskal Wallis: Comparación de k grupos

independientes


Resultados

H de Kruskal Wallis: Comparación de k

grupos independientes

Resultado

quirúrgico N

Rango

promedio

Duración de la

estancia

Recuperado 1323 686.04

Estable 121 1153.55

Crítico 37 1357.19

Total 1481

Duración de la

estancia

Chi-cuadrado 221.625

gl 2

Sig. asintót. .000

a Prueba de Kruskal-Wallis

b Variable de agrupación: Resultado quirúrgico

Rangos

Conclusión: Hay diferencia entre los tres grupos para tener más días de

estancia en el hospital frente al resultado quirúrgico

Regla de decisión:

Con sig<0.05 se rechaza Ho

Con sig>0.05 no se rechaza Ho


Pruebas no paramétricas: Dos muestras

relacionadas (Mac Nemar –antes/despues)

Ejemplo: Una muestra aleatoria de 150 estudiantes se sometió a un cuestionario de opinión acerca

de si fumar produce cáncer al pulmonar. Obtenida la información se les dio una conferencia y se

les presento una exposición llevada acabo por un equipo de sanidad explicando los peligros de

fumar y se les explico la relación sobre el efecto de fumar sobre el cáncer pulmonar

(se les hizo una encuesta y luego recibieron una charla y se quiere ver que tan fructífera fue esa

charla)

Después de la conferencia

Antes de la

conferencia NO SI Total

NO 43 67 110

SI 10 30 40

150

Test Statisticsb

150

40.727

.000

N

Chi-Square a

Asymp. Sig.

antes de la

conferencia &

despues de la

conferencia

Continuity Correcteda.

McNemar Testb.

Ho: la probabilidad de que la conferencia no

tenga efecto sobre la opinión de los

estudiantes es igual a que la probabilidad de

que la conferencia si tenga efecto sobre la

opinión de los estudiantes

Ha: la probabilidad de que la conferencia es

mayor sobre la opinión de los estudiantes

El sig<0.05, rechazamos la Ho por lo tanto

concluimos que si existe un efecto

estadísticamente significativo de que la

conferencia cambie la opinión de los

estudiantes a favor de que el fumar si

produce cáncer Mg. Rosa Padilla Castro

Pruebas no paramétricas: Dos muestras

relacionadas (Wilcoxon)

• Comparar dos grupos relacionados y variables cuantitativas que no tienen

distribución normal o que sean ordinales

• Paralela a la prueba paramétrica de contraste t para muestras relacionadas

• Contrasta si dos poblaciones muestreadas son equivalentes en su posición

• Es recomendable pero no imprescindible que las poblaciones tengan el mismo

tamaño

Ejemplo: Con la data tabaquismo probar si existe relación entre las variables

consumo de tabaco y presentar problemas vasculares

Ho: Problemas vasculares = si consume o no tabaco

Ha: Problemas vasculares si consume o no tabaco


Pruebas no paramétricas: Dos muestras relacionadas

(Wilcoxon)Con la data tabaquismo probar si existe relación entre las variables consumo de

tabaco y presentar problemas vasculares

sexo tabaco vascular ncasos1 1 1 221 1 2 1031 2 1 171 2 2 1512 1 1 232 1 2 812 2 1 92 2 2 127

Prueba de los rangos con signo de

Wilcoxon

N

Rango

promedi

o

Suma

de

rangos

vascular -

tabaco

Rangos

negativos26(a) 105.50

2743.0

0

Rangos

positivos184(b) 105.50

19412.

00

Empates 323(c)

Total 533

vascular -

tabaco

Z -10.903(a)

Sig. asintót. (bilateral) .000

E

a Basado en los rangos negativos.

b Prueba de los rangos con signo de Wilcoxon

Estadísticos de contraste(b)

Conclusión: El consumo de

tabaco incide significativamente

en los problemas vasculares


PRUEBA PARA K MUESTRAS RELACIONADAS: en

dos direcciones por Rangos de Friedman

•Comparar k grupos relacionados y variables cuantitativas que no siguen una

distribución normal o que sean datos ordinales

•Paralela a la prueba paramétrica de ANOVA para muestras relacionadas

•Contrasta si K poblaciones son equivalentes en su posición

•Es recomendable pero no imprescindible que las poblaciones comparadas

tengan el mismo tamaño

Ejemplo:

Suponga que se desea comprobar la hipótesis nula de que un grupo de 10

sujetos reaccionan de la misma manera ante tres situaciones diferentes; Se

obtienen los siguientes resultados, que se ubican en cada uno de los tres

grupos I, II, III

Ho: La reacción de los sujetos ante situaciones diferentes es igual

Ha: La reacción de los sujetos ante situaciones diferentes no es igual


PRUEBA PARA K MUESTRAS RELACIONADAS: en

dos direcciones por Rangos de Friedman

Puntajes

Sujeto Grupo 1 Grupo 2 Grupo 3

A

B

C

D

E

F

G

H

I

J

25

30

21

28

19

22

31

17

25

33

28

33

19

31

22

21

33

14

21

35

29

32

16

32

23

25

34

21

24

37

N 10

Chi-cuadrado 5.600

gl 2

Sig. asintót. .061

Estadísticos de contraste(a)

a Prueba de Friedman

Conclusión: No existe diferencia significativa de los grupos en cuanto a

la reacción tras diferentes estímulos. (p= 0,061>0.05).


2 Timoteo 2:15Procura con

diligenciapresentarte ante Dios, aprobado

como obrero queno tiene de que

avergonzarse queusa bien la palabra

de verdad

Análisis estadístico según tipo de estudio en la investigación

Documents

Transcript of Análisis estadístico según tipo de estudio en la investigación