Psicometria TEMA 6

8/18/2019 Psicometria TEMA 6

1/26

1

Cuando en el primer capítulo hablamos de la dificultad de medir variables psicológicas,

porque la gran mayoría de ellas no pueden ser observadas de forma directa y, por lo tanto, no se

pueden medir directamente, dimos una solución al problema planteando que la medición se

podía llevar a cabo mediante indicadores. Con esto, lo que queremos decir es que para poder

medir este tipo de variables, a las que denominamos constructos teóricos, variables latentes o

atributos psicológicos es necesario seleccionar una serie de conductas que representen algún

aspecto de ese constructo y que sean consideradas indicadores del mismo. Dichas conductas, Ya

sí son observables de forma directa y por lo tanto, pueden ser medidas mediante los

instrumentos adecuados, elaborados ad hoc. Diremos que se ha obtenido una medida del

constructo, cuando se obtenga una medida de las conductas seleccionadas como indicadores.

Ahora bien, los instrumentos elaborados para medir estas conductas, han de cumplir una

serie de requisitos para que puedan ser utilizados con las suficientes garantías de calidad; entre

estos requisitos, hay dos fundamentales:

• Que proporcionen medidas fiables a partir de las cuales• Se puedan hacer inferencias válidas

La Fiabilidad de las medidas – como hemos visto en el tema 4, hace referencia al grado en quelas puntuaciones obtenidas al aplicar los tests, reflejan su nivel real en el rasgo o característica

medida, es decir, al grado en que esas puntuaciones están libres de errores aleatorios, presentes

en cualquier proceso de medición.

La validez de las inferencias – que se puedan hacer, a partir de las puntuaciones obtenidas porlos sujetos al aplicarles el test (que abordaremos en este tema y el siguiente) se refiere al grado

de relación que se puede establecer entre la evidencia empírica obtenida y el concepto teórico

que se tiene del constructo que se intenta medir .

Algunas de las críticas que se han hecho en relación con la construcción y evaluación de

los tests es, que muchas veces, el proceso ha estado orientado a obtener instrumentos de

medición fiables, más que a la obtención de instrumentos válidos. A nuestro juicio, por muy

fiables que sean las medidas que proporciona un test, si éstas no se refieren a aquello que se

quiere medir, difícilmente se podrán interpretar las puntuaciones obtenidas, de ahí la

importancia del tema que vamos a ver.En el presente tema, expondremos las distintas clases de evidencia que se pueden

obtener a la hora de llevar a cabo un proceso de validación: Contenido, constructo y relativa alcriterio, haciendo hincapié, en cuál sería la más adecuada en cada caso y exponiendo los

procedimientos estadísticos que van a permitir su obtención e interpretación Respecto a los estudios de validación referida al criterio: en este tema nos

centraremos en la forma de llevarlos a cabo cuando hay un único predictor y un solo indicador

del criterio, dejando para el tema siguiente, los casos en los que se cuenta con varios

predictores. Resulta necesario, que el alumno aprenda a diferenciar claramente las distintas

formas de llevar a cabo un estudio de validación y la forma de interpretar la evidencia obtenida,

pues sólo así se estará en condiciones de interpretar las puntuaciones obtenidas por los sujetosen los tests y, a partir de ellas, tomar decisiones con una cierta garantía de éxito.


2/26

2

Al igual que el concepto de Psicometría ha evolucionado a lo largo de los años, con la

incorporación de los conocimientos científicos que han ido surgiendo a partir de las

investigaciones realizadas, al concepto de validez, que es un concepto psicométrico, le ha

sucedido lo mismo. Mientras que la medición de las características físicas (longitud, peso…) tal

y como se viene haciendo, ha probado sus ventajas y su utilidad, y nadie plantea hoy día

seriamente la necesidad de cambiar por otras formas de medición, no sucede lo mismo con las

características psicológicas (constructos teóricos) ya que, en ocasiones, la aparición de nuevosconocimientos, puede aconsejar la modificación de la forma de medición de las mismas y la

búsqueda de enfoques alternativos.

El concepto Validez, convencionalmente y en relación con los tests, hace referencia algrado en que el test mide aquello que pretende medir . De este modo, un test será válido para

medir razonamiento espacial, si mide este tipo de razonamiento y no otra cosa. Ahora bien,

cuando decimos que un test mide razonamiento espacial, surgen interrogantes como.

¿Mide realmente eso?¿En qué grado lo mide?¿Mide sólo razonamiento espacial?

Intentar dar solución a estos interrogantes, forma parte de los estudios de validación de los tests

De la definición de validez que hemos expuesto, se deduce que el concepto hace

referencia al grado de relación entre el test y el constructo que se pretende medir. En la medida

en que dicha relación sea más estrecha, el test será más válido. Ahora bien, debemos aclarar que

cuando hablamos de la relación entre el test y el constructo, en realidad, estamos haciendo

referencia a la relación entre las puntuaciones obtenidas por los sujetos en el test y lamedida obtenida en el indicador o indicadores del constructo.

En esencia, el concepto de validez no ha cambiado sustancialmente a lo largo de los

años, lo que sí ha cambiado es la forma de abordar y operativizar esa relación entre el test yel constructo. Hasta los años 50 del siglo pasado, los tests se valoraban fundamentalmente por

su utilidad práctica, sobre todo para la selección y clasificación de personal, siendo el criterio, algún constructo teórico como la aptitud para el vuelo, o el rendimiento futuro en un puesto de

trabajo. La forma de operativizar la relación entre el test y el criterio, era mediante uncoeficiente de correlación. Así, un test era válido, en la medida en que existiese correlaciónentre las puntuaciones obtenidas por los sujetos en el test y las obtenidas en el criterio externo

seleccionado. Al concepto de validez así entendido, se le denominó validez predictiva de lostest (Un test era válido en la medida en que existiera correlación entre las puntuacionesobtenidas por los sujetos en el test y las obtenidas en el criterio externo seleccionado).

Supongamos que se desea llevar a cabo una selección de vendedores y, además de otras

técnicas, se piensa utilizar un test en el proceso de selección. No se sabe si el test es válido o no,

pero para que se pueda decir que el test tiene validez predictiva, debe permitir diferenciar a los

bueno de los malos vendedores, distinguiendo los diferentes grados de pericia o capacidad paralas ventas (constructo a medir). Para comprobar la validez predictiva del test, es necesario


3/26

3

seleccionar algún indicador (o indicadores), que permita obtener una medida del criterio

externo; así por ejemplo, un indicador puede ser el número de ventas realizadas en una semana

(variable observable relacionada con el constructo).

Una vez seleccionado el indicador, se aplicará el test a todos los aspirantes al puesto y,

después de un cursillo de técnicas de ventas, se les pondrá a vender durante una semana; pasada

ésta, se les evaluará en función del número de ventas realizadas, y ese dato, será su medida en elcriterio externo.

Para comprobar si el test tiene validez predictiva, se calculará la correlación entre las

puntuaciones que han obtenido en el test todos los aspirantes y el número de ventas realizadas

en la semana de prueba. Si la correlación es alta, diremos que el test tiene validez predictiva,

puesto que, los que hayan obtenido puntuaciones altas en el test, serán también los que hayan

realizado un mayor número de ventas, y los que obtengan puntuaciones bajas en el test, habrán

realizado un número de ventas menor. Como puede verse, el estudio de la validez predictiva,

supone una alta dificultad y un alto coste, y en ocasiones resulta imposible llevarlo a cabo o,

simplemente, no tiene sentido hacerlo.

Por este motivo, poco a poco, fue surgiendo otra forma de estudiar la validez de los testrelacionada con criterios externos, la validez concurrente, que se diferencia de la validez

predictiva en que la recogida de la información, tanto del test como del criterio, se hace

simultáneamente.

Vamos a seguir con el ejemplo anterior, pero con un enfoque diferente. Queremos

disponer de un test que sirva para hacer una selección de vendedores para cubrir 4 puestos de

trabajo. Para ello, hacemos lo siguiente: A una muestra de vendedores de las mismas

características que los que exigen los puestos de trabajo a cubrir, se les aplica el tests cuya

capacidad predictiva se quiere estudiar y, al mismo tiempo, se pide a sus jefes directos, que los

evalúen en cuanto a su grado de pericia para las ventas (por ejemplo, el número de ventasrealizadas en la última semana). De este modo, las puntuaciones obtenidas por los vendedores

en el criterio externo (nº de ventas en la última semana) y las obtenidas en el test, se obtienen en

el mismo momento temporalValidación concurrente.La correlación entre las dos series de puntuaciones, nos van a indicar, si el test puede ser

utilizado posteriormente para hacer la selección con ciertas garantías de éxito, al avalar, en

cierta medida, que los aspirantes que obtengan mejores resultados en el test, serán buenos

vendedores.

En otras ocasiones, se puede obtener la medida del criterio con anterioridad a la del test,

hablándose en este caso de validez retrospectiva. La forma de operativizar la relación entre eltest y el criterio, tanto en la validez predictiva, como en la concurrente y en la retrospectiva, es

mediante un Coeficiente de Correlación.

Al mismo tiempo, y junto a las concepciones de la validez ligada a criterios externos, se

fue perfilando un nuevo enfoque de la validez, relacionada con criterios internos al propiotest: la validez de contenido: Esta nueva concepción surge, porque hay muchos contextos enlos que no interesa demasiado estudiar la utilidad de un test para predecir otras variables y, por

lo tanto, no tiene sentido la utilización de criterios externos. Esto sucede sobre todo, en los testsde conocimientos en este tipo de tests, no se utilizan criterios externos con los quecorrelacionar las puntuaciones obtenidas, el planteamiento es distinto, y lo que se trata de

estudiar es hasta qué punto, a partir del contenido de los test, se puede inferir el

rendimiento en una determinada materia; el test en sí mismo constituye su propio criterio.


4/26

4

:

Supongamos que se necesita preparar un test (examen) para medir el conocimiento que

los alumnos de Psicometría tienen de la materia. Esto, que a primera vista puede parecer

sencillo, implica un esfuerzo por definir, en primer lugar, todos los contenidos propios de la

Psicometría y, en segundo lugar, hacer un muestreo de cada uno de esos contenidos, de manera

que queden reflejados todos ellos en el test; sólo de esta manera podremos tener cierta garantíade que el test tiene validez de contenido. Así, no se podría preparar un test (examen) en el que

sólo hubiese preguntas de fiabilidad, ya que de las puntuaciones que obtuvieran los sujetos en el

test, no se podría inferir más que el grado de conocimientos de los sujetos acerca de la

fiabilidad, no de la Psicometría, puesto que el dominio, universo o campo de contenidos de la

Psicometría, es algo mucho más amplio. Recordemos que en el tema 2, cuando se abordó el

problema de la construcción de instrumentos de medición psicológica, ya se estudió la forma de

elaborarlos de manera que tuvieran validez de contenido.

La aparición de la validez de contenido, marcó una nueva tendencia en los estudios de la

validez, al estar más centrada en qué es lo que mide el test, que en su utilidad para predecir otrasvariables. Sin embargo, la respuesta real a todos los interrogantes que dejaban sin responder los

anteriores métodos, vendrá de la mano de otra nueva concepción de la validez: la validez deconstructo. Este tipo de validez, implica recoger toda la información necesaria, para podertener garantía suficiente, de que las conductas observables que se han elegido comoindicadores del constructo que se quiere medir, lo son realmente.Todo esto, nos hace reflexionar sobre la importancia que tiene, a la hora de construir un test, el

definir claramente para qué se va a utilizar y qué es lo que se quiere medir. Puesto que, en la

medida en que el constructo esté mejor definido, será más fácil especificar qué conductas

observables se van a utilizar como indicadores del mismo, una vez especificadas esas conductas,

se podrán tomar decisiones acerca de qué ítems (qué contenido) se van a incluir en el tests paramedirlas. Ahora bien, que el constructo esté bien definido, no nos exime de comprobar que,

realmente, las puntuaciones obtenidas al aplicar el test, miden esa característica o atributo y se

pueden utilizar para el objetivo deseado, ya que pueden estar midiendo además, alguna

característica no prevista e introduciendo un error sistemático en las puntuaciones obtenidas en

el test. El estudio de la validez de constructo del test, permitirá responder a las preguntas, de si

el test mide aquello para lo que se construyó y si mide sólo eso. También en este enfoque de la

validez, la manera de operativizar la relación entre el test y el constructo, suele hacerme

mediante técnicas correlacionales.

En el documento publicado por la APA en 1966, estos 4 tipos de validez, quedaron

reducidos a 3: validez de contenido, validez relativa al criterio (quedando incluidas laconcurrente y la predictiva) y validez de constructo. Así mismo, se asume que los distintostipos de validez van unidos a objetivos concretos en el uso de test, de ahí la importancia de

definir cuáles van a ser estos objetivos son:• Determinar el rendimiento o actuación de un sujeto en un universo de situaciones

(contenido).

• Inferir el grado en el que un sujeto posee algún rasgo o atributo (constructo) que sesupone vendrá reflejado por su ejecución en el test.

• Predecir el rendimiento o comportamiento futuro (predictiva) o estimar su rendimientoactual sobre una variable externa al test (concurrente).

En 1974 – se produce un avance en la definición del concepto de validez, ya que, por primera vez se afirma que la validez se refiere a la adecuación de las inferencias que se realizan a


5/26

5

partir de las puntuaciones de los test u otras formas de medida . Se mantiene la distinción entre

los 3 tipos de validez y se consideran como formas independientes de interpretar las inferencias

realizadas. Por otro lado, se hace ya referencia explícita, a que la validez, no es una propiedad

implícita a los tests, ya que lo que se trata de validar, no es el test en símismo, sino las

inferencias que se hagan a partir de las puntuaciones obtenidas por los sujetos .

En 1985 y 1999 – ya se define una concepción unitaria de validez, que hace referenciaal grado en que la evidencia empírica obtenida y los conocimientos aportados por las teorías

apoyan las inferencias que se hagan a partir de las puntuaciones ob tenidas en el test cuando éste

se utiliza para un objetivo concreto.

Parece haber un acuerdo más o menos generalizado en el que, desde el punto de vista

científico, la única validez que se debe considerar es la validez de constructo , y que las otras 2 (de

contenido y la relativa al criterio), quedarían incluidas en ésta y serían consideradas como

estrategias de validación para comprender mejor lo que mide un test.

Ya no se habla de distintos tipos de validez, la validación de los tests, es un procesocontinuo, que permite obtener dist intos t ipos de evidencia empírica , y un proceso de validación

ideal, debe incluir los tipos de evidencia implicados en los 3 tipos tradicionales de validez: la de

constructo, la de contenido y la relativa al criterio. Aunque siempre que se aplique un test

psicológico es necesario llevar a cabo un estudio de validación de constructo, (difícilmente se

puede hacer ninguna inferencia, si no se sabe lo que mide realmente el test), este tipo de

validación no siempre es suficiente. Según sea la interpretación que se vaya a hacer de las

puntuaciones y el objetivo que se pretende al aplicar el test, será necesario obtener otros tipos de

evidencia; así por ejemplo, cuando se utilizan los test en selección de personal, si el que una

persona sea seleccionada depende de la predicción que se haga acerca de su rendimiento futuro

en el trabajo, será necesario llevar a cabo un estudio de validación relativa al criterio, y en lostests de conocimientos, la estrategia fundamental, sería la validación de contenido.

La evolución del concepto de validez, tuvo lugar gracias al esfuerzo de muchos autores,

pero es de destacar algunos de los trabajos de Cronbach. Si consideramos que el términovalidez, hace referencia a la adecuación de las inferencias realizadas a partir de las puntuaciones

de los tests, resulta fácil definir la validación como: proceso mediante el cual, el constructor o el

usuario de los tests, recoge la evidencia empírica necesaria para apoyar las inferencias que van a

realizar; entendiendo por evidencia tanto los datos, observaciones y hechos como los argumentos

que permitan apoyar o sustentar esos hechos .

Si esto es así, para llevar a cabo un proceso de validación se requiere:

- Explicitar claramente, el tipo de inferencia que se quiere realizar, para a

continuación,- Diseñar el estudio empírico que permita obtener la información necesaria acerca del

grado en que las puntuaciones obtenidas en el test (o los tests) son útiles para el tipo deinferencia requerida.

Siguiendo con las normas marcadas en los Estándares de 1985 y 1999, en este tema,

vamos a considerar la validez como un concepto unitario y el proceso de validación, como un

proceso continuo que permitirá recoger la evidencia necesaria para poder interpretar las

puntuaciones obtenidas al aplicar los tests para un determinado objetivo. En este sentido, no


6/26

6

vamos a hablar de distintos tipos de validez, sino de distintas estrategias para obtener esa

evidencia.

El objetivo que se persigue al llevar a cabo un estudio de validación de contenido, es

analizar hasta quépunto los elementos o ítems que componen un test, son una muestra relevante

y representativa del constructo sobre el que se van a realizar las inferencias .La relevancia del constructo: implica la necesidad de una clara y exhaustiva

especificación de todas las posibles conductas observables que son representativas del

constructo a medir (especificación del dominio de conducta)

La representatividad del constructo: hace referencia, a la necesidad de que todas esasconductas estén representadas en el test (representatividad de dominio)

Partiendo de esto, es fácil darse cuenta de que la distinción entre la validez de

constructo y de contenido es un poco artificial:

En lo que respecta a la especificación del dominio de conductas, o nos limitamos adescribirlas simplemente, o en cuanto se intente establecer alguna definición operativa oformal entre esas conductas y el constructo, se entra de lleno en el terreno de lavalidación de constructo.En lo referente a la representatividad del dominio, las investigaciones se hancentrado fundamentalmente, en los procedimientos de muestreo de dominio.Messick – afirma que la especificación y representatividad del dominio, son en realidad

metas a conseguir a la hora de construir el test, pero no son garantías de validez pues no

proporcionan evidencia empírica para poder interpretar las puntuaciones.

Sin entrar en estas polémica, diremos que cuando se lleva a cabo un estudio de

validación de un test, es necesario analizar hasta qué punto, los elementos que lo componen, son

una muestra representativa de la clase de problemas o situaciones sobre las que van a hacer

inferencias y extraer conclusiones.

En el ámbito de la evaluación educativa: En los tests referidos al criterio (TCR) y enlos denominados tests de rendimiento académico, las puntuaciones obtenidas se suelen utilizar

para hacer inferencias acerca del grado en que los sujetos dominan un campo de conocimiento

(dominio), no para hacer inferencias acerca de una conducta externa al test, ni acerca del rasgo o

constructo medido. En estos tests, se pone de manifiesto, el interés de los estudios de validación

de contenido, ya que es relativamente fácil llevar a cabo la especificación del dominio (campo

de conocimiento), sin hacer referencia al constructo. En estos tests, las puntuaciones obtenidasse suelen utilizar para dar cuenta de si los sujetos han alcanzado un nivel mínimo de

competencia en una determinada materia y la definición y especificación del dominio, suele

hacerse más en función de los objetivos instruccionales y educativos que se persigan, que en

referencia al constructo.

De este modo, si queremos construir un test (examen) de psicometría (campo de

conocimiento) válido, la especificación del dominio, incluiría el análisis de todos aquellos

componentes de la psicometría que han de ser evaluados (teoría de la medición, validez, análisis

de ítems…). Una vez especificado el dominio, para que el contenido del test sea válido, será

necesario elaborar un conjunto de ítems que representen cada uno de esos componentes. Para

que el contenido del test sea relevante, todos los ítems del test han de medir algún aspecto deldominio y no otra cosa y será representativo, si los ítems son una muestra representativa de


7/26

7

todos los componentes especificados de la psicometría; es decir, una muestra representativa del

dominio

La forma típica de llevar a cabo un estudio de validación de contenido, es utilizando

un grupo de expertos que serán los encargados de analizar 2 aspectos fundamentales:

Que el test no incluya aspectos irrelevantes del dominio de interés.Que incluya todos los elementos importantes que definen el dominio.

Se trata de hacer un análisis racional del contenido del test y, por lo tanto, los resultados del

estudio estarán basados en los juicios subjetivos emitidos por los expertos.

Para llevar a cabo la especificación del dominio, (como se expuso en el tema 2), es necesario:

- Analizar las áreas de contenido que se deben cubrir.

- analizar los procesos que se van a evaluar y la importancia relativa de cada uno de

ellos. En los tests educativos, se deben establecer los objetivos instruccionales que sedesean alcanzar.

- Hecho esto, se puede construir una tabla de doble entrada, en la que las columnas

representen las distintas áreas de contenido (dominio) que definen el constructo a mediry las filas las distintas operaciones o procesos cognitivos implicados a la hora deresponder a las preguntas o ítems de la prueba, o los distintos objetivos instruccionales.Las celdillas de esta tabla, incluyen el porcentaje de ítems que deben contener la prueba,en relación con cada área de contenido y cada proceso cognitivo empleado u objetivoinstruccional, para que se considere que el dominio está bien representado.

Para evaluar la relevancia de los ítems en relación con el dominio hay varios

procedimientos:Uno de ellos es el propuesto por Hambleton, que consiste en presentar a los expertosuna serie de fichas, cada una de las cuales contiene un ítem. Cada experto expresará enuna escala de 5 puntos el grado de ajuste de cada ítem, con su correspondienteespecificación en el dominio (conducta, área de conocimiento…) de manera que el 1indique un mal ajuste y el 5 un ajuste muy bueno. Hecho esto, se calcula la media o lamediana de los valores asignados por cada uno de los expertos a cada ítem, y el valorobtenido será el que indique el grado de relevancia del ítem. De esta forma, se podránseleccionar los ítems que muestren un alto grado de ajuste y eliminar aquello que por su

bajo nivel de ajuste no sean relevantes.

La representatividad de los ítems que conforman el test: hace referencia al grado en que sehan cubierto las especificaciones del dominio, tanto en cuanto a contenidos como a los objetivos

propuestos. En la medida en que el dominio este más y mejor representado, las inferencias que

se puedan hacer acerca de las puntuaciones de los tests, serán más precisas. Lo ideal sería, poder

contar con un banco de ítems referidos al dominio de interés y a partir de este, extraer una

muestra aleatoria de ítems, sin embargo, esto no siempre es posible.

: supongamos que un grupo de 100 expertos han de juzgar la relevancia de 3

ítems para medir la calidad de la enseñanza (constructo de interés). En la tabla adjunta, se

incluye la valoración asignada a cada uno de los ítems por el grupo de expertos:


8/26

8

ÍTEMSESCALA

1 2 3 4 5A 0 10 10 60 20

B 20 40 30 10 0

C 10 20 50 10 10

Para calcular la relevancia de cada ítem, sabiendo que la categoría 1 indica un mal ajuste entre

el ítem y el constructo y la categoría 5, un muy buen ajuste, calculamos la mediana de cada

ítem, aplicando la siguiente fórmula:

. = + (/100)−

i L = Límite inferior del intervalo donde se encuentra la mediana.

/100 NP = 50% de la muestra.

= nº de sujetos situados en el intervalo de la mediana.

b f = nº de sujetos de la muestra por debajo del intervalo de la mediana

Para ello, diseñamos la tabla de frecuencias acumuladas (para saber el intervalo en el que se

encuentra la Med.)

ÍTEMSESCALA

1 2 3 4 5A 0 10 20 80 100

B 20 60 90 100 100

C 10 30 80 90 100

Í = 3.5 + 50− 2060 = 4 Í = 1.5 + 50− 20

40= 2.25

Í = 2.5 + 50− 3050

= 2.9

Ante estos resultados, se puede decir que el ítem A tiene un buen ajuste y, por lo tanto, se puede

considerar como un ítem relevante para la medida de la calidad de la enseñanza; los otros dos,

no deberían incluirse, puesto que el ajuste no es muy bueno.

.

Este tipo de validación es, realmente, el que da significado a las puntuaciones de lostest, pues permite obtener evidencia de que las conductas observables que se han elegido comoindicadores del constructo (variable latente inobservable), realmente lo son. Este tipo de

estudios de validación, permite responder, entre otras cosas, a las preguntas de si el test mide

realmente la variable que intenta medir y si existe en realidad esa variable.

Partiendo de que los tests son instrumentos que permiten describir de manera indirecta,

u operativizar, el grado en que los sujetos poseen alguna característica postulada a nivel teórico,

denominada constructo, la validación de constructo será el proceso que permitirá obtener

evidencia acerca de la capacidad del tests para medirlo.


9/26

9

Este tipo de estudios de validación, trata de garantizar científicamente, que la variable

que el test pretende medir es, en efecto, una variable aceptable, cuyo concepto ofrece suficiente

consistencia lógica dentro de un sistema teórico de la Psicología y descansa en suficientes

comprobaciones experimentales que lo verifican.

Para llevar a cabo un estudio de validación del constructo, es necesario:

- Definir cuidadosamente el constructo de interés a partir de las teorías que existen

acerca del mismo y postular una serie de hipótesis acerca de la naturaleza y grado derelación entre el constructo (variable latente inobservable) y una serie de variables(conductas directamente observables) y, entre el constructo de interés y otrosconstructos.

- Diseñar el instrumento de medida adecuado, que deberá de contar con elementos

relevantes y representativos de aquellas conductas que sean manifestaciones específicasy concretas del constructo.

- Obtener datos empíricos de las relaciones entre las puntuaciones obtenidas al

aplicar el test y las variables (conductas observables) hipotetizadas.

Como podemos observar, es necesario estudiar:

Por una parte, la relación entre el constructo y las conductas observables representativasdel constructo.

Por otra, la relación entre el constructo y otros constructos y, finalmente,

La relación entre esas conductas tomadas como indicadores del constructo y las puntuaciones obtenidas por los sujetos en el test.

Si se confirman las relaciones postuladas en las hipótesis planteadas, tal y como predice

la teoría, se puede considerar que tanto el constructo como el test son útiles. En caso contrario,

será necesario hacer una nueva evaluación del constructo y/o de las demás variables incluidas en

el estudio, o bien estudiar más detenidamente el marco teórico.

Los estudios de validación de constructo están centrados, fundamentalmente, en el

análisis de la estructura del test, tanto interna como externa – es decir, en el estudio de lasinterrelaciones entre las puntuaciones obtenidas por los sujetos en los distintos ítems que

conforman el test (estructura interna) y en las relaciones entre las puntuaciones obtenidas en el

test y otras medidas obtenidas en variables externas al mismo y consideradas relevantes

(estructura externa).

Entre los métodos más utilizados para llevar a cabo la validación del constructo, hemos de

destacar dos, que veremos a continuación:

Método propuesto por Campbell y Fiske y permite el análisis de la estructura externa deltest (o conjunto de test). La lógica del procedimiento es la siguiente:

Se intenta medir un mismo constructo mediante distintos procedimientos y distintosconstructos mediante el mismo procedimiento y, una vez obtenidas todas las medidas,

calcular las intercorrelaciones entre ellas.


10/26

10

Si las correlaciones entre las medidas obtenidas del mismo constructo a través dedistintos procedimientos son altas, el constructo quedará validado y se dirá que existe

validez convergente.

Por otra parte, si estas correlaciones son significativamente más altas que las obtenidas

al correlacionar las medidas de distintos constructos con el mismo procedimiento, sedirá que existe validez discriminante.

: Supongamos que se quieren medir 3 constructos: Razonamiento numérico

(RN), Factor espacial (FE) y Razonamiento abstracto (RA). Se han elaborado una serie de

pruebas con diferentes formatos: Verdadero-falso (V-F), Elección Múltiple (EM) y Frases

incompletas (FI). Tenemos por tanto, tres constructos diferentes y tres procedimientos distintos

de medir cada uno de ellos.

Para analizar la validez convergente y discriminate, se selecciona una muestra de sujetos a los

que se aplican todas las pruebas, obteniéndose las puntuaciones de los mismos, en cada

constructo y mediante cada uno de los procedimientos. A partir de esas medidas, se calculan

todas las intercorrelaciones posibles, que pueden ordenarse en una matriz como la que aparece

en la tabla siguiente, y explicaremos los coeficientes de correlación obtenidos

Los valores que se encuentran entre paréntesis en la diagonal de la matriz, representanlos distintos coeficientes de fiabilidad. Se trata de la correlación entre las puntuaciones

obtenidas al medir el mismo constructo, mediante el mismo procedimiento (porejemplo, 2 tests paralelos)Los valores que aparecen subrayados, son las correlaciones obtenidas, al medir elmismo constructo, con distintos procedimientos- la cuantía de estos valores, ofreceinformación acerca de la validez convergente.Finalmente, los valores que aparecen en negrilla, corresponden a las correlacionesobtenidas al medir distintos constructos, con los mismos procedimientos.

Para ver si existe evidencia de validez discriminante hay que comparar losvalores correspondientes a los índices de validez convergente (subrayados) con los que

aparecen en negrilla. Dado que en nuestro ejemplo los primeros son bastante más altos que

los segundos, podemos decir que en efecto, hay evidencia de validez discriminante.


11/26

11

Uno de los problemas que plantea el procedimiento de la matriz multimétodo-

Multirasgo, es que no existe un criterio estadístico que permita tomar decisiones acerca de si un

test tiene realmente validez convergente y discriminante, lo único que se puede decir es que

parece haber evidencia de su existencia o de su ausencia. Actualmente, para poder obtener

mayor información, se está utilizando el análisis factorial confirmatorio.

Es quizás la técnica más utilizada, tanto en su vertiente exploratoria como confirmatoria, para poner a prueba las hipótesis planteadas acerca de la estructura interna del constructo y de

las relaciones del mismo con otras variables. Resulta de interés conocer la utilidad de esta

técnica para el estudio de la validación de constructo.

Las medidas que proporcionan los tests, pueden hacer referencia a variables

unidimensionales o multidimensionales y, precisamente, el Análisis Factorial nos va a permitir

descubrir la estructura que subyace a las puntuaciones obtenidas por los sujetos en los distintos

ítems del test, o en un conjunto de tests .

Cuando el Análisis Factorial se utiliza desde el Enfoque exploratorio – no seestablecen hipótesis previas acerca del número de dimensiones, es la propia técnica la que nos

aportara esta información.

Desde el Enfoque confirmatorio – se establecen a priori hipótesis acerca de laestructura subyacente y del número de dimensiones, y mediante las técnicas oportunas, se

comprueba si se pueden aceptar las hipótesis propuestas.

Bajo el epígrafe Análisis factorial (AF) – se incluyen una serie de técnicas

estadísticas, cuyo objetivo es representar y explicar un conjunto de variables observables (ítemsde un test, conjunto de tests, escalas, etc.) mediante un menor número de variables latentes oinobservables, llamadas factores. Cada factor, se podría considerar como un constructo (variable

latente) que vendría definido, por las variables observables que lo conforman. Estas variables,

son las que van a permitir dar una interpretación psicológica al constructo (factor).

Para llevar a cabo un análisis factorial – se parte de un conjunto de “n” medidas,tomadas a la misma muestra de sujetos, en un conjunto de variables observables (por ejemplo,

las puntuaciones obtenidas por una muestra de sujetos en los n ítems de un test) y, a partir de

ellas, se obtiene una matriz (n X n) con las intercorrelaciones entre todas ellas. Es a partir de esa

matriz de correlaciones cuando, aplicando alguna técnica estadística de análisis factorial, se

intenta identificar un número más reducido de variables latentes llamadas factores.

Cuando en un mismo factor se agrupan múltiples indicadores del constructo, seobtiene evidencia de la validez convergente.Cuando en el análisis, se han obtenido medidas de otros constructos y éstas aparecenagrupadas en distintos factores, se obtiene evidencia de validez discriminante.

: supongamos que a la matriz de correlaciones obtenidas en el ejemplo anterior, se le

hubiera aplicado alguna técnica de Análisis factorial, y que la estructura factorial encontrada

hubiese sido la siguiente:


12/26

12

Variables Factor 1 Factor 2RN (V-F) 0.86 ….RN (E-M) 0.75 ….RN (F-I) 0.92 ….FE (V-F) …. 0.82FE (E-M) …. 0.74FE (F-I) …. 0.63RA (V-F) 0.42 0.33RA (E-M) 0.51 ….RA (F-I) …. 0.54

: cómo podemos observar, tras la factorización se han

obtenido 2 factores. En el primero de ellos: se agrupan las medidas correspondientes alas variables utilizadas como indicadores del constructo Razonamiento numérico, junto

a dos, correspondientes al constructo Razonamiento Abstracto. El segundo Factor: estádefinido por todas las medidas correspondientes a las variables utilizadas como

indicadores del constructo Razonamiento espacial, junto a otras dos correspondientes al

Razonamiento abstracto. Estos resultados parecen indicar que, en realidad, estamos ante

2 constructos bien definidos (RN y RE); respecto al tercer constructo hipotetizado (RA),

sería necesario hacer una nueva evaluación del mismo, estudiar más detenidamente su

marco teórico, o bien revisar los tests utilizados para su medición.

Este tipo de estudios de validación, permiten obtener evidencia acerca del grado en que

las puntuaciones obtenidas en el test, pueden util izarse eficazmente para hacer inferencias acerca

del comportamiento real de los sujetos, en un criterio, que no puede ser medido directamente ,

bien por no estar disponible en el momento de la investigación, bien porque su medida puede

resultar difícil o costosa y, por lo tanto, sea aconsejable obtener información del mismo por

otros procedimientos.

En los estudios de validación referida al criterio, el objetivo principal es evaluar la

hipótesis de relación entre test y criterio . La forma de analizar esta relación, depende de muchos

factores, entre ellos, la complejidad del criterio y la dificultad para definirlo claramente. Para

Croker y Algina – se suelen utilizar 2 tipos de índices o medidas para describir la capacidad de un test o conjunto de tests, para predecir un criterio:

coeficiente de validez, de determinación, de

alineación, de valor predictivo, etc...

(errores de estimación).

Este tipo de estudios se suelen realizar desde 2 perspectivas diferentes, dependiendo de:


13/26

13

El uso que se vaya a dar al test yEl tipo de inferencias que se vayan a hacer

Validez predictiva – cuando los tests se van a utilizar para la selección, clasificación ocolocación de personas en determinados programas o puestos de trabajo, lo interesante

es analizar la validez predictiva de los tests, es decir, su capacidad para pronosticar a partir de las puntuaciones obtenidas por los sujetos, su posterior rendimiento en el programa de formación, en el trabajo, en un curso de formación etc. Es necesariorecordar, que cuando se trata de obtener evidencia acerca de la validez predictiva de untest, la medida del criterio se obtiene con posterioridad a la del test.

Validez concurrente – si por el contrario, se trata de utilizar los test para hacer undiagnóstico, es más adecuado llevar a cabo un estudio de la validez concurrente. Enestos estudios, la medida del criterio se obtiene a la vez que la del test.

A diferencia de lo que ocurría en el proceso de validación de constructo, la validación

referida al criterio, es un proceso en el que la teoría no juega el papel principal, en su lugar, seacentúa el interés en el aspecto empírico del proceso más que en el teórico. No obstante, unanálisis cuidadoso y una conceptualización teórica del criterio, facilitan la tarea de aislar las

dimensiones y subdimensiones que lo conforman, de manera que, cada una de ellas, pueda ser

predicha por diferentes variables (validación de constructo del criterio). Un estudio de

validación de constructo del criterio, ayudará a determinar las dimensiones a medir, cómo se

medirá cada una de ellas y si se desea, cómo combinarlas.

Para diseñar un estudio de validación referida al criterio, es necesario seguir una serie

de pasos:

Definir claramente el criterio que se quiere medir.Identificar el indicador o indicadores que se van a utilizar para obtener la medida delcriterio.

Seleccionar una muestra de sujetos, que sea representativa de la población en la que posteriormente se va a utilizar el test

Aplicar el test a la muestra de sujetos y obtener una puntuación para cada uno de ellos.

Obtener una medida, de cada sujeto, en el criterio, bien en el mismo momento de laaplicación del test (validación concurrente) o bien al cabo de un cierto tiempo(validación predictiva).

Determinar el grado de relación entre las puntuaciones obtenidas por los sujetos en eltest y la medida criterio.

Ya se ha comentado que cuando los tests se utilizan para la selección, clasificación y

colocación de las personas en determinados puestos de trabajo o programas específicos, los

estudios de validación tienen como objetivo estudiar la efectividad con la que se puede

pronosticar (inferir), a partir de las puntuaciones que hayan obtenido los sujetos en los test, la

eficiencia o éxito alcanzado en el puesto de trabajo o en el programa en el que hayan sido

admitidos. Se trata por lo tanto, de utilizar los tests para seleccionar aquellas personas que vayan

a tener una mayor probabilidad de realizar un trabajo o aprovechar el programa con éxito.

En este punto, surge el problema de analizar qué es aquello que constituye el éxito.Este concepto es algo muy complejo (un constructo teórico) que tiene muchas facetas y, por


14/26

14

tanto, es muy difícil de definir de forma precisa y más difícil todavía obtener una medida

adecuada y completa del mismo. Recordemos que en nuestro ejemplo de la selección de

vendedores, se utilizó como indicador del criterio de éxito, el número de ventas realizadas en

una semana; se trata de un indicador de tipo práctico, fácil de obtener y probablemente, de cara

al cliente, es un indicador válido. Sin embargo, otros indicadores del criterio resultan más

difíciles de operativizar, como por ejemplo, al intentar determinar qué es lo que constituiría eléxito como profesor de psicometría, indicadores como: su capacidad de empatía, su nivel de

conocimientos, la calidad de sus publicaciones…

Tanto en un caso como en otro, tenemos que tener en cuenta que todos los indicadores son

parciales y no ofrecen una comprensión completa del criterio. Entonces ¿Cómo decidir cuáles el indicador que se debe elegir?

Thorndike y Hagen: consideran que los indicadores deben cumplir una serie de requisitos:

Que sean relevantes – un indicador es relevante en la medida en que se correspondecon el criterio. No existe evidencia empírica que nos permita decidir si un indicador esrelevante o no. Para apreciar la relevancia, es necesario tener en cuenta consideracionesracionales y apoyarse en los juicios de expertos. La presencia de indicadoresirrelevantes, puede influir negativamente en las predicciones que se hagan y lasdecisiones que se tomen. Así, cuando un profesor está evaluando un examen dematemáticas de un niño, en el juicio que emita acerca de su capacidad, pueden estarinfluyendo otros factores como las faltas de ortografía o la presentación. Estos factores,

pueden ser irrelevantes para la medida de la capacidad matemática del niño, y suinfluencia, atenuar la importancia del indicador seleccionado como relevante de aquelloque se quiere predecir.

Que estén libres de sesgos – es decir, que las medidas del criterio, representen laverdadera competencia de los sujetos y no estén determinadas por factores que actúende manera diferencial en determinados grupos. De este modo, si se quiere evaluar lacompetencia de las secretarias de una empresa, pidiéndoles a sus jefes directos que lasevalúen, el juicio de los jefes será un indicador libre de sesgos, si la evaluación quehagan de la competencia de sus secretarias, no depende más que de su competencia

profesional y no de “otros factores”.

Que sean fiables – es decir, las medidas que proporcionen los indicadores (medidas delcriterio) han de ser estables. Una persona no puede ser considerada competente para eltrabajo que realiza un día y al día siguiente ser considerado incompetente. Si estoocurriese, si la medida del criterio no fuese fiable, sería imposible encontrar un tests

capaz de pronosticarla.

Que sean accesibles – a la hora de seleccionar los indicadores, se suelen presentar problemas de distinta índole. Pueden ser problemas económicos, que haya que esperarmucho tiempo para poder obtener la medida del criterio…todas estas limitaciones hayque tenerlas en cuenta a la hora de seleccionar los indicadores y, trata en la medida de lo

posible, de seleccionar aquellos que sean más accesibles, siempre y cuando cumplancon los otros requisitos.

Cuando se quiere obtener un índice numérico que evidencie la validez de un test enrelación con un criterio, se pueden utilizar numerosos procedimientos, aunque los más


15/26

15

utilizados están basados en correlaciones. No obstante, la utilización de una técnica u otra va adepender de:

El diseño de recogida de datos para la validación yDel número de variables implicadas:

•

Un único test predictor y un sólo indicador del criterio – Los procedimientos másutilizados son la correlación y el modelo de la regresión lineal simple. Según lanaturaleza de las variables implicadas, se utilizará un tipo de correlación u otra(correlación de Pearson, biserial, biserial puntual, coeficiente phi, tretracórica etc...)

• Varios tests predictores y un sólo indicador de criterio – en ocasiones se utiliza una batería de tests para predecir un único criterio. En estos casos, los procedimientos quese utilizan son: la correlación y la regresión lineal múltiple. Si el criterio es cualitativo,se suele utilizar otra técnica multivariante denominada análisis discriminante y cuandose utilizan criterios dicotómicos, la regresión logística.

• Varios predictores cuantitativos y varios indicadores del criterio cuantitativos – enestos casos las técnicas más adecuadas son la regresión lineal múltiple y la correlacióncanónica. Sin embargo, rara vez se utilizan a la hora de llevar a cabo un estudio de

validación, por la dificultad para interpretar los resultados que proporcionan.• Procedimientos basados en la teoría de decisión: validez y utilidad en las decisiones

– los procedimientos propuestos, se basan en diferentes métodos para optimizar lasdecisiones realizadas con el test: técnicas máximin y mínimax y, especialmente, laTeoría de la utilidad multiatributo.

Vamos a exponer aquellas más importantes para comprender la forma de llevar a cabo un

estudio de validación.

La correlación y la regresión lineal simple son, en este caso, las técnicas másutilizadas para obtener evidencia acerca del grado en que las puntuaciones obtenidas por los

sujetos pueden ser utilizadas para predecir las que obtendrían en el criterio:

La correlación, porque nos permitirá conocer el grado de asociación entre el test y el criterio.El modelo de regresión, porque nos permitirá pronosticar, a partir de las

puntuaciones obtenidas en el predictor, las puntuaciones en el criterio.

Nosotros sólo vamos a exponer su aplicación, para estudiar las relaciones entre el test y elcriterio.

– Correlación entre las puntuaciones obtenidas por los sujetos en el test

pr edictor y las obtenidas en el criterio. A partir de esta definición, se pone de manifiesto la

importancia que tiene el indicador elegido para obtener la medida del criterio ya que, en última

instancia, a partir de las puntuaciones obtenidas por los sujetos en el test, se podrán obtener

tantos coeficientes de validez como indicadores del criterio se elijan para su validación. Así

mismo, un test puede ser muy válido para predecir un criterio cuando se utiliza un determinado


16/26

16

indicador y obtener coeficientes de validez prácticamente nulos con respecto a otros

indicadores.

El tipo de correlación utilizada para el cálculo del coeficiente de validez, dependerá de lanaturaleza de las variables implicadas. En la siguiente tabla, se expone cuál es el índice más

adecuado en cada caso:<

INDICADORCRITERIO

TESTContinua Dicotomizada Dicotómica

Continua Pearson Biserial Biserial puntualDicotomizada Biserial Tetracórica Фbiserial

Dicotómica Biserial puntual Фbiserial Ф

Si designamos por X las puntuaciones del test y por Y las del indicador del criterio, lafórmula del coeficiente de validez será:

Correlación de Pearson – cuanto tanto el test (X) como el criterio (Y) son 2 variablescuantitativas continuas:

( ) ( )2 2

2 2

xy

N XY X Y r

N X X N Y Y

−=

− −

∑ ∑ ∑

∑ ∑ ∑ ∑

Correlación biserial – siendo X la variable cuantitativa e Y la variable dicotomizada:.

p q p

b

x x

X X X X pq pr

S y S y− −= =

p X = Media en X de los que obtuvieron un 1 en Y.

q X = Media en X de los que obtuvieron un 0 en Y.

xS = Desviación típica en X de todas las personas de la muestra.

p y q= Proporción de personas que obtuvieron un 1 y un 0 respectivamente en Y.

y = ordenada que en una distribución normal corresponde a la abscisa que divide el área

total en dos partes iguales a p y q.

X = Media en X de todas las personas de la muestra.

Correlación biserial puntual – X la variable continua e Y la dicotómica (los símbolosincluidos en esta fórmula, tienen el mismo significado que los de la fórmula anterior)

/ p q p

bp

x x

X X X X r pq p q

S S

− −= =

Coeficiente Ф – las 2 variables son dicotómicas:


17/26

17

( )( )( )( )

cb ad

a b c d a c b d φ

−=

+ + + +

Dónde: a, b, c y d, representan el número de personas de la muestra, cuyas puntuaciones

en X y en Y son respectivamente (0,1), (1,1), (0,0), (1,0).

Para una mejor comprensión, se puede construir una tabla de doble entrada:

X0 1

Y 1 a b0 c d

Coeficiente Фbiserial – la variable X se ha dicotomizado y la variable Y esdicotómica:

( )( )biserial

pqbc ad

ya b c d φ

−=

+ +

Dónde: a, b, c y d, tienen el mismo significado que en la fórmula anterior y p, q e y, el

mismo significado que en la correlación biserial puntual. Se trata de un híbrido entre losdos coeficientes:

Correlación tetracórica – tanto X como Y son variables continuas que se handicotomizado artificialmente. Su cálculo es muy laborioso, pero se han ofrecido algunasaproximaciones muy sencillas.La más utilizada, consiste en calcular la razón bc/ad y consultar la tabla

correspondiente.

Si la razón es menor que la unidad: se debe usar la recíproca ad/bc paraconsultar la tabla, y en este caso, la correlación sería negativa.

El significado de a, b, c y d es el mismo que en las correlaciones anteriores (tabla de

doble entrada)

Sea cual sea el coeficiente utilizado para calcular el coeficiente de validez: Losvalores que puede alcanzar van a estar incluidos en el intervalo -1 y 1.

Una vez conocido el grado de asociación entre el test y el criterio (coeficiente de

validez), se puede utilizar el modelo de regresión para hacer pronósticos. En los temas

correspondientes al estudio de la fiabilidad, se explicó la utilización del modelo de regresión


18/26

18

lineal para hacer estimaciones acerca de las puntuaciones verdaderas de los sujetos, a partir de

su puntuación empírica. Ahora, vamos a ver de qué forma se va a utilizar el modelo para, a

partir de las puntuaciones obtenidas por los sujetos en el test, hacer estimaciones acerca de

su puntuación en el criterio.

Mediante el modelo de regresión se intenta buscar una ecuación lineal que hagamínimos los errores de pronóstico . Dicha ecuación pondrá de manifiesto la relación de

dependencia lineal entre el test y el criterio, y tomará la siguiente forma:

a – ordenada en el origen o termino constante, que representa el valor pronosticado en

el criterio (Y´) cuando en el test (X) se obtiene un valor 0.

b – pendiente de la recta de regresión. Representa el cambio en los valores del criterio

Y, por cada cambio unitario en el test X.

El valor de la pendiente (b): se puede obtener en función del coeficiente de validez y de lasdesviaciones típicas de las puntuaciones obtenidas por los sujetos en el test y en el criterio,

mediante la siguiente expresión:

=

Una vez calculado el valor de la pendiente, se calcula el de la ordenada en el origen, mediante la

siguiente expresión:

= � − �

Esta expresión pone de manifiesto que la recta de regresión debe pasar por el punto ( �,�) Una vez obtenidos los valores de a y de b, se puede obtener la ecuación de la recta de regresión,

que puede venir dada en tres tipos de puntuaciones:

Puntuaciones directas: ´ = � − �+ = ( − �) +

Puntuaciones diferenciales: ´ = ( − �)

´ = +


19/26

19

Puntuaciones típicas: ´´ = La diferencia entre la ecuación de regresión en puntuaciones directas ydiferenciales es: que en estas últimas, la ordenada en el origen es 0 y, por lotanto, la ecuación pasa por el origen de coordenadas. Ahora bien, al tener ambasecuaciones la misma pendiente, se trata de dos rectas paralelas.Las ecuaciones de regresión en puntuaciones típicas: al igual que las

puntuaciones diferenciales, pasan por el origen de coordenadas y, teniendo encuenta que en la escala de puntuaciones típicas la desviación típica es la unidad,la pendiente de la recta de regresión será el coeficiente de validez.

Hasta aquí, hemos utilizado una muestra de sujetos a la que se les ha aplicado el test cuya

capacidad predictiva respecto al criterio se quiere validar; a estos mismos sujetos, se les ha

calificado en el criterio y, con todos esos datos, se han construido las ecuaciones de regresión.

Pues bien, la verdadera utilidad de estas ecuaciones, no está en pronosticar las puntuaciones de

los sujetos en el criterio (no tendría mucho sentido, ya que conocemos las puntuaciones que

realmente han obtenido), sino en la posibilidad de pronosticar la puntuación que obtendrán en el

criterio, otra muestra de sujetos, de las mismas características que la muestra utilizada para la

construcción de las ecuaciones de regresión, a partir de las puntuaciones que obtengan en el test.

Mediante la aplicación de las ecuaciones de regresión, obtenemos una estimación puntual delas puntuaciones de los sujetos en el criterio.

El coeficiente de validez – indica la eficacia del test o variable predictora para estimar el criterio. En la medida en que el coeficiente de validez sea más alto, la estimación será más exacta. En el

límite, cuando el coeficiente de validez, fuera la unidad, el valor estimado coincidiría con la

puntuación que realmente obtuvieran los sujetos en el criterio. Sin embargo, dado que nunca se

alcanzan coeficientes de validez, perfectos (iguales a 1 en valor absoluto), la estimación del

criterio, estará afectada por el denominado error de estimación del criterio y se define como:la diferencia entre la puntuación que ha obtenido el sujeto en el criterio y la que se le pronostica

mediante la ecuación de regresión:

= ´ −

Con cada sujeto, se comete un determinado error de estimación del criterio. A la varianza detodos los errores de estimación cometidos con los sujetos de la muestra seleccionada, se ledenomina varianza residual, varianza error o error cuadrático medio y viene expresada

por:


20/26

20

2 = ∑( − ´)2

Y = puntuaciones obtenidas por cada sujeto en el criterio.

Y´= puntuaciones pronosticas a cada sujetos mediante la ecuación de regresión.

N = número de sujetos de la muestra

La Varianza error – representa la variabilidad media de las puntuaciones de los sujetos en elcri terio, respecto a la puntuación que se les pronostica mediante la recta de regresión.

La desviación típica de todos estos errores de estimación del criterio cometidos con los sujetosde la muestra seleccionada, se denomina: Error típico de estimación y su fórmula es:

= ∑( − ´)2

Cuando se utilizan las ecuaciones de regresión para hacer pronósticos se cumplen unas propiedades fundamentales:

La media de las puntuaciones obtenidas por los sujetos en el criterio, es igual a la media

de las puntuaciones pronosticadas: = ´ La suma de todos los errores de estimación es 0, lo que implica, que la media de loserrores cometidos sea igual a 0: Σ(Y – Y´) = 0

La varianza de las puntuaciones obtenidas por los sujetos en el criterio (VariableDependiente Y), es igual a la varianza de las puntuaciones pronosticadas, más la

varianza de los residuos o varianza error: = ´ +

Debido a los errores de estimación que se cometen al hacer los pronósticos, más que

estimaciones puntuales, es conveniente hacerlas por intervalos. Para ello, asumiendo que ladistribución de dichos errores se ajusta a una distribución normal, cuya desviación típica,viene dada por el error típico de estimación, se establece un intervalo confidencial en tornoa la puntuación pronosticada. Los pasos a seguir son los siguientes:

Determinar un nivel de confianza y buscar la puntuación típica asociada.

Calcular el error típico de estimación.

Calcular el error máximo.

Aplicar la ecuación de regresión correspondiente y obtener la puntuación pronosticada.

Establecer el intervalo de confianza.


21/26


22/26

22

Una vez visto esto, vamos a interpretar los resultados obtenidos, en función de 3 coeficientes

El coeficiente de determinación, equivale al coeficiente de validez al cuadrado y representa la

proporción (o porcentaje) de la varianza de las puntuaciones de los sujetos en el criterio (Y:

variable dependiente), que se puede pronosticar a partir del test (X: variable predictora o

independiente). También se define como la varianza común o asociada entre el test y el cr iterio

. = 2

. = = = 1− 2

Aunque la fórmula es equivalente a la del error típico de estimación en puntuaciones típicas, de

cara a la interpretación de este coeficiente, conviene saber que, en realidad, indica la proporciónque representa el error típico de estimación, respecto a la desviación típica de las puntuaciones en

el criterio .En la medida en que el error típico, sea más pequeño que la desviación típica delcriterio, el coeficiente K será menor.El valor de K oscila entre 0 y 1: será máximo cuando el coeficiente de validez sea 0 ymínimo cuando el coeficiente de validez sea 1.El coeficiente de alienación, representa la inseguridad o el azar, que afecta a los

pronósticos.

El coeficiente de alineación al cuadrado es el complementario del coeficiente de

determinación, y representa, por lo tanto, la proporción (o el porcentaje) de la varianza de laspuntuaciones de los sujetos en el criterio que no se puede predecir a partir del test , esto es, la

proporción de varianza error que hay en la varianza de las puntuaciones de los sujetos en el

criterio .

.

.

= 1

− 1

− 2


23/26


24/26

24

En la columna 7, aparecen recogidos los errores de estimación cometidos con cada uno de los

sujetos al hacer los pronósticos ( − ´); recordemos que la suma de estos errores, es igual acero. Así mismo, hay que recordar que si el coeficiente de validez hubiese sido la unidad, loserrores de predicción o de estimación, hubiesen sido nulos. (Como ejercicio complementario, elalumno puede calcular las puntuaciones pronosticadas en puntuaciones diferenciales y típicas).Así las ecuaciones de regresión serían:

En puntuaciones directas: ´ = + , por lo que tenemos que calcular los valorescorrespondientes a b y a

Como sabemos: = = � − �, por tanto, tenemos primero que calcular , �, 2,2 = ∑ = 616 = , = ∑ = 436 = ,

2=

∑ 2

− �2=

711

6 −10,17

2= 15,07;

= 3,88

2 = ∑2 − �2 = 3356 − 7,172 = 55,84; = 2,10 Por tanto:

= = 0,732,103,88 = 0,395 = � − � = 7,17− 0,395 ∙ 10,17 = 3,15 Quedando las rectas de regresión:

En puntuaciones directas:

´ = 3,15 + 0,395 ∙ En puntuaciones diferenciales:

´ = = 0,395 En puntuaciones típicas:

´ = = 0,73 El error típico de estimación: como hemos dicho, la varianza de las puntuaciones delos sujetos en el criterio, es igual a la varianza de las puntuaciones pronosticadas, más la

varianza de los errores de estimación (.2 ):2 = ´2 + .2 2 = 4,43 ´2 = ∑´2 − �´2 = 322,366 − 51,41 = 2,31

.2 = ∑( − ´)2 − 0 = 2,12

2=

´2+

.2 ⇒4,43 = 2,31 + 2,12


25/26

25

La desviación típica de los errores de estimación, se denomina error típico de estimación, y ennuestro ejemplo sería.

. = 2 = 2,12 = 1,46 Intervalos confidenciales:

Ya contamos con todos los datos para poder hacer un estimación acerca de la puntuación que sele pronosticaría a un sujeto en el criterio, a partir de su puntuación en el test . Supongamos, quequeremos saber qué puntuación le correspondería en el criterio, a un sujeto que en el testhubiese obtenido una puntuación X=13. Vamos a hacer una estimación puntual y unaestimación por intervalos. Para establecer los intervalos confidenciales o de confianza, dijimosque había que seguir una serie de pasos.

Determinar un nivel de confianza y buscar la puntuación típica asociada: para esteejemplo, el NC= 95%, por lo tanto ZC= ±1,96

Calcular el error típico de estimación: que ya lo teníamos calculado SYX=1,46Calcular el error máximo.

. =

∙ = 1,96

⋅1,46 = 2,86

Aplicar la ecuación de regresión correspondiente y obtener la puntuaciónpronosticada.Puntuación pronosticada en puntuaciones directas: ´ = 3,15 +0,396 (13) = , Puntuación pronosticada en puntuaciones diferenciales: ´ = 0,396(13−10,17) = , Puntuación pronosticada en puntuaciones típicas:

´ = ∙ ⇒ = − � = 13− 10,173,88 = 0,304 ´ = 0,73 ∙ 0,304 = , Establecer el intervalo de confianza.

Las puntuaciones pronosticadas en el apartado anterior son, la estimación puntual, de las queobtendría en el criterio, el sujeto que en el test obtuvo una puntuación de 13 puntos. Ahora

hacemos la estimación por intervalos:

En puntuaciones directas:

´ ± .á = 8,28 ± 2,86 ⇒ 5,42 ≤ ´ ≤ 11,14 En puntuaciones diferenciales:

´ ± .á. = 1,18 ± 2,86 ⇒ −1,68 ≤ ´ ≤ 4,04 En puntuaciones típicas: para establecer el intervalo en puntuaciones típicas, hay quetener en cuenta que el error típico de estimación es diferente y hay que calcularlo, por loque el E.Máx. será también diferente.

= 1− 2 = 1− 0,732 = 1− 0,53 = 0.69, por tanto, en puntuaciones típicas, elE.Máx, será:á = ∙ = 1,96 ∙ 0,69 = 1,35, por tanto, el intervalo de confianza en puntuacionestípicas será: ´ = 0,22 ± 1,35 ⇒ −1,13 ≤ ´ ≤ 1,57 A la vista de los resultados obtenidos, podemos decir que la puntuación en el criterio de ese

sujeto, estará comprendida en los intervalos encontrados y eso lo afirmamos con un nivel de


26/26

confianza del 95%, o lo que es lo mismo, con una probabilidad igual o menor de 0,05 de

equivocarnos.

Coeficiente de determinación: el coeficiente de determinación, venía expresado por:

. = 2 = ´2

2 =2,31

4.43 = 0,52 Este resultado se puede multiplicar por 100 y expresarse como porcentajes. De este modo,

podemos decir que existe un porcentaje de varianza común o asociada entre ambas variables de

un 52%, o lo que es lo mismo, a partir de la variación de las puntuaciones obtenidas por los

sujetos en el test, se puede predecir el 52% de la variación de las puntuaciones de esos mismos

sujetos en el criterio, quedando un 48% de la varianza de las puntuaciones en el criterio, sin

explicar por el test; es decir, un 48% de varianza error (S2XY)2 = 2,124,43 = 0,48 Coeficiente de alienación: definido por la expresión:. = = 1− 2 = = 0.69

Esto quiere decir que el error típico de estimación, representa el 69% de la desviación típica de

las puntuaciones en el criterio, y que, por lo tanto, hay un porcentaje alto de inseguridad en los

pronósticos, frente al 31% de seguridad (C.V.P)

Coeficiente de valor predictivo: definido por:

.. = 1− . = 1− 1− 2 = 1− 0,69 = 0,31

Psicometria TEMA 6

Documents

Transcript of Psicometria TEMA 6