Psicometria TEMA 8

download Psicometria TEMA 8

of 26

Transcript of Psicometria TEMA 8

  • 8/16/2019 Psicometria TEMA 8

    1/26

    1

    :

    El análisis de la calidad métrica del test y de cada uno de los ítems que lo conforman, es unafase muy importante en la construcción de un instrumento de medida. En los temas anteriores, hemos

    estudiado las características psicométricas del test. Este tema, se centra en el análisis de cada ítem y en

    las repercusiones de su funcionamiento sobre las características psicométricas del test

    La evaluación de la calidad métrica de los elementos o ítems del test nos informa de las

    características estadísticas de éstos y de su contribución a la medición del constructo o dominio de

    interés. De este modo, con este análisis, se va a disponer de información relevante para decidir qué

    ítems se van a utilizar para medir el constructo o dominio, y qué ítems se deben desechar por su baja

    calidad técnica. En definitiva, el análisis de ítems es útil:

    Para la construcción y mejora de un testPara maximizar la fiabilidad y validez del test

    En este tema se va a estudiar lo que podría denominarse el análisis cuantitativo de los ítems,en el que se estudian sus propiedades estadísticas y psicométricas. Se supone que un primer análisis

    cualitativo de los ítems ya se ha realizado en las fases anteriores (análisis de la validez de contenido,

    de constructo, formato, calidad de redacción, evaluación de jueces…). Este análisis de ítems, se lleva a

    cabo en dos fases de la construcción de un instrumento de medida:

    En el estudio pilotoEn la confección de la prueba final

    En ambas fases, la finalidad es seleccionar los ítems que presentan una mayor calidad métrica y que,

     al mismo tiempo, se ajustan a los criterios de fiabilidad y validez establecidos previamente.Como ya sabemos, los ítems pueden adoptar diferentes formatos de presentación; pueden ser de

    elección múltiple, de verdadero-falso, así como de respuesta abierta en los que el sujeto produce la

    respuesta. Así mismo, los tests pueden medir tanto variables aptitudinales y de rendimiento (tests de

    ejecución máxima), como actitudinales (tests de ejecución típica). Para el desarrollo de este tema, y

     para situarnos en el caso más general, vamos a suponer que el test que se quiere analizar es un test de

    ejecución máxima, es decir, de aptitudes mentales o de rendimiento académico, con ítems que

     presentan un formato de elección múltiple, en los que existe una alternativa correcta y varias

    incorrectas, de manera que los estadísticos que vamos a presentar a continuación, se pueden aplicar a

    este tipo de ítems y de tests. Cuando tratemos otros formatos o de otros tipos de tests, algunos índices

    no se podrán aplicar y otros, recibirán otra interpretación diferente.En este tema:

    En primer lugar, se van a definir los criterios para evaluar la calidad métrica de un ítemA continuación, se presentan los principales parámetros utilizados para la cuantificación de las propiedades psicométricas del ítem y su relación con los parámetros del test

    La información proporcionada por estos parámetros, basada en las respuestas a la alternativacorrecta, se complementa con el análisis de las alternativas incorrectas o distractores, y suinfluencia sobre la calidad del ítem.

    Por último, se explica en qué consiste el funcionamiento diferencial del ítem y cómodetectarlo.

  • 8/16/2019 Psicometria TEMA 8

    2/26

    2

    La calidad métrica de los ítems de un test, se puede evaluar con el análisis de las respuestas delos sujetos a 2 elementos importantes del test: la alternativa correcta y las alternativas incorrectas.

    Las respuestas a la alternativa correcta, son las que ofrecen mayor información sobre lacalidad del ítem y de su relación con test. En este tipo de respuestas, se estudian 4 aspectos

    fundamentales del ítem:

    1.  La dificultad del ítem: es un aspecto que se establece a priori desde consideraciones teóricasy que está en función del contenido y de la complejidad de las operaciones demandadas alsujeto para responder correctamente al ítem. La dificultad teórica de los ítems, se contrastaempíricamente y se cuantifica mediante el análisis de los ítems. La medida empírica de ladificultad, informará de los ítems que presentan una dificultad o facilidad extrema, que debenser revisados o eliminados, debido a que no contribuyen a la medida del constructo. Asímismo, en función del uso previsto del test definitivo, la medida objetiva de la dificultad delítem, puede ser un criterio relevante en la selección de ítems para el test final.

    2.  La discriminación del ítem: es una propiedad psicométrica fundamental en un ítem. Seconsidera que un ítem manifiesta poder discriminativo, cuando es capaz de diferenciaradecuadamente a los sujetos de diferentes niveles de una variable criterio (VD)

    3.  La fiabilidad y validez del ítem: son índices que reflejan la contribución del ítem, a lafiabilidad y validez del test referida al criterio en su conjunto. Como veremos más adelante, ambos índices están estrechamente relacionados con la discriminación de los ítems.

    El análisis de las respuestas a las alternativas incorrectas: también denominado  análisis de distractores, informa sobre la utilidad de cada alternativa incorrecta en el ítem y de su contribución a

    la calidad del mismo. Debido a que las propiedades psicométricas de la alternativa correcta, se venafectadas por la calidad de los distractores, su estudio resulta imprescindible para la revisión y mejora

    de calidad de los ítems.

    A continuación, veremos los estadísticos propuestos para medir cada uno de los aspectos

    mencionados.

    : Se han propuesto diferentes estadísticos para medir la dificultad de un ítem. El másusado y sencillo de calcular es el estadístico p, según el cual, la dificultad de un ítem, viene dada por la

     proporción de sujetos que responden correctamente a ese ítem.

    A = nº de sujetos que responden correctamente N = nº de sujetos que responden al ítem

    =  

  • 8/16/2019 Psicometria TEMA 8

    3/26

    3

     Normalmente, el valor de p de cada ítem, se multiplica por 100 para su interpretación; de esta

    manera, si un ítem tiene un valor p igual a 0,60, significa que el 60% de los sujetos de la muestra, han

    respondido correctamente a ese ítem (se puede saber por tanto, cuántos sujetos han respondido

    correctamente).

    Este estadístico, oscila entre un valor mínimo de p = 0  lo que implica un ítem muy difícil, yaque ningún sujeto lo habrá respondido correctamente, y un valor máximo de p = 1  tratándose eneste caso de un ítem muy fácil, pues ha sido respondido correctamente por todos los sujetos.

    Los ítems con estos dos valores extremos, han de ser descartados del test final, debido a queno contribuyen a medir las diferencias existentes entre los sujetos (¿discriminabilidad?)

    Cuando se calcula el valor de p en ítems dicotómicos, éste coincide con la puntuación mediade los sujetos en dicho ítem, lo cual implica que la media de los sujetos en un ítem dicotómico, coincide con la dificultad del ítem. Veamos esto con un :

    Se aplica a 10 alumnos, un ítem dicotómico de rendimiento en lengua. Las respuestas al ítem de los

    alumnos se muestran en la siguiente tabla, donde 1= acierto 0= error

    Alumno 1º 2º 3º 4º 5º 6º 7º 8º 9º 10ºResp. 1 1 0 1 1 0 0 1 1 0

    La media de la puntuación en el ítem de los alumnos es: � = ∑  = 610 = 0,6 Si calculamos ahora p:

    =  =6

    10 = 0,6 

    Lo cual implica que, el 60% de los sujetos han respondido correctamente al ítem, esto es, 6 sujetos.

    Si nos fijamos, este índice realmente debería llamarse realmente “índice de facilidad”, debido a que

    valores altos en p implican ítems fáciles, mientras que valores bajos, implican ítems difíciles.

    Una de las características interesantes del valor p: es que proporciona una medida de ladificultad de los ítems, que permite la comparación de ítems que miden diferentes dominios o constructos y son aplicados a los mismos sujetos. Así por ejemplo, si se aplica un test de matemáticas

    y otro de lengua a una misma muestra de sujetos, se puede perfectamente comparar los valores de p decualquier ítem de matemáticas, con otro de lengua y determinar cuál de esos dos ítems resulta más

    difícil a esos sujetos. Téngase en cuenta que para dicha comparación, resulta necesario utilizar la

    misma muestra de sujetos. Esto se debe a que la dificultad del ítem medida por el valor de p, caracteriza tanto al ítem como a la muestra de sujetos a la que se les ha aplicado el test, lo quequiere decir, que depende de la muestra utilizada (por ejemplo ¡¡capacidad de los sujetos!!) 

    Aclaremos este punto con un ejemplo. Supongamos que se ha confeccionado un test de

    inteligencia general y se aplica a 2 muestras independientes, una de alumnos de baja inteligencia y otra

    de superdotados. A continuación, se calcula el valor de p de cada ítem para cada muestra de sujetos.

    Seguramente, los valores de p de los ítems calculados en el grupo de baja inteligencia, serán más bajosque los calculados en el grupo de superdotados, ya que los ítems resultarán más fáciles a los

  • 8/16/2019 Psicometria TEMA 8

    4/26

    4

    superdotados que al grupo de baja inteligencia. Por lo tanto, queda patente que un mismo ítem puede

    dar un valor diferente en p, dependiendo del nivel medio de la muestra a la que se administra el test.

    En este sentido, se dice que el índice de dificultad p, depende tanto de las características del ítem como de la muestra de sujetos utilizada.

    En el caso de los tests referidos al criterio es razonable calcular el valor medio del conjunto

    de ítems que evalúan o miden un objetivo común. Si tenemos un conjunto de ítems que soncontestados por todos los sujetos, obtendríamos un índice de dificultad elevado, motivo por el cual,

    debemos plantearnos si tiene algún valor significativo estudiar dicho objetivo. Por otra parte, los ítems

    que resultan extremadamente difíciles (índice de dificultad bajo) pueden indicar que el aprendizaje o

    instrucción recibido por los sujetos no ha sido efectivo, o bien que el contenido de los ítems, no ha

    sido evaluado en dicho proceso de instrucción

    Cuando en un test los ítems presentan un formato de elección múltiple, o de verdadero-falso, lossujetos con muy poca o nula competencia, suelen responde al azar y pueden, por tanto, acertar y

    responder correctamente a los ítems. De este modo, el número de aciertos observados en los ítems,será mayor que lo esperado según el nivel de competencia de los sujetos. Es por ello que, en ítems deelección múltiple donde existe la probabilidad de responder correctamente al ítem sin tener lacompetencia adecuada, se lleva a cabo una corrección que controle el azar, en el cálculo de la dificultad del ítem. Este ajuste del valor de p, se realiza del siguiente modo:

    =  =    1 = 

      1  Dónde:

    Pc = dificultad del ítem corregidaP = dificultad del ítem sin corregirPazar = proporción de respuestas correctas al azarE = nº de respuestas incorrectasK = nº de alternativas del ítemN= nº de sujetos que han intentado responder al ítem.

    Como se puede observar, la dificultad del ítem corregida, se obtiene restando la proporción de

    aciertos que se espera por azar (que se calcula teniendo en cuenta el nº de alternativas del ítem, a la

     proporción de aciertos que se ha observado en el ítem. La aplicación de la corrección propuestaimplica que estamos suponiendo que:

      Existe un subgrupo de sujetos relativamente numeroso, que responden correctamente al ítem por pura adivinación

      Para este grupo de máxima incompetencia, todas las alternativas tienen la misma probabilidad

    de ser elegidas.Por tanto, si no se tiene sospechas evidentes de la existencia de este tipo de personas, conviene aplicar

    el índice de dificultad inicial sin la corrección, aunque se trate de ítems de elección múltiple.

    : en la tabla siguiente, se muestran las distribuciones de frecuencias de las respuestas

    de 500 alumnos a 4 ítems de elección múltiple con 4 alternativas de respuesta, que miden el

    rendimiento en matemáticas. La alternativa correcta de cada ítem, de cada ítem, está indicada con un

    asterisco.

  • 8/16/2019 Psicometria TEMA 8

    5/26

    5

    AlternativasÍtem A B C D

    1 5 200 105 190*2 64 255* 80 1063 5 492* 0 34 50 65 350* 35

    A.- Calcular la dificultad de cada ítem, tanto la corregida como la no corregida.

    •  Como sabemos, la dificultad de un ítem viene dada por:  =   de manera que la dificultad decada ítem será:

    Í1: = 190500

    = 0,38 Í2: = 255500

    = 0,51 Í3: = 492500

    = 0,98 Í4: = 350500

    = 0,70

    •  El índice de dificultad corregida viene dado por:

    − 

      de manera que en cada ítem será:

    Í1:  190 3103500 = 0,17 Í2: = 255245

    3500

    = 0,34

    Í3: = 492 83500 = 0,97 Í4: = 350150

    3500

    = 0,60 

    B.- Ordenar los ítems de menor a mayor dificultad según p

    •  Como sabemos, los ítems de menor dificultad serán aquellos que tengan una mayor p, puessignificará que muchos sujetos han respondido ese ítem correctamente, por tanto, laordenación será: ítem3, ítem4, ítem2 e ítem1

    C.- Analizar las diferencias entre p y pC  de los ítems:

    ítem p pC 3 0,98 0,974 0,70 0,60

    2 0,50 0,331 0,38 0,17

    Como podemos observar, la diferencia entre p y pc es mayor en los ítems más difíciles, y menor enlos ítems más fáciles. Esto se debe a que, supuestamente, en los ítems más fáciles no existe tantogrado de adivinación al azar, y por tanto, la corrección a realizar es menor (ítem 3 y 4). Sinembargo, en los ítems más difíciles (1 y 2), la corrección es mayor y, como consecuencia, ladiferencia entre ambos índices es mayor, debido a que, supuestamente, la adivinación por azar estambién mayor.

    Por otra parte, hay que señalar que la dificultad de los ítems, afecta claramente a lavariabilidad de las puntuaciones en el test y a la precisión con la que las puntuaciones del test

  • 8/16/2019 Psicometria TEMA 8

    6/26

    6

    discriminan entre diferentes grupos de sujetos. Cuando todos los ítems de un test son muy difíciles(valores de  p muy bajos), la mayoría de las puntuaciones en el test son muy bajas. Cuando por el

    contrario, todos los ítems son muy fáciles (valores de p muy altos), las puntuaciones serán muy altas 

    En ambos casos, por tanto, se observará muy poca variabilidad en las puntuaciones del test, lo que

    ilustra la influencia de p sobre la variabilidad de las puntuaciones. Esto que acabamos de decir, puede

    ser expresado formalmente, mediante la expresión:

    2 = 2 + 2(, )

  • 8/16/2019 Psicometria TEMA 8

    7/26

    7

    En este caso, el índice de discriminación, se puede interpretar como índice de homogeneidad , porque expresa el grado de semejanza, de relación, entre las respuestas al ítem y el resto de los ítems

    medidos a través de la puntuación total en el test.

    Cuando el criterio es externo: el índice de discriminación es una medida del grado de validez

     del ítem con respecto a ese criterio, y su valor es proporcional al índice de validez del ítem 

    Se han propuesto numerosos estadísticos para cuantificar el poder discriminativo de un ítem. A

    continuación, se van a presentar dos tipos de medida utilizadas con frecuencia en las aplicaciones

     psicométricas: el índice de discriminación D, y los coeficientes de discriminación. Por razones declaridad, la presentación de los estadísticos, se realizará con respecto al criterio interno de la

     puntuación en el test (homogeneidad).  Para su aplicación con un criterio externo, sólo será necesario cambiar la variable criterio en las fórmulas. 

    El índice de discriminación D, se basa en la información que proporciona la comparación del

    rendimiento de los grupos extremos (alto y bajo) en las puntuaciones en el test (o un criterio externo).

    La idea subyacente es la siguiente: supongamos que se aplica un test a una muestra de sujetos y se

    obtiene la puntuación X de cada uno de ellos. A partir de X, se forman tres grupos de sujetos: los debaja, los de media y los de alta puntuación en el test. El poder discriminativo de un ítem: se puedemedir mediante la comparación del nº de sujetos que responden correctamente al ítem del grupoalto, con el nº de sujetos que responden correctamente al ítem del grupo bajo.

    Un ítem presentará un buen índice de discriminación: si el nº de personas que responden

    correctamente al ítem es mayor en el grupo de alta aptitud que el grupo de alta aptitud que en el grupode baja aptitud. 

    Para el cálculo del índice D, los grupos extremos de alta y baja puntuación, se forman con el 27% de

    los sujetos de más baja puntuación y de más alta puntuación en el test (el resto de sujetos conformarán

    el grupo medio, y representará el 46% de la muestra). A continuación, se calcula el nº de respuestas

    correctas al ítem concreto en cada grupo, siendo D igual a:

    =

       

    Dónde:

     Aalto y Abajo = nº de sujetos que responden correctamente al ítem, en los grupos alto y bajo N g = nº de sujetos correspondientes al 27 % de la muestra

      El índice dará valores altos, indicando poder discriminativo del ítem, cuando los sujetos delgrupo alto, obtengan más respuestas correctas al ítem que los del grupo bajo

      Por otro lado, D = 0 se obtendrá si Aalto y  Abajo estuviesen muy próximas entre sí, reflejandoque el ítem no discrimina adecuadamente entre los sujetos de diferentes niveles de aptitud(todas correctas o todas incorrectas en ambos grupos)

  • 8/16/2019 Psicometria TEMA 8

    8/26

    8

      Por último, un valor negativo en D, indicaría no sólo que el ítem no contribuye a medir lavariable de interés, sino que además, favorece la disminución de la precisión del instrumentode medida. Un índice de discriminación negativo, suele darse en ítems que cubren contenidoscomplejos en los que los sujetos pueden elegir la respuesta correcta sin conocer lo suficienteacerca de la materia evaluada.

    En líneas generales, y como referencia para la toma de decisiones sobre el poder discriminativo de los

    ítems, se ofrece una tabla con los posibles resultados del índice D y de la interpretación que le

    daríamos en cada caso.

    Valores “ D” e interpretación 

    Índice de Discriminación Interpretación

    D  0,40 El ítem presenta gran poder discriminativo

    0,30 D < 0,39 La discriminación del ítem es aceptable

    0.20 D < 0,29 El ítem discrimina poco y necesita revisión0,30 < D 0,19 Ítems no adecuados que deben modificarse o

    eliminarse del test

    D 0,0 Ítems que deben eliminarse directamente

    : En la siguiente tabla, se presentan las respuestas de los sujetos de una muestra a un ítem de 4

    alternativas. De los 63 sujetos que conforman la muestra, se seleccionaron el 27% superior (17 sujetos

    con las puntuaciones más altas) y el 27% inferior (17 sujetos con las puntuaciones más bajas).

    GRUPOSAlternativas al ítem

    A B C* DSuperior 1 0 13 3

    Medio 3 4 10 12Inferior 2 5 5 5

    Calcular el Índice de dificultad y el Índice de D del ítem Para el cálculo de la dificultad, dado que se trata de un ítem de elección múltiple, hemos deaplicar la p corregida y considerar la información proporcionada por todos los sujetos:

    =

      =

       

    1

    =

    28

    353

    63

    = 0,26 

    Este índice de dificultad indica que sólo el 26% de los sujetos de la muestra han contestadocorrectamente al ítem, con lo cual, el índice de dificultad de dicho ítem es alto.

    Para el cálculo de la discriminación, se utiliza la información de los grupos inferior ysuperior.

    =   = 13 517 = 0,47 Se trata por tanto, de un ítem relativamente difícil, con gran poder discriminativo, ya que D≥40 

  • 8/16/2019 Psicometria TEMA 8

    9/26

    9

    El grado de discriminación que presenta un ítem, también puede medirse a través del coeficiente

    de correlación. En este apartado, se van a considerar 3 coeficientes:

    La correlación biserial puntual (rbp) La correlación biserial (rbis) 

    Estos dos primeros, expresan la  correlación entre el ítem y una variable criterio cuantitativa, supuestamente continua y que, como hemos dicho anteriormente, puede ser externa o interna(propio test, lo que equivaldrá al índice de homogeneidad). 

    El coeficiente phi (ø): que indica la correlación entre un ítem dicotómico y un criterioexterno, que también es dicotómico.

    La ventaja del uso de estos indicadores es que, a diferencia del índice D, el cálculo de estos

    coeficientes, requiere considerar a todos los sujetos de la muestra, y no sólo al 54% (27% del grupoalto más el 27% del grupo bajo)

    *cuando su cálculo implica la correlación entre el ítem y el resto de los ítems del test (puntuación en el test criterio interno

    = índice de homogeneidad  si el nº de ítems es menor de 40, hay que hacer una corrección de dicho índice.

    En los ítems de elección múltiple: si el sujeto responde correctamente al ítem, se le asigna un 1 y sielige una alternativa incorrecta, un 0 (esto es, se le asigna un valor numérico de 1 punto o 0 puntos).

    Por lo tanto, la puntuación en el ítem, es una variable dicotómica, con posibles valores (0,1). Por otrolado, tanto la puntuación en el test  (criterio interno), como por lo general la puntuación en un

     criterio externo, es cuantitativa y supuestamente continua. De esta manera, si se quiere aplicar uncoeficiente de correlación para saber el grado de asociación entre el ítem y el test, o en su caso, el

    criterio externo, ha de usarse la correlación producto momento para el caso de una variabledicotómica (ítem) y otra continua (test o criterio externo) 

    Este coeficiente, que es una simplificación del coeficiente de Pearson, recibe el nombre de

    Correlación Biserial Puntual, r  bp, y se expresa como:

    =

    ( �  �)    

     

     : Media de las puntuaciones obtenidas    por los sujetos que han respondido correctamente al ítem: Media de las puntuaciones  , calculado con todos los sujetos de la muestra: Desviación típica de las puntuaciones   con todos los sujetos: Dificultad del ítem: 1 p En principio, los valores de r  bp pueden oscilar entre -1 y +1, pero la realidad es, que en el análisis de

    ítems, es muy poco probable que este coeficiente sea menor a -0,10 o superior a 0,75. Por lo tanto, a

  • 8/16/2019 Psicometria TEMA 8

    10/26

    10

    la hora de interpretar el valor de este índice de un ítem, se ha de tener en cuenta este rangoempírico.

    Cuando el objetivo es estudiar el grado de homogeneidad del ítem (criterio interno) enrelación con el resto de los ítems del test, la aplicación de la rbp  presenta 1 problema: la puntuación

    del test, se ha calculado considerando al ítem bajo estudio, lo que conlleva dependencia a priori y 1correlación espúrea. Esto se puede subsanar, calculando una nueva puntuación total en el test, sin el

    ítem en cuestión y obtener la correlación biserial puntual entre esa puntuación y el ítem en cuestión.

     No obstante, también se puede calcular la correlación sin descontar el ítem aplicando la siguiente

    corrección:

    () =      2 + 2  2 

    rbp(c) = correlación entre el ítem y el test tras descontar ítemrbp = correlación entre el ítem y el test con el ítem incluidoSx = desviación típica del testSi = desviación típica del ítem i

    Cuanto mayor es el número de ítems que componen el test, el grado de corrección que habrá que

    realizar será menor. De esta forma , con tests de 40 o más ítems, la corrección necesaria esinsignificante y prácticamente no hay diferencias entre r bp y r bp(c) Su principal ventaja, es que refleja la contribución del ítem al funcionamiento del test 

    La fórmula general de corrección de la correlación ítem-test (índice de homogeneidad), se exprese de

    la siguiente manera (ítems de elección múltiple)

    = (−) =      2 + 2  2 

    d = índice de discriminaciónr j (x-j) = correlación entre el ítem j y las puntuaciones obtenidas en el test, tras descontar ítem jrxj  = correlación entre el ítem j y el test con el ítem incluido (dependerá de la naturaleza de lasvariables, pudiendo ser la correlación biserial puntual o la correlación biserial)

    Sx = desviación típica del testS j = desviación típica de las puntuaciones obtenidas en el ítem j

    La correlación biserial se aplica cuando en lugar de “considerar” que la puntuación en un ítem es una variable de naturaleza dicotómica, se supone que, realmente, es una variable continua

  • 8/16/2019 Psicometria TEMA 8

    11/26

    11

    distribuida normalmente, en la que se han dicotomizado las respuestas en dos tipos: 1(acierto) y 0(error).

    De esta manera, la correlación biserial, es una correlación producto-momento, entre una

    variable continua dicotomizada y una medida de un criterio, interno (el test = índice de homogeneidad)

    o externo, continuo. Por lo tanto, la principal diferencia entre la correlación biserial puntual y la

    correlación biserial, reside en  si la ejecución en el ítem se trata como una variable dicotómica, o como una variable continua distribuida normalmente, que se ha dicotomizado. El coeficiente decorrelación biserial, se obtiene a través de la siguiente ecuación:

    = ( �− �)    

    : media de las puntuaciones obtenidas en el criterio por los sujetos que han respondido correctamente al ítem.

    : media de las puntuaciones en el criterio, calculada con todos los sujetos de la muestra.: desviación típica de las puntuaciones en el criterio con todos los sujetos: dificultad del ítem: valor de la ordenada que corresponde a la puntuación típica que deja por debajo un área igual a p Matemáticamente, la relación entre la correlación biserial puntual y la biserial, es la siguiente:

    =  

      

    Como el valor de la ordenada  y en la curva normal, es siempre menor que    el valor de lacorrelación biserial, siempre será mayor que el obtenido por la correlación biserial puntual.

    Con respecto a las ventajas e inconvenientes de ambos coeficientes, habría que señalar que:

    La principal ventaja de la correlación biserial puntual, es que es un fiel reflejo de lacontribución del ítem al funcionamiento del test. Es decir, debido a que tiene en cuentaexclusivamente la ejecución en el ítem y no supone ninguna habilidad continua subyacente,la correlación biserial puntual, es una medida con una relación más directa con losestadísticos del test, que la correlación biserialPor su parte, la correlación biserial, se ve menos influenciada por la dificultad del ítem, ytiende a ser invariante de una aplicación a otra, especialmente, si las muestras varían ennivel medio de aptitud, hecho que no ocurre con la correlación biserial puntual. No obstante, aunque la correlación biserial puntual, es más dependiente de la dificultad delítem, esto realmente, no supone un gran problema, debido a que los ítems con muy bajadiscriminación, suelen presentar  p  próximas a 0 ó 1, por lo que no hay consecuenciasindeseables, ya que se hubiesen rechazado de cualquier manera.

    En ocasiones, se necesita calcular la relación existente entre la ejecución en un ítem y un criterio

    externo que no es una variable continua sino dicotómica. Por ejemplo, cuando se ha aplicado un test

    de rendimiento en matemáticas a una muestra de alumnos y estudiamos la relación entre cada ítem con

  • 8/16/2019 Psicometria TEMA 8

    12/26

    12

    su calificación de apto-no apto en un examen final (test referidos al criterio). En este caso, necesitamos

    un coeficiente de correlación para 2 variables dicotómicas y un candidato adecuado es el coeficiente

     phi () que es un caso especial de la correlación producto momento (biserial), cuando ambasvariables únicamente pueden adoptar valores 0 y 1.

    Para el cálculo de este coeficiente, se ordenan los datos en una tabla de contingencia de

    2x2, como la que se muestra a continuación

    tem i1 0

    Criterio1   =    b +   =  0 c d +   =  +   =    +   =    N

    El coeficiente (

    ) se calcula mediante la siguiente expresión:

    =     

    : proporción de sujetos que han acertado el ítem y que han sido clasificados aptos en el criterio = proporción de sujetos aptos en el criterio

    = proporción de sujetos que han superado el ítem

    = proporción de sujetos no aptos en el criterio = proporción de sujetos que no superan el ítem 

    Existen varios procedimientos para averiguar el poder discriminativo de los ítems a la hora de

    evaluar la actitud o atributo medido. Uno de ellos, sería a partir de las correlaciones entre las

     puntuaciones obtenidas por los sujetos en cada elemento, y las obtenidas en la escala total (criterio

    interno), tal y como se ha expuesto anteriormente, pero teniendo en cuenta que en la mayoría de estasescalas la respuesta al ítem no es dicotómica, el coeficiente de correlación más adecuado sería la

     correlación momento producto de Pearson. Otro de los procedimientos emplea  grupos extremos de actitud   para, a partir de determinadas pruebas estadísticas, comprobar si hay diferencias significativasentre las respuestas de los sujetos a un elemento determinado.

    Si empleamos el primer procedimiento, la correlación momento producto de Pearson, y las

    correlaciones que obtenemos son nulas o alcanzan valores muy bajos, ello indicaría que los elementos

    no miden realmente la misma dimensión de actitud. Se trataría de ítems que se deben eliminar de la

    escala definitiva, al no tener mucho sentido incluir en la escala final, aquellos elementos que no

    estuviesen relacionados con los demás. Además de la poca información útil que proporcionan estos

    elementos, reducirían la fiabilidad y la validez de la escala.

    La fórmula a aplicar en este caso sería:

  • 8/16/2019 Psicometria TEMA 8

    13/26

    13

    =   ∑  ∑ ∑  [∑  (∑ )2][∑  (∑ )2] 

     N = nº de sujetos de la muestra∑ J  = suma de las puntuaciones de los sujetos en el elemento J∑ X  = suma de las puntuaciones de los sujetos en la escala total R jX  = correlación entre las puntuaciones obtenidas por los sujetos en el elemento J  y en la escala

    total

    En la correlación obtenida en las escalas de actitudes, al igual que cuando se trata de ítems de elección

    múltiple, es necesario aplicar una corrección, ya que en la puntuación total utilizada (X), está incluida

    la puntuación que han obtenido los sujetos en el elemento j y el resto de los elementos, de ahí, que lo

    que debemos calcular realmente es, la correlación RJ(x-J), para lo cual, basta con sustituir en la fórmulageneral de corrección vista anteriormente la correlación correspondiente:

    = (−) =      2 + 2  2 

    Esta correlación, es un índice de la homogeneidad del elemento, que nos indica en qué medida,

    el elemento que estamos analizando, mide la misma actitud que el resto de los elementos que

    componen la escala.  Aquellos elementos cuyo índice de homogeneidad sea inferior a 0,20 sueleneliminarse.

    Índice de discriminación basado en grupos extremos: como hemos comentado, existe un segundo procedimiento para calcular el índice de discriminación de un ítem que emplea grupos extremos. Los

    dos grupos extremos de actitud, se eligen a partir de las puntuaciones de los sujetos en la escala total.

    Una vez ordenadas las puntuaciones de los sujetos de menor a mayor, se separa el 25% (o el 27%) de

    los sujetos con una puntuación total más alta y el 25% (ó 27%) de los que la tuvieron más baja.

    Si el elemento/s que se analiza/n, no son discriminativos, al realizar el análisis comparativo de

    las puntuaciones obtenidas en ambos grupos, no encontraremos diferencias significativas y, por tanto,

    estos elementos deberán eliminarse de la escala final, ya que, si suscitan las mismas respuestas en

    grupos de sujetos que, presumiblemente, muestran una actitud muy diferente, deberemos considerarlos

    como malos indicadores de la actitud que se quiere medir. En la escala final, deberán mantenerse

    solamente, aquellos elementos que discriminen bien entre los dos grupos extremos.

    Una de las pruebas estadísticas que se pueden utilizar para averiguar si un elemento es

    discriminativo o no, cuando se aplica este procedimiento, es la T de Student. Se trata de averiguar sihay diferencias significativas entre las medidas obtenidas, en cada elemento, por los 2 grupos

    extremos de sujetos. La fórmula es:

  • 8/16/2019 Psicometria TEMA 8

    14/26

    14

    T =Xsj  Xij

     (ns  1)Ssj2 + (ni  1)Sij2ns + ni  2   1ns + 1ni

     

    Dónde: Media de las puntuaciones obtenidas en el ítem J por aquellos sujetos que en la escala total,obtuvieron puntuaciones más altas (25% superior) : Media de las puntuaciones obtenidas en el elemento J por aquellos sujetos que, en la escala total,obtuvieron puntuaciones más bajas (25% inferior) : Varianza de las puntuaciones obtenidas en el elemento J, por los sujetos del grupo superior: Varianza de las puntuaciones obtenidas en el elemento J, por los sujetos del grupo inferior  : Son respectivamente, el nº de sujetos que componen el grupo superior e inferior.

    Una vez que hemos calculado T, se acude a las tablas correspondientes, y se averigua si haydiferencias significativas entre ambas medidas,  a un determinado nivel de significación(generalmente 0,01 ó 0,05) y con (  +   ) g.l  

    Esta prueba, nos da una idea bastante clara, del grado en el que un determinado ítem discrimina

    entre ambos grupos

    Por último, respecto a la discriminación de un ítem, podemos calcular el

    , que viene dado por la expresión:

    º.

    =

      ∙  

    Dónde:

    A: nº de sujetos que aciertan en ítemE: nº de sujetos que los intentan contestar y lo fallan

    : Supongamos que los resultados obtenidos al aplicar una escala tipo Likert, compuesta por

    10 elementos a una muestra de 10 sujetos, son los que figuran en la siguiente matriz de puntuaciones.

    Los datos de la matriz, el valor correspondiente a la categoría elegida por cada sujeto en cada

    elemento. La puntuación total de cada sujeto en la escala, será la suma de las puntuaciones de los

    elementos. Dado que se trata de un ejemplo, hemos incluido dos sujetos que muestran un grado deactitud extrema (sujetos 5 y 6), de manera que el sujeto 5, obtiene la máxima puntuación posible en la

    escala, ya que ha elegido siempre la categoría cuyo valor numérico era el 5, y el 6, la mínima, al haber

    elegido siempre la categoría que denota una actitud más desfavorable, cuyo valor numérico es 1. No

    obstante, hemos de tener en cuenta que se trata de una escala inicial, y es necesario en primer lugar,

    hacer una selección de los ítems, ya que, probablemente, habrá que eliminar alguno de la escala

    definitiva, bien porque no guarden ninguna relación con el resto de los elementos, o bien porque no

    sean discriminativos.

  • 8/16/2019 Psicometria TEMA 8

    15/26

    15

    ElementosSujetos 1 2 3 4 5 6 7 8 9 10 P.Total

    1 2 4 4 4 3 2 4 4 2 4 332 3 4 2 4 3 2 2 3 1 3 273 5 5 4 4 4 3 4 5 3 4 414 2 2 3 1 4 3 2 3 1 2 23

    5 5 5 5 5 5 5 5 5 5 5 506 1 1 1 1 1 1 1 1 1 1 107 2 1 3 2 3 1 3 2 1 2 208 5 4 3 3 4 5 4 3 5 4 409 3 5 2 3 4 2 3 3 2 2 29

    10 4 5 4 4 5 5 4 4 5 3 4232 36 30 31 35 29 32 33 26 30 315

    Vamos a hacer el análisis de los elementos, utilizando los 2 procedimientos propuestos por

    Likert. Para ello, comenzamos hallando la correlación existente entre las puntuaciones obtenidas por

    los sujetos en cada uno de los elementos, y las obtenidas en la escala total

    :

    1 = 32 �1 = 3,2 1 =  ∑ 12  ( �1)2 = 1,4 = 315 � = 31,5 =  ∑ 2  ( �)2 = 11,451  = 1154 1 =   ∑ 1  ∑ 1  ∑ 12  (∑ 1)2 ∑ 2  (∑ )2

    = 0,90 (í

     

     

    ℎ) 

    Haciendo estas mismas operaciones con los 10 elementos, obtenemos:

    : 2 = 0,85 : 3 = 0,78 : 4 = 0,84 : 5 = 0,85 : 6 = 0,85 : 7 = 0,92 : 8 = 0,90 :

    9= 0,87 

    : 3 = 0,90 Una vez hallados todos los coeficientes de correlación, entre las puntuaciones obtenidas por lossujetos, en cada uno de los elementos y en la escala total (o índice de homogeneidad) es necesariointroducir la fórmula de corrección para hallar el índice de homogeneidad correcto. De manera que:

    1(−1) =   1  1 2 + 12  211 = 0,90 ∙ 11,45 1,4 131,10 + 1,96 2 ∙ 0,90 ∙ 11,45 ∙ 1,4 = 0,87 Haciendo esta misma operación con el resto de elementos:

    2(−2) = 0,80 

    3(−3)= 0,74 

    4(−4) = 0,80 

  • 8/16/2019 Psicometria TEMA 8

    16/26

    16

    5(−5) = 0,82 6(−6) = 0,81 7(−7) = 0,90 8(−8) = 0,88 9

    (

    −9) = 0,83 

    10(−10) = 0,88 Estos serán los índices de homogeneidad reales de los elementos, que nos indicarían en quégrado, cada elemento contribuye a medir el mismo rasgo. Dado que todos los índices obtenidos son

    superiores a 0,20, sería posible aceptarlos para formar parte de la escala definitiva. Una vez realizado

    el análisis de los elementos averiguando la correlación entre las puntuaciones obtenidas por los sujetos

    en cada uno de ellos, con las obtenidas en la escala total, hemos comprobado que todos ellos

    contribuyen en la medida del mismo rasgo o actitud.

    Ahora vamos a utilizar el segundo procedimiento que hemos visto, que como sabemos, consiste

    en analizar los resultados obtenidos por los dos grupos extremos de actitud. Es importante querecordemos que, en los primeros temas, cuando vimos las escalas de actitudes, concretamente, la

    técnica de Likert, en los casos en los que se usan grupos extremos, además del estadístico T de Studen,

    utilizábamos la Prueba de U de Mann-Whitney así como el estadístico “Chi cuadrado”, pues bien,al igual que usamos la T de Student, estos estadísticos también pueden usarse. Veamos cómo

    emplearíamos la T de Student.

    Aunque la norma general, es utilizar el 25% de los sujetos con puntuaciones más altas en el total

    de la escala, y el 25% de los sujetos que las tuvieron más bajas, dado que en nuestro ejemplo, ese

     porcentaje correspondería a 2,5 sujetos en cada grupo, vamos a utilizar un 20%, de este modo,

    nuestros grupos extremos estarán formados por 2 sujetos cada uno.

    Para averiguar cuáles fueron los sujetos que obtuvieron puntuaciones más latas o más bajas, se

    ordenan todas ellas de menor a mayor:

    Sujetos 6 7 4 2 9 1 8 3 10 5P.Total 10 20 23 27 29 33 40 41 42 50

    Los sujetos que en el total de la escala obtuvieron una puntuación más baja fueron el 6 y el 7, y

    los que obtuvieron una puntuación más alta, el 10 y el 5. Vamos a ver  cuáles han sido las puntuaciones obtenidas por estos sujetos en cada uno de los elementos de la escala, y averiguaremos si existen diferencias significativas, entre las medias de ambos grupos.

    : las puntuaciones de estos sujetos en el elemento 1son:

    Sujeto Puntuación elem.1Grupo superior 10 4

    5 5

    Grupo inferior 6 17 2

    La media del grupo superior es 4,5 y la varianza 0,25

    La media del grupo inferior es 1,5 y la varianza es 0,25

    Para comprobar si la media obtenida en el elemento 1 por los sujetos del grupo superior, es

    estadísticamente más alta que la obtenida por los del grupo inferior, aplicamos la prueba T de Student.Vamos a utilizar un nivel de significación del 0,05, o lo que es lo mismo, un nivel de confianza del

  • 8/16/2019 Psicometria TEMA 8

    17/26

    17

    95% (recordemos que la T de Student es una prueba unilateral). Si acudimos a las tablas T y buscamos

    el valor correspondiente a ese nivel de confianza, para (ns + ni – 2) g.l, obtenemos una T = 2,92

    Aplicando la fórmula a nuestros datos, tenemos:

    =X

    sj X

    ij (ns  1)Ssj2 + (ni  1)Sij2ns + ni  2   1ns + 1ni =4,5

    1,5

     (2 1)0,25 + (2 1)0,252 + 2 2   12 + 12 = 6 Comparando el resultado obtenido con nuestros datos con el de las tablas, podemos decir que la media

    del grupo superior, es estadísticamente superior, a la del grupo inferior, por lo tanto, el elemento nº 1,

    es un elemento discriminativo.

    : las puntuaciones de estos sujetos en el elemento 2 son:

    Sujeto Puntuación elem.2Grupo superior 10 55 5

    Grupo inferior 6 17 1

    La media del grupo superior es 5 y la varianza 0La media del grupo inferior es 1 y la varianza es 0

    = 5 1 

    (2

    1)0 + (2

    1)(0)

    2 + 2 2   1

    2+

    1

    2= 4 

    Como vemos, la media del grupo superior es estadísticamente más alta que la del grupo inferior, y por

    tanto, debe mantenerse el elemento.

    : las puntuaciones de estos sujetos en el elemento 2 son:

    Sujeto Puntuación elem.3Grupo superior 10 4

    5 5

    Grupo inferior 6 17 3

    La media del grupo superior es 2,5 y la varianza 0,25La media del grupo inferior es 2 y la varianza es 1

    = 2,5 2 (2 1)0,25 + (2 1)12 + 2 2   12 + 12 =

    0,5

    0,79= 0,632 

    Este elemento debería ser eliminado, ya que no existe diferencia significativa y por tanto, no

    discrimina bien entre los 2 grupos. Esta operación, la haríamos con todos los elementos….

  • 8/16/2019 Psicometria TEMA 8

    18/26

    18

    Como ya expusimos anteriormente, los resultados obtenidos a través de los diferentes procedimientos, no tienen por qué ser iguales, no obstante, en este caso, dichos resultados han de serconsiderados con mucha cautela, dado el pequeño tamaño de la muestra, sobre todo, cuando se emplea

    este segundo procedimiento.

    De acuerdo con Likert, consideramos que el primer procedimiento es más adecuado, ya que

    emplea la información que proporcionan todos los datos, mientras que el segundo, sólo utiliza unainformación parcial.  La ventaja del primero sobre el segundo, aumenta, cuando el tamaño de la muestra utilizada no es muy grande, ya que, en este caso, la pérdida de información puede llevar aresultados más confusos y poco fiables.

    Como hemos dicho, otro de los estadísticos que se puede utilizar para ver el grado de

    discriminación de un elemento es “Chi Cuadrado”, pero NO  debe usarse cuando el tamaño de lamuestra sea inferior a 50 

    : esta prueba se puede emplear cuando, por alguna

    razón, se sospeche que no se cumplen las condiciones de normalidad y/o la igualdad de las varianzas

    entre las poblaciones de las que proceden las muestras de sujetos utilizadas, con el fin de averiguar silas puntuaciones obtenidas en el elemento por ambas muestras de sujetos, son estadísticamente

    distintas.

    Dado que esta prueba se emplea fundamentalmente, cuando las medidas se han realizado a nivel

    ordinal, y los datos que nosotros hemos obtenido son cuantitativos, es necesario  transformar dichos datos cuantitativos, en datos ordinales. La forma de proceder, es la siguiente:

    Se hace una ordenación conjunta de los sujetos del grupo superior e inferior, asignando elorden 1 (1º), a la puntuación más baja. Cuando dos o más datos, tengan el mismo valor, se

    halla la media de los órdenes que les corresponderían, y se les asigna a todos ellos el valorresultante.Una vez realizada la ordenación, se suman, por separado, los órdenes de cada grupo y se halla

    la U para cada uno de ellos, aplicando la siguiente fórmula.

    =  + ( + 1)2     =  + ( + 1)2    Dónde:    = sumas de los órdenes del grupo superior e inferior respectivamente. Para comprobar si hay diferencias significativas, se acude a la Tabla de U de Mann-Whitney, y se

    averigua, a un determinado nivel de significación, cuál es el valor crítico de U:Si el valor más pequeño de las U que hemos obtenido a partir de nuestros datos (US o U i ), esmayor que el valor U obtenido en las tablas, concluiremos que las diferencias entre los dos

    grupos, es significativa; por lo tanto, el elemento discrimina entre los dos grupos, por lo quedeberá seleccionarse para la escala definitiva.

    : como hemos dicho, también se puede emplear este estadístico para

    averiguar si un determinado elemento discrimina entre grupos extremos. La utilización de este

    estadístico, requiere que el tamaño de la muestra sea como mínimo de 50 sujetos. Para ello:

    Una vez separados ambos grupos, se ordenan las puntuaciones obtenidas por los sujetos que

    los forman, desde la más baja a la más alta.

  • 8/16/2019 Psicometria TEMA 8

    19/26

    19

    Una vez ordenadas, se halla la Mediana conjunta y, a continuación, se forma una tabla de

    contingencia 2x2, de la siguiente forma:

    + Mediana (> Mdn) - Mediana (< Mdn)Grupo Superior a bGrupo Inferior c d

    Siendo:

    a = nº de sujetos del grupo superior que han obtenido, en el elemento J, puntuaciones por encima de lamediana conjunta.

    b = nº de sujetos del grupo superior que han obtenido, en el elemento J, puntuaciones inferiores a lamediana conjunta.

    c = nº de sujetos del grupo inferior, que han obtenido en el elemento J, puntuaciones por encima de lamediana conjunta.

    d = nº de sujetos del grupo inferior, que han obtenido en el elemento J, puntuaciones inferiores a lamediana conjunta

    Una vez elaborada la tabla de contingencia, se aplica la fórmula de Chi-cuadrado para un grado

    de libertad y el resultado obtenido, se compara con el que ofrecen las tablas correspondientes, a un

    determinado nivel de significación:

     2 = | |

    2   2

    ( + )( + )( + )( + ) 

    Estos dos índices de los ítems, su fiabilidad y su validez, pueden interpretarse directamente en

    relación con las propiedades psicométricas más relevantes del test: la fiabilidad y la validez. Estos

    estadísticos, son función de la varianza del ítem y de su correlación con un criterio.

    A) Cuando se evalúa la relación del ítem con un criterio interno, por ejemplo, la puntuaciónen el test, el índice se denomina  Índice de fiabilidad del Ítem (IF), y se considera una medida de la precisión con la que el ítem mide el constructo o dominio de interés. Su cálculo se hace a través de la

    siguiente expresión:

    =  ∙  Dónde:

    Si = Desviación típica del ítem i r iX   = Correlación del ítem i con la puntuación en el test  índice de Discriminación  o índice dehomogeneidad. El cálculo de este índice, se puede realizar tanto con la correlación biserial puntual,como con la biserial.

  • 8/16/2019 Psicometria TEMA 8

    20/26

    20

    La Fiabilidad del test: se puede expresar en términos de los índices de fiabilidad de los ítems que lo componen mediante la siguiente expresión:

    =  1 1   ∑   2=1∑   =1   2 =  1 1 ∑   2=1∑   =1   2 Dónde:

    n = nº de ítems y el resto de términos, ya se han definido anteriormente

    B) Cuando se evalúa la relación del ítem con un criterio externo Y:   el índice recibe elnombre de Índice de validez del Ítem (IV) y se calcula mediante la siguiente expresión:

    =

      

    Dónde:

     riY  = correlación entre el ítem y el criterio externo Y.

    Como sabemos, dependiendo de la naturaleza de la variable criterio, se deberá utilizar un coeficientede correlación u otro. Si el criterio externo es una variable continua, se puede utilizar la correlación

     biserial puntual, o la biserial si se asume una habilidad latente distribuida normalmente en la ejecución

    del ítem. En cambio, si es criterio es también una variable dicotómica, el coeficiente a emplear esΦ 

    El coeficiente de validez de un test, se puede expresar a través de los Índices de validez de los

    ítems, a partir de la siguiente expresión:

    = ∑∑ = ∑   =1∑   =1  (No olvidemos, que cuando calculemos en índice de discriminación para aplicarlo en cualquiera deestas fórmulas, además de utilizar la correlación adecuada en cada caso, hemos de hallar la correlación corregida también cuando sea preciso) 

    En ítems de elección múltiple, y una vez que se han calculado, valorado e interpretado los

    estadísticos del ítem relacionados con la alternativa correcta, pueden aparecer ítems con poca

    discriminación o con valores de dificultad extremo. Es decir, ítems que presentan baja calidad

     psicométrica inicialmente y, por este motivo, se nos plantea la posibilidad de eliminar ese ítem. Sin

    embargo, en ocasiones el ítem debe mantenerse porque es un elemento esencial en relación a lavalidez de contenido o de constructo del test. En estos casos, los estadísticos de la alternativa correctano ayudan en la revisión y mejora del ítem. Debería revisarse el contenido, la redacción, el

    formato…Si se comprueba que contenido y redacción son adecuados, el siguiente paso es el  análisis del funcionamiento de las alternativas incorrectas como distractores.

  • 8/16/2019 Psicometria TEMA 8

    21/26

    21

    Este análisis, permitirá identificar aquellos distractores defectuosos que, una vez eliminados y

    reemplazados por otros más adecuados, incidirán positivamente en la calidad del ítem, mejorando

     posiblemente la discriminación del ítem o alejando la dificultad de valores extremos. El análisis de los

    distractores es útil para determinar la utilidad  y eficacia de las alternativas incorrectas en cada ítem,especialmente, en el proceso de revisión de los mismos. El objetivo de un distractor, es atraer la

    atención de los sujetos con nivel medio o bajo en el constructo, que no conocen lo suficiente pararesponder correctamente al ítem. Aquellas alternativas que no resultan elegidas por los sujetos, deben

    revisarse, y si no es posible mejorarlas, conviene eliminarlas, porque no aportan información y no

    cumplen la función de distractor.

    Las alternativas incorrectas se consideran distractores eficaces si cumplen las siguientes

    condiciones:

    Son elegidas por un mínimo nº de sujetosSon aproximadamente igual de atractivas para los sujetos

    Que el rendimiento medio en el test de los sujetos en cada distractor, sea inferior al de lossujetos que han elegido la respuesta correcta y a la media del test general de todos los sujetosQue discriminen entre los sujetos de baja, media y alta puntuación, pero en el sentido

    contrario a como lo hace la alternativa correcta.

    ¿Cómo se traducen estos cuatro criterios, en medidas objetivas de eficacia? 

    Para la comprobación del primer y segundo criterio: se puede calcular el porcentaje desujetos que eligen cada distractor. Los distractores cumplirían estos dos criterios, si los porcentajes de respuestas, estuviesen por encima del 10%, y con diferencias mínimas entreellos.

    En cuanto al tercer criterio: se pueden calcular las medias en la puntuación del test paracada distractor y comprobar que la media de la alternativa correcta, es superior a la media

    de todos los sujetos y esta, a su vez, es mayor que los promedios de los distractores.

    Por último, para estudiar el poder discriminativo de los distractores: se pueden utilizarmétodos numéricos, tales como índices de discriminación y coeficientes de correlación (porejemplo la biserial puntual), de manera que, se considerará que un buen distractor, es aquélque presenta un poder discriminativo alto, aunque más bajo que el de la respuesta correcta y, preferiblemente, con un valor negativo. Por lo tanto, se deben revisarminuciosamente, los ítems con distractores que presentan valores altos y positivos en el poder discriminativo.

    En la tabla siguiente, se muestra un ejemplo del análisis de distractores. En las primeras dos

    filas, figuran los dos grupos extremos en la puntuación en el test (27% superior y 27% inferior de los

    sujetos), en función de las alternativas del ítem. En las tres últimas filas, se muestran los resultados

     para la proporción de sujetos que ha elegido cada alternativa (P), la media en el tests de los sujetos quehan respondido cada alternativa, y el índice de discriminación de cada alternativa (D). Con estos

    datos ¿Funcionan bien los distractores?Alternativas del ítem

    A* B C D ENivel deaptitud

    Superior 65 11 64 32 28Inferior 15 30 20 68 67

    EstadísticosP 0,20 0,10 0,21 0,25 0,24    11,1 8,3 13,2 8,9 7,8D 0,25 -0,09 0,22 -0,18 -0,195

  • 8/16/2019 Psicometria TEMA 8

    22/26

    22

    Para responder a la pregunta de si los distractores funcionan bien, se tienen en cuenta loscriterios de eficacia definidos más arriba y, según los cuales:

    El ítem B: no funcionaría como un distractor eficaz, debido a que no es elegido por el mínimode sujetos exigido (por encima del 10%); el ítem B sólo es elegido por un 10% de los sujetos

    (los demás criterios sí los cumple)El ítem C: tampoco presenta un rendimiento satisfactorio por 2 motivos: la media de las puntuaciones en esa alternativa, es superior a la media en la alternativa A que es la correcta yel índice de discriminación es positivo, lo que implica que incluso los sujetos de alto nivel,

    tienden a elegir esta alternativa como correctaLas alternativas D y E: funcionan como buenos distractores, porque resultan igualmenteatractivos (p = 0,25 y p = 0,24), sus medias son inferiores a la media de la alternativa correcta,y finalmente porque sus índices de discriminación son negativos y ligeramente inferiores a ladiscriminación en la alternativa A.

    Una vez que se ha llevado a cabo el análisis y selección de los ítems y se dispone del test final,

     cabe preguntarse si todos ellos miden de la misma manera a todos los grupos de sujetos a los que seles ha administrado el test. Por ejemplo, se ha aplicado un test de 50 ítems que miden el rendimientoen matemáticas de los alumnos de 6º de primaria y, tras la evaluación de la calidad del test y de los

    ítems, se ha confeccionado una prueba final de 35 ítems, con los que se calculan las puntuaciones de

    los alumnos.

    Una cuestión que se puede plantear es, si factores tales como el contenido elegido para el

    enunciado de los problemas, pueden determinar que las niñas tengan más posibilidades que los niños

    de responder correctamente a los ítems. Es decir, si factores ajenos a la variable que se pretende medir,

    están afectando a los resultados y lleva a que niños y niñas del mismo nivel de competencia en

    matemáticas, obtengan resultados diferentes en los ítems y en la puntuación final en el test. Al igual

    que se habla aquí de niños y niñas, se podría perfectamente elegir cualquier otra variable

    sociodemográfica significativa, como la etnia, la clase social, la edad, la región…

    En la Teoría de los Tests, este problema se conoce como el Problema del Sesgo, que puede plantearse de la siguiente manera: las diferencias entre grupos encontradas en los resultados de tests de aptitudes y rendimiento ¿reflejan diferencias reales entre los grupos o están causadas por fuentes sistemáticas de variación ajenas al constructo que mide el test? 

    Las fuentes sistemáticas de variación son las que originan el sesgo y su presencia en los ítems afecta directamente a la validez del constructo del test, ya que disminuye el grado en que miden unmismo rasgo. Por este motivo, el objetivo de cualquier estudio del sesgo, consiste en determinar silas diferencias observadas, se deben a diferencias reales entre los grupos, o, por el contrario, están

    generadas por el propio instrumento de medida y no reflejan la realidad.

    El estudio del sesgo en un test: consiste en un análisis lógico o experimental, en el contexto dela validez de constructo de los ítems, de las posibles fuentes de variación sistemática, que puedan

     beneficiar más a un subgrupo de sujetos que a otros. Una herramienta útil para este tipo de estudio, es

    el Análisis del Funcionamiento Diferencial del Ítem (FDI).Se dice que un ítem presenta FDI: si, comparando grupos de sujetos en función de una

    característica sociodemográfica, externa a la variable medida en el test, se observa que sujetos con el

    mismo nivel en la variable medida, tienen diferentes posibilidades de éxito en el ítem. La presencia de

    FDI en un ítem, es un indicio de posible sesgo en el ítem, y nos va a guiar en el ulterior estudio delmismo. Por lo tanto, si detectamos FDI en varios ítems del test, lo adecuado es realizar el análisis del

  • 8/16/2019 Psicometria TEMA 8

    23/26

    23

    sesgo, con el fin de confirmar la existencia de sesgo y las posibles causas que han originado el

     problema.

    En este tema, no vamos a abordar el estudio del sesgo ni de sus posibles causas, sólo vamos a

    estudiar el FDI, y cómo identificarlo en los ítems de un test. Para ello, se va a presentar uno de los

    métodos más utilizados que es el Procedimiento Mantel-Haenszel. Pero antes, conviene diferenciar

    entre FDI e Impacto, otro aspecto importante que, en un principio puede llevarnos a una erróneainterpretación del funcionamiento diferencial del ítem.

    Dos conceptos importantes en el análisis de los ítems de un test que conviene diferenciar, son el

    de impacto y el de funcionamiento diferencial del ítem:

    Se dice que un ítem presenta impacto: cuando existen diferencias en la puntuación mediaobtenida en ese ítem por dos grupos de sujetos con distinto nivel en el rasgo o característica

    que mide el test (por ejemplo, hombres y mujeres)Un ítem presenta funcionamiento diferencial: cuando existen diferencias en la puntuación

    media obtenida en ese ítem por dos grupos distintos de sujetos, pero con el mismo nivel en elrasgo o característica evaluada por el test (hombres y mujeres con idéntica aptitud matemática)

    La diferencia entre ambos conceptos, estriba en que la presencia de impacto, implica diferencias

    reales entre los sujetos de ambos grupos, mientras que el FDI, indica que no son reales, que no se

    deben a un nivel superior real de un grupo con respecto a otro.

    : supongamos que se ha aplicado un test de comprensión lectora a un grupo de niños y

    de niñas de 5º de primaria. Así mismo, se les ha aplicado un pequeño cuestionario sobre sus hábitos de

    lectura, obteniéndose que las niñas leen más libros que los niños. Por otro lado, los resultados del test

    indican que el promedio de comprensión lectora es superior en las niñas que en los niños. Ante estos

    resultados ¿se puede afirmar que existe impacto? La respuesta es que, probablemente, debido a que las

    niñas han leído más, han desarrollado en mayor grado su comprensión lectora y esto se vea reflejadoen los resultados del test aplicado. Por lo tanto, las diferencias son reales y se puede afirmar que existe

    impacto. Para asegurarse de que las diferencias se deben básicamente al entrenamiento recibido por las

    niñas y no a otras posibles causas de sesgo, se calculan y comparan las posibilidades de éxito de cada

    ítem de los niños y niñas que han obtenido la misma puntuación en comprensión lectora. Si no existe

    FDI, los niños y las niñas con el mismo nivel de comprensión lectora, deben tener las mismas

     posibilidades de éxito en cada uno de los ítems.

    : otro ejemplo en el que puede existir FDI, sería el siguiente: se ha administrado un test

    de analogías verbales para medir la inteligencia general, a una muestra compuesta por estudiantes

    universitarios y jóvenes que no han finalizado los estudios primario. Se calculan las medias de ambos

    grupos y los universitarios superan claramente en promedio a los que no han estudiado. ¿Sonrealmente más inteligentes los estudiantes universitarios que el otro grupo? ¿Existe impacto? En este

    caso, la respuesta es que no. Los estudiantes universitarios están más acostumbrados a los exámenesde lápiz y papel y conocen mejor los conceptos empleados en los ítems de analogías; en definitiva, han

    estado más expuestos a las características de la situación y al contenido del test. Para corroborar que

    las diferencias no son reales, se calculan en cada ítem las posibilidades de éxito para los sujetos con el

    mismo nivel de inteligencia general de cada subgrupo. Probablemente, sujetos con el mismo grado de

    inteligencia, presentan grandes diferencias en la probabilidad de responder correctamente el ítem, a

    favor del grupo universitario. En este caso, los ítems presentan FDI. Téngase en cuenta que el

     propósito del test era medir la inteligencia y, para ello, se ha utilizado un test que favorecía a los

    sujetos con mayor formación. Si por el contrario, en lugar de un test de inteligencia, desarrollamos una prueba para medir el grado de conocimiento sobre una serie de conceptos, las diferencias que se

  • 8/16/2019 Psicometria TEMA 8

    24/26

    24

     pueden encontrar serían reales, debido a que los universitarios han estado más expuestos que las

     personas sin estudios, a los conceptos.

    Como hemos visto anteriormente, para analizar el funcionamiento diferencial de un ítem se debe

    comparar el funcionamiento del ítem, en los sujetos con el mismo nivel de habilidad de cada grupo

    establecido. Existen diferentes procedimientos para realizar su estudio. Uno de los más utilizados en la

     práctica, es el que se basa en el estadístico Mantel-Haenszel. Los pasos a seguir en este procedimiento

    son los siguientes:

    Seleccionar la variable externa de agrupamiento que se sospeche que pueda estar generando

    funcionamiento diferencial en ciertos ítems del test. Esta variable externa debe generar sólo 2 grupos a

    comparar: grupo referencia (GR)  y grupo focal (GF). El grupo referencia, suele coincidir con elgrupo mayoritario o socialmente favorecido y es el que teóricamente se beneficia de la presencia de

    funcionamiento diferencial. El grupo focal, grupo minoritario, es en el que se centra la atención y el

    que se piensa que resulta perjudicado por la existencia de funcionamiento diferencial.

    Subdividir a los sujetos de ambos grupos (GR y GF) en función de la puntuación empírica

    obtenida en el test, en subgrupos de habilidad homogénea

    Calcular el número de respuestas correctas e incorrectas, por cada grupo y nivel de habilidad

    “i”

    Correctas IncorrectasGR Ai  B i  nri GF Ci  Di  nfi 

    n1i  N0i  Ni 

    Estimar la cantidad de funcionamiento diferencial mediante la siguiente expresión:

    = ∑   =1∑   =1  Dónde:

      

     

     

     

    =

      

     

     

     

     

     

     

    í

     

     

    ℎ 

    ,

     

     

     

    Interpretar el resultado: los valores de  oscilan entre cero e infinito. Valores mayoresque 1, indican que el ítem favorece al grupo de referencia y valores menores a 1, que favorece al focal.

    Si  es igual a 1, o está próximo a este valor, el ítem no presenta FD: Se sospecha que en un test de matemáticas, aplicado a los alumnos de 6º de primaria, existe

    la posibilidad de sesgo en contra de las niñas. Para descartar esa posibilidad, se llevó a cabo un análisis

    del funcionamiento diferencial de los ítems mediante el procedimiento de Mantel-Haenszel. Para ello,

    a partir de las puntuaciones en el test, se formaron  4 grupos de nivel de aptitud . En la siguiente tablase muestra el nº de respuestas correctas (C) e incorrectas (I) de los niños y las niñas, en función del

    nivel de competencia en el primer ítem. Analiza si existe FDI e interpreta el resultado.

  • 8/16/2019 Psicometria TEMA 8

    25/26

    25

    Niños NiñasX C I C I

    0-10 1 8 2 811-20 13 58 10 5021-30 30 51 19 8431-40 69 15 47 35

    Este ejemplo que proponemos, la variable externa es el género. El grupo de referencia (GR),

    está formado por los niños y el grupo focal (GF) por las niñas. Como vemos, en función de las

     puntuaciones obtenidas en el test, se han formado 4 grupos homogéneos de aptitud. Con el fin de ir

    calculando los valores implicados en la fórmula de  vamos a formar, para cada nivel de aptitud,una tabla de doble entrada:

    Grupo 1 de habilidad ( ≤ ≤ ) Correctas Incorrectas

    GR (niños) 1 8

    GF (niñas) 2 819 (n)

    Grupo 2 de habilidad ( ≤ ≤ )Correctas Incorrectas

    GR (niños) 13 58GF (niñas) 10 50

    131 (n)

    Grupo 3 de habilidad ( ≤ ≤ )Correctas Incorrectas

    GR (niños) 30 51GF (niñas) 19 84

    184 (n)

    Grupo 4 de habilidad ( ≤ ≤ )Correctas IncorrectasGR (niños) 69 15

    GF (niñas) 47 35166 (n)

    Una vez realizadas estas tablas individuales en función de los niveles de aptitud, ayudándonos de latabla que figura en el formulario, calculamos los datos conjuntos necesarios para la aplicación de la

    fórmula final:

    Grupos deaptitud

    Términos de la expresión

     

       

     

    I

    8x1=8 8/19=0,42 8x2=16 16/19=0,84

    13x50=650 650/131=4,96 58x10=580 580/131=4,43

  • 8/16/2019 Psicometria TEMA 8

    26/26