Modern Testing Theory ( Teoría de respuesta al ítem en inglés ) - (a veces en ruso - Teoría de prueba moderna, Teoría de respuestas a tareas, Teoría de modelado y parametrización de pruebas pedagógicas) un conjunto de métodos que le permite evaluar la probabilidad de una respuesta correcta de sujetos a tareas de diversa dificultad. Se utiliza para deshacerse de las preguntas malas (no informativas) en el cuestionario, evaluar la relación de los constructos latentes entre sí y con las variables observadas, optimizar la presentación de las tareas a los encuestados, etc. En ruso, el nombre Teoría de la respuesta al ítem se traduce de varias maneras. Y. Neiman y V. Khlebnikov proponen llamarlo "La Teoría del Modelado y Parametrización de las Pruebas Pedagógicas" (TMPT) [1] . V. Avanesov - "Teoría matemática y estadística de la evaluación de los parámetros latentes de los elementos de prueba y el nivel de preparación de los sujetos" [2] . Sin embargo, uno de los métodos de traducción más exitosos es la “teoría moderna de las pruebas”, ya que sus modelos no describen tareas de prueba y no la prueba en sí, sino el resultado (y muchos modelos modernos, y el proceso) de la interacción de encuestados y tareas.
En psicometría, la teoría moderna de pruebas (TRI) es el paradigma para diseñar, analizar y evaluar pruebas, cuestionarios y herramientas de medición similares. Esta teoría de las pruebas sugiere que existe una relación entre la predictibilidad del modelo de las respuestas a las tareas y la calidad general del conocimiento. Para evaluar los parámetros objetivo de las tareas y los encuestados, se utilizan varios modelos estadísticos [3] . A diferencia de las alternativas más simples para crear escalas y evaluar las respuestas a los cuestionarios, la teoría moderna de las pruebas no asume que todas las preguntas son igualmente difíciles. Esto distingue a IRT de, por ejemplo, la suposición de escala de Likert de que "todos los trabajos se consideran réplicas entre sí, o en otras palabras: los trabajos se consideran intercambiables" [4] . Por el contrario, la teoría moderna de las pruebas considera los parámetros de cada elemento (especificando la ICC (Item Characteristic Curve) - la curva característica del elemento) como información que debe incluirse en la calibración del modelo.
Por lo tanto, IRT modela la probabilidad de que cada encuestado responda cada ítem de la prueba. Una característica fundamental de la teoría moderna de las pruebas y su definición clave es la idea de separar los parámetros de los encuestados y las tareas. Es decir, la probabilidad de una respuesta correcta a una tarea es el resultado de la interacción de los parámetros latentes del encuestado y la tarea. La forma específica de su interacción está determinada por las suposiciones del investigador y se traduce en la ecuación de una función matemática específica: un modelo de teoría de prueba moderna.
Los modelos de la teoría de las pruebas modernas están estrechamente relacionados con el análisis factorial confirmatorio, los modelos de efectos mixtos lineales generalizados, los modelos de red de la física estadística (campos de Markov y el modelo de Ising) y los métodos de ciencia de datos separados (métodos modelo de filtrado colaborativo y máquinas de Boltzmann restringidas). Los modelos IRT modernos permiten modelar nuevas fuentes de información (por ejemplo, tiempo de respuesta, intentos de resolución de problemas); dependencias complejas no lineales (por ejemplo, techo) entre diferentes variables latentes; modelar los efectos de los evaluadores que califican las respuestas abiertas (y permitir la invariancia de los puntajes finales de habilidad con respecto al evaluador); modelar construcciones compuestas y multidimensionales; modelar cambios en el nivel de una variable latente a lo largo del tiempo; use puntajes de capacidad discretos que conviertan un modelo de clasificación en un clasificador, etc. Hoy en día, IRT es una de las áreas más avanzadas y con base teórica de las ciencias del comportamiento computacional.
La fuente común para la creación de la TRI fue la llamada función logística de especies , que se conoce en las ciencias biológicas desde 1844. Desde entonces, ha sido ampliamente utilizado en biología para modelar el crecimiento de la masa vegetal o el crecimiento de organismos. Como modelo de medición psicológica y pedagógica, comenzó a aplicarse a partir de la década del 50 del siglo XX. En los orígenes del desarrollo de los modelos IRT yacen el deseo de visualizar las características formales de los ítems de prueba, los intentos de superar las numerosas deficiencias de la teoría de prueba clásica, aumentar la precisión de la medición y, finalmente, el deseo de optimizar el procedimiento de control mediante adaptar la prueba al nivel de preparación de los estudiantes usando una computadora [2] .
El trabajo original de la TRI como teoría se originó en las décadas de 1950 y 1960. Estos eran miembros del Servicio de Pruebas Educativas : Frederik Lord , el matemático danés Georg Rasch y el sociólogo austriaco Paul Lazarsfeld . Benjamin Drake y David Andrich son las figuras clave que han impulsado el progreso de la IRT .
Entre los primeros requisitos previos para la creación de IRT estaban los resultados del trabajo de investigación de Alfred Binet y Theodore Simon [5] , que reflejaban el deseo de los autores de revelar cómo, en sentido figurado, las tareas que les dieron a los niños de diferentes edades. "trabajar". Después de haber colocado los puntos en el plano de coordenadas, donde la abscisa muestra la edad (en años), y la ordenada muestra la proporción de respuestas correctas en cada grupo de edad de los sujetos, los autores vieron que los puntos obtenidos, después de promediar sobre cada grupo , se asemejan a una curva más tarde llamada característica.
En 1936, MWRichardson realizó un extenso estudio empírico, entrevistó a 1.200 estudiantes en 803 tareas, durante las cuales los estudiantes, dependiendo de su puntaje en la prueba, se dividieron en 12 grupos de cien personas cada uno. Fue la primera en llamar la atención sobre la diferente inclinación de las curvas de los ítems de prueba y propuso considerar la medida de la inclinación como una estimación aproximada de la capacidad diferenciadora de una tarea [6] . MWRichardson aparentemente fue el primero en darse cuenta de la utilidad de usar puntos promedio para la presentación gráfica de las características formales de los ítems de las pruebas diseñadas [7] .
En particular, el propósito de la IRT es proporcionar un marco para analizar qué tan bien se están desempeñando las evaluaciones y qué tan bien se están desempeñando los elementos de evaluación individuales. La aplicación más común de la teoría moderna de las pruebas es en la educación, donde la psicometría la usa para desarrollar y diseñar exámenes, mantener bancos de preguntas para los exámenes y comparar la dificultad de las preguntas para las versiones posteriores de los exámenes [8] . En esta área, debido a las altas apuestas de las decisiones tomadas sobre la base de los resultados de las pruebas, la argumentación de la calidad de las herramientas de medición es un elemento extremadamente importante de la responsabilidad del desarrollador y la ventaja competitiva de su herramienta, y los modelos de la teoría moderna de pruebas. ocupan uno de los lugares clave en esta argumentación.
El IRF da la probabilidad de que una persona con un nivel dado de habilidad responda una tarea correctamente.
El modelo logístico de tres parámetros (3PL) de la teoría moderna de las pruebas establece la probabilidad de una respuesta correcta a una tarea dicotómica i (generalmente una pregunta con una opción de respuesta entre varias propuestas) como:
Donde suele seguir una distribución normal (en modelos marginados). Después de calibrar el modelo, se evalúa la capacidad de cada encuestado para informar los resultados a los usuarios. y son parámetros de trabajo . Los parámetros del trabajo definen la forma de la función de respuesta del trabajo. La Figura 1 muestra la curva de respuesta del modelo del modelo 3PL.
Los parámetros del trabajo se pueden interpretar como un cambio en la forma de la función logística estándar :
Parámetros que describen tareas de prueba:
Los modelos IRT se pueden dividir en dos familias: unidimensionales y multidimensionales. Los modelos unidimensionales requieren un solo valor de medición (capacidad) . Se supone que las respuestas a las tareas en los modelos TRI multivariados dependen de varias variables latentes que caracterizan a los encuestados.
Los modelos IRT también se pueden clasificar por el número de puntos en un elemento. La mayoría de las veces, las tareas son dicotómicas (los puntajes posibles son 0 (todo está mal) o 1 (todo está correcto)). Otra clase de modelos es aplicable a tareas politómicas, donde cada respuesta refleja la corrección parcial de la tarea [9] . Un ejemplo común de esto son los ítems con una escala de respuesta tipo Likert , como "de 0 a 4".
El número de parámetros incluidos en la especificación analítica de funciones es la base para dividir las familias de funciones lógicas en clases.
Entre las funciones logísticas, se encuentran [10] :
1) Modelo de un parámetro de G. Rasch (Georg Rasch) - , donde y son los parámetros de los encuestados y la tarea i, respectivamente;
A veces, el factor 1.702 se ingresa bajo el signo del exponente, que se usa para hacer que el modelo de Rasch sea compatible con el modelo de A. Fergusson, donde la probabilidad de una respuesta correcta a una tarea se expresa mediante la integral de la distribución normal (la fórmula para la densidad de probabilidad acumulada de la distribución normal), lo que hace posible utilizar la bien estudiada función integral de la distribución normal estándar.
El modelo de Rasch se denomina “Modelo de rasgo latente logístico paramétrico 1” (1PL), y el modelo de A. Fergusson se denomina “Modelo de ojiva normal paramétrico 1” (1PNO). Dado que el modelo de Rasch describe la probabilidad de que un encuestado resuelva una tarea en función de un parámetro de la tarea (diferencia ; en algunas interpretaciones, debido al hecho de que la tarea tiene solo un parámetro ), se denomina modelo de uno . modelo de parámetros de la teoría moderna de las pruebas.
La interacción de dos conjuntos forma datos que tienen la propiedad de "aditividad conjunta" (aditividad conjunta). El uso correcto del modelo de Rasch permite lograr una total independencia de los parámetros de los encuestados a partir de qué tareas responden, y los parámetros de las tareas a partir de las cuales los encuestados las responden. Esta propiedad de las mediciones que utilizan el modelo de Rasch se denomina objetividad específica.
En la fig. 2 muestra tres curvas características con dificultades de tarea de -2, 0 y +2 logits (la primera es la más fácil, la segunda es la media, la tercera es la más difícil). De las dependencias dadas se puede ver que cuanto mayor sea el nivel de preparación θ del sujeto, mayor será la probabilidad de éxito en una tarea en particular. Por ejemplo, para un sujeto con la probabilidad de responder correctamente la primera tarea es cercana a uno, la segunda es 0.5 y la tercera es casi cero. Tenga en cuenta que en los puntos donde la probabilidad de una respuesta correcta es de 0,5. Es decir, si la dificultad de la tarea es igual al nivel de preparación del sujeto, entonces con igual probabilidad puede hacer frente o no a esta tarea.
En la fig. 3 muestra tres curvas características de los sujetos - "Curva característica de la persona" (PCC). Se muestran gráficos para tres sujetos con un nivel de preparación de -2 logits (más débil), 0 logits (promedio) y +2 logits (sujeto de prueba fuerte).
De las dependencias anteriores se puede ver que cuanto mayor sea el nivel de preparación, mayor será la probabilidad de una respuesta correcta a la tarea. Por ejemplo, el primer sujeto (q=-2) prácticamente no podrá realizar una tarea con dificultad b = 0, el segundo (q = 0) tiene una probabilidad de completar la tarea igual a 0,5, el tercero (q= +2) hará frente fácilmente a la tarea, ya que para él la probabilidad de éxito es casi igual a uno.
2) Modelo de dos parámetros de A. Birnbaum :
Si la prueba contiene tareas con diferente capacidad de diferenciación ( ), entonces el modelo 1PL de un parámetro no puede describir dichos datos. Para superar esta dificultad, A. Birnbaum introdujo otro parámetro - (parámetro de discriminación de elementos), el parámetro de discriminación.
El parámetro determina la pendiente (inclinación) de la curva característica de la i-ésima tarea. Ejemplos de curvas características se muestran en la fig. 4. Se puede ver que cuanto más pronunciada es la curva, y mayor es la capacidad diferenciadora de la tarea.
3) modelo de tres parámetros de A. Birnbaum:
donde es el tercer parámetro de la tarea que caracteriza la probabilidad de una respuesta correcta a la i-ésima tarea.
Para una correspondencia aún mejor con los datos empíricos, A. Birnbaum introdujo un tercer parámetro : el parámetro de adivinanza. En la fig. La figura 5 muestra ejemplos de curvas características para tres tareas con dificultad = 1, parámetro de discriminación = 1 y varios parámetros de adivinanza = 0, = 0,25, = 0,5. De los gráficos anteriores, se puede ver que la presencia del parámetro de conjetura conduce a una compresión proporcional de ICC de a 1.
4) Modelo de cuatro parámetros de A. Birnbaum:
donde es el cuarto parámetro de la tarea, que caracteriza la probabilidad de error al responder la i-ésima tarea. En este modelo, la curva característica se contrae como en el modelo 3PL, pero no de a 1, sino de a .
Así, el modelo 2PL es una generalización del modelo 1PL para el caso de tareas con diferentes parámetros de discriminación, y el modelo 3PL es una generalización del modelo 2PL para el caso de tareas con diferentes parámetros de adivinación, y al mismo tiempo, , a su vez, es un caso especial del modelo 4PL.
También hay modelos "5PL" que describen tareas con una curva característica no monótona, que refleja un aumento en la probabilidad de resolver una tarea hasta cierto nivel de habilidad y luego su disminución.
Un rasgo característico de los modelos de la familia de modelos Rasch (incluidos los modelos politómicos) es el paralelismo de las curvas características de las tareas (no se cruzan), ver fig. 3. Esto implica que la probabilidad de resolver una tarea más fácil es siempre menor que una más difícil; esto crea una jerarquía de tareas en todo el continuo de la capacidad y permite que se interprete cualitativamente.
Se observa una imagen completamente diferente para los modelos de dos y tres parámetros. En la Fig. 4, esto se ve claramente. La tarea con = 0,5 en el rango de valores positivos de θ es la más difícil de las tres tareas presentadas, es decir, la probabilidad de una respuesta correcta a esta tarea es la más baja. En la región de valores negativos de q, la misma tarea ahora es la más fácil: la probabilidad de una respuesta correcta es la más alta. Resulta que para los estudiantes débiles esta es la tarea más fácil y para los estudiantes fuertes es la más difícil. Por lo tanto, a diferencia de los modelos de Rasch, la jerarquía de tareas en 2PL no se basa en todo el continuo de habilidades, sino desde una intersección de las curvas características (cualquiera) a otra, después de lo cual comienza una nueva jerarquía de tareas, lo que priva al análisis de estas jerarquías. de todas las consideraciones prácticas.
Se observa una imagen similar para el modelo de tres parámetros. La Figura 5 muestra un caso raro de curvas características que no se cortan, ya que se eligen para ellas los mismos parámetros =1 y =1, es decir, las tres tareas tienen la misma dificultad y el mismo parámetro de discriminación.
La figura 6 muestra otro ejemplo. Aquí, la tarea con el parámetro =0 tiene la dificultad = -1 cambiada, lo que provocó inmediatamente la intersección de las curvas características. Establecer c = 0 en la región θ < -2 es lo más difícil. En la región -1.5 < θ < -1, esta tarea es más fácil que la tarea con =0.25 y más difícil que la tarea con =0.5. En la región θ > -1, la tarea con =0 es la más fácil. Este tipo de intersección ICC en la práctica siempre ocurre en modelos 2PL y 3PL.
Sin embargo, solo el paralelismo de las curvas características puede conducir a la propiedad de objetividad específica, es decir, solo los modelos de Rasch pueden garantizar la independencia de los parámetros de los encuestados y las tareas entre sí. Sin embargo, esto no significa que los problemas psicométricos específicos no puedan abordarse en modelos 2PL y anteriores.
1) Hay parámetros latentes/ocultos de encuestados y tareas (que no están disponibles para la observación directa). Por ejemplo, en las pruebas intelectuales, este es el nivel de inteligencia del sujeto y el nivel de dificultad de la tarea (en los modelos de Rasch).
2) Hay indicadores, cuya probabilidad está determinada por parámetros latentes. Sin embargo, a diferencia de los parámetros, los indicadores están disponibles para su observación. Los valores de los indicadores se pueden utilizar para juzgar los valores de los parámetros latentes.
3) Formulación obsoleta: El parámetro latente a evaluar debe ser unidimensional (la escala debe medir una y sólo una variable). Si no se cumple la condición de unidimensionalidad, entonces es necesario volver a trabajar la prueba. Todos los elementos que violen la unidimensionalidad deben eliminarse de la escala o modificarse para que sean desafiantes, ya que esto provoca una violación de los supuestos del modelo y contamina la interpretación de las estimaciones de los parámetros.
Formulación moderna: los elementos deben ser localmente independientes de los parámetros de los encuestados. Esto significa que al controlar por los parámetros de los encuestados, no hay covarianzas entre las respuestas a las tareas. En otras palabras, si selecciona a todos los encuestados con un cierto nivel de habilidad (por ejemplo, igual a 1 logit, y lo hace para cada valor posible de habilidad), entonces sus respuestas a las tareas son completamente aleatorias. En este caso, toda la información que vincula los ítems es el nivel de habilidad de los encuestados, que es extraído por el modelo, y no hay covarianza entre los residuos (dependencia de los ítems localmente de los parámetros de los encuestados). Esta formulación proporciona una mayor generalidad de métodos para superar la dependencia local de las tareas (no unidimensionalidad de la prueba), ya que permite incluir parámetros adicionales de los encuestados en el modelo (convirtiendo el modelo en un módulo bifactorial o testlet). ), que refleja la interacción de los encuestados y los testlets (grupos de tareas que demuestran dependencia local). En este caso, los parámetros adicionales de los encuestados actúan como factores específicos de los modelos bifactoriales y "absorben" la dependencia local. Con su control, es posible lograr la independencia local sobre los parámetros de los encuestados, aumentando el número de estos parámetros. Al mismo tiempo, esta suposición nos permite integrar la teoría de prueba moderna en la llamada. la teoría de la covarianza condicional (conditional covariance theory), para todas las clases de modelos de los que esta suposición es característica: para cualquiera , donde están las respuestas a las tareas. La teoría de la covarianza condicional incluye análisis de clases latentes, modelos de diagnóstico cognitivo, análisis factorial confirmatorio, redes bayesianas y otros métodos de modelado de variables latentes.
Teoría Clásica de Pruebas (CTT) | IRT (modelos Rush) | |
---|---|---|
una | Las estimaciones de la dificultad de las tareas de prueba dependen del nivel de preparación de una muestra particular de sujetos | Las estimaciones de la dificultad de los ítems de prueba son invariantes con respecto al contingente de sujetos, según los resultados de prueba de los que se obtuvieron. |
2 | Las evaluaciones del nivel de preparación de los sujetos (puntajes primarios) dependen del nivel de dificultad de una prueba en particular | Las estimaciones del nivel de preparación de los sujetos son invariantes respecto a las tareas de la prueba, según los resultados de los que se hayan obtenido |
3 | El error de medición es constante para todos los sujetos. No se evalúa el error de medición del trabajo | El error de medición se evalúa individualmente para cada sujeto y cada tarea. Además, el error se calcula directamente, y no indirectamente. |
cuatro | Los métodos de estimación de confiabilidad requieren restricciones significativas y dan resultados distorsionados. | Es posible evaluar por separado la confiabilidad de la medición de los sujetos y la confiabilidad de la evaluación de los ítems de la prueba. |
5 | La escala de puntuación primaria es ordinal. Ninguna conversión de puntajes primarios a CTT eleva el nivel de la escala | La escala logit es una escala de intervalos, que permite pasar de la clasificación de temas y tareas a la medición del nivel de preparación y el nivel de dificultad, respectivamente. |
6 | La distribución normal de las puntuaciones de los sujetos de prueba y las dificultades de los elementos de prueba juegan un papel importante. | No se requiere una distribución normal de los parámetros. |
7 | Las formas de establecer la correspondencia entre las puntuaciones de los sujetos que realizaron diferentes opciones requieren suposiciones difíciles. | Es posible realizar el procedimiento para alinear los indicadores de varias opciones y realizar el escalado en una sola escala métrica. Es posible crear bolsas de trabajo |
ocho | No apto para pruebas adaptativas por computadora | Toda la teoría de las pruebas adaptativas por computadora se basa en IRT |
9 | El análisis se concentra únicamente en evaluar la dificultad de las tareas y medidas de los sujetos | Es posible analizar la influencia de factores adicionales en las estimaciones de los parámetros de tareas y medidas de los sujetos |
diez | La asignación artificial de pesos a las tareas puede conducir a la distorsión de la información sobre el nivel de preparación de los sujetos | El peso (aporte de información) de una tarea de prueba se puede calcular por separado, independientemente de las características de otras tareas. |