El análisis de ítems (ítems de prueba) [1] incluye un conjunto de métodos estadísticos para examinar la idoneidad de los ítems de prueba individuales, cuyos valores se obtuvieron, por ejemplo, a través de una encuesta escrita, según el propósito del estudio. . El objetivo es crear una escala cualitativa (escala aquí significa una herramienta para medir algunas variables) para probar y mejorar los elementos de prueba. El tema del análisis de ítems, por lo tanto, es estudiar la utilidad de los elementos individuales para una prueba en particular. El análisis de puestos es una herramienta clave para diseñar casos de prueba y evaluar su confiabilidad (como criterio). Decisivo para la evaluación es la decisión de que toda la prueba (es decir, todos sus elementos) esté dirigida a estudiar exactamente lo que originalmente se pretendía medir.
El concepto de análisis de tareas no está definido con precisión en la literatura. Se utiliza para determinar empíricamente criterios psicométricos para elementos de prueba individuales. La mayoría de las definiciones se refieren al análisis clásico de tareas en el diseño de pruebas: • Análisis de distribución de frecuencias • Cálculo de parámetros estadísticos o Dificultad de las tareas o Poder discriminante (capacidad distintiva) de las tareas o Homogeneidad (Homogeneidad) de las tareas • Dimensionalidad (dimensionalidad). El análisis se lleva a cabo de acuerdo con el algoritmo, cuyo propósito es desarrollar la capacidad de medición del factor para el cual se creó la prueba. El análisis de ítems se utiliza para seleccionar y revisar ítems, colocarlos correctamente en una prueba y, posiblemente, desarrollar pruebas paralelas.
Los valores de control se pueden presentar gráficamente (por ejemplo, como un gráfico de barras). Esto proporciona la primera idea general de la distribución de frecuencias . El principal interés aquí es la dispersión de valores y la respuesta a la pregunta de si la distribución de valores brutos sigue una distribución normal. Debido a que muchos procedimientos de análisis estadístico asumen una distribución normal, es deseable una distribución adecuada.
La dificultad de las tareas se caracteriza por un índice que corresponde a la proporción de personas que resolvieron correctamente la tarea (Bortz & Döring, 2005). Anteriormente, este indicador se llamaba Índice de Popularidad. El propósito del Índice de Dificultad es distinguir entre tareas que son de alta dificultad de aquellas que son más fáciles. No son adecuadas las tareas para las que todos los sujetos dan la respuesta correcta, o las tareas para las que nadie encontró la respuesta. El índice de dificultad debe ubicarse necesariamente entre estos casos extremos. En las pruebas, el nivel de dificultad debe cubrir todo el rango posible de la característica que mide la prueba.
La dificultad de los elementos de prueba con una respuesta de dos pasos (por ejemplo, verdadero / falso) se calcula de la siguiente manera:
, dónde
Nr = número de sujetos que respondieron correctamente, N = número de sujetos, p = dificultad del ítem (¡solo ítems de dos pasos!) Esto proporciona una solución para el caso más simple. Si los sujetos no resolvieron la tarea o existe la sospecha de que algunas tareas se realizaron “al azar”, entonces hay que confiar en otras soluciones alternativas. (vgl. Fisseni, 1997, 41-42).
Cálculo de la dificultad de tareas con respuestas de varias etapas (alternativas): El caso cuando p no está definido. Posibles soluciones a este problema: • Producir una dicotomía de valores establecidos (por ejemplo, 0 y 1), en este caso se calcula la dificultad de la tarea con respuesta en dos pasos. • Cálculo de la media y la varianza (la media es equivalente a p, pero también hay que tener en cuenta la dispersión).
• = Índice para preguntas con respuestas multinivel:
Fórmula simplificada:
Para un cálculo más preciso, diferentes autores ofrecen diferentes métodos (vgl. Fisseni, 2004, 43-45). La diferencia en la dificultad de las dos tareas se puede comprobar mediante una tabla multidisciplinar. Estas fórmulas solo se pueden utilizar para el nivel de prueba, es decir, cuando no se requiere la prueba y/o cuando los sujetos pudieron hacer frente a todas las tareas. (vgl. Lienert, 1989).
Al calcular el poder discriminante, puede ver cuánto afecta cada elemento al resultado general de la prueba (Bortz & Döring, 2005). Por lo tanto, un puntaje de poder discriminante alto significa que el ítem es capaz de distinguir ítems en términos de la prueba general (es decir, individuos con valores altos de la característica de aquellos con valores bajos). El poder discriminante tiene un coeficiente. Este es el coeficiente de correlación entre un solo elemento y el puntaje general de la prueba. El coeficiente se calcula para cada tarea individual y depende de la escala del nivel de control. Si la distribución de los valores de prueba tiene la forma de una distribución normal, entonces el poder discriminante ( ) está determinado por la correlación entre el valor de una tarea i y el valor total de la prueba t:
Si = 0, entonces las tareas alcanzan valores igualmente bajos y altos de la característica. Si la puntuación de correlación es negativa, el elemento se considera inutilizable. A priori, es deseable el mayor carácter distintivo posible de las tareas, especialmente para el nivel de las pruebas. El poder discriminante de cada tarea depende de la complejidad, dimensión y homogeneidad de la prueba, así como de su posición dentro de la prueba y la confiabilidad del criterio. (El criterio puede contener un valor de prueba, además, se puede usar un criterio externo. Entonces actúa como un coeficiente) Es posible una alta eficiencia del poder discriminante con una complejidad de tarea promedio (vgl. Lienert, 1989).
La homogeneidad muestra qué tan estrechamente están relacionados los elementos de prueba entre sí. Cuando existe una alta homogeneidad, las tareas de investigación apuntan a medir el mismo fenómeno (Bortz & Döring, 2005). Todos los elementos de la prueba tienen pares de correlación, lo que da como resultado un coeficiente de correlación ( ), que (calculado mediante la transformada Z de Fisher) describe la puntuación media de homogeneidad de la prueba ( ). El número de correlaciones depende de la dificultad de las tareas. Cuanto mayor sea la diferencia en las tareas por el criterio de dificultad, menor correlación cruzada, lo que, a su vez, afecta la confiabilidad de la prueba. Así, los ítems del test (subtest) no tienen correlación en términos de dificultad (test heterogéneo), o los ítems tienen esta correlación (test homogéneo) (vgl. Lienert, 1989).
La dimensionalidad de una prueba indica solo una de sus funciones (prueba univariante) o varias funciones de la prueba o subpruebas (prueba multivariante) (Bortz & Döring 2005). Empíricamente, la dimensionalidad se puede determinar mediante análisis factorial.