Fiabilidad de la prueba psicológica

La fiabilidad es uno de los criterios de calidad de la prueba , su estabilidad en relación con los errores de medición. Hay dos tipos de confiabilidad: confiabilidad como estabilidad y confiabilidad como consistencia interna .

Confiabilidad como sustentabilidad

Estabilidad de los resultados de la prueba o confiabilidad de reevaluación ( inglés  test-retest confiabilidad ) - la posibilidad de obtener los mismos resultados de sujetos en diferentes casos.

La estabilidad se determina mediante pruebas repetidas (retest) :

En este método, se propone realizar varias mediciones con un período de tiempo determinado (desde una semana hasta un año) con la misma prueba. Si la correlación entre los resultados de diferentes mediciones es alta, entonces la prueba es bastante confiable. El valor menos satisfactorio para la fiabilidad de la nueva prueba es 0,76. Sin embargo, no todas las pruebas pueden probarse con este método, ya que la calidad, el fenómeno o el efecto evaluados pueden ser inestables (por ejemplo, nuestro estado de ánimo, que puede cambiar de una medición a la siguiente). Otra desventaja de volver a probar es el efecto adictivo. Los sujetos ya están familiarizados con esta prueba, e incluso pueden recordar la mayoría de sus respuestas de la prueba anterior.

En relación con lo anterior, se utiliza un estudio de la confiabilidad de los métodos de psicodiagnóstico que utilizan formularios paralelos, en los que se construyen conjuntos de tareas equivalentes o paralelas. En este caso, los sujetos realizan una prueba completamente diferente en condiciones similares. Sin embargo, existen dificultades para probar que las dos formas son efectivamente equivalentes. A pesar de esto, en la práctica, las formas paralelas de pruebas son útiles para establecer la confiabilidad de las pruebas.

Confiabilidad como consistencia interna

La consistencia interna ( consistencia interna en inglés  ) está determinada por la relación de cada elemento específico de la prueba con el resultado general, por cuánto cada elemento contradice a los demás, por cuánto cada pregunta individual mide el signo al que se dirige toda la prueba. La mayoría de las veces, las pruebas están diseñadas de tal manera que tienen un alto grado de consistencia interna, debido al hecho de que si una variable se mide en parte de la prueba, entonces en otras partes, si no son consistentes con la primera, la misma variable no se puede medir. Por lo tanto, para que una prueba sea válida, debe ser consistente.

Sin embargo, también hay un punto de vista opuesto. Cattell dice que una alta consistencia interna es en realidad lo opuesto a la validez: cada pregunta debe cubrir un área más pequeña o tener un significado más limitado que el criterio que se mide. Si todas las preguntas son altamente consistentes, están altamente correlacionadas y, por lo tanto, una prueba confiable solo medirá una variable relativamente "estrecha" con pequeñas variaciones. Según el razonamiento de Cattell, la máxima validez existe cuando todos los ítems de la prueba no están correlacionados entre sí, y cada uno de ellos tiene una correlación positiva con el criterio. Sin embargo, tal prueba tendría una baja confiabilidad de consistencia interna.

Para verificar la consistencia interna, aplique:

  1. Método dividido o método de partes autónomas
  2. Método en blanco equivalente
  3. Alfa de Cronbach

Fiabilidad dividida por la mitad

Este método consiste en partir/dividir la prueba en dos partes iguales (por ejemplo, preguntas pares e impares, primera y segunda mitad), y luego encontrar la correlación entre ellas. Si la correlación es alta, la prueba puede considerarse confiable.

Método de espacios en blanco equivalentes

La OIE consiste en utilizar dos formularios de prueba comparables entre sí para una muestra grande (por ejemplo, formularios L y M para medir la escala de inteligencia de Stanford-Binet). Los resultados de los dos formularios se comparan y se calcula una correlación. Si el coeficiente de correlación es alto, entonces la prueba es confiable. La desventaja de este método es que implica un proceso tan largo y laborioso como el de crear dos formas equivalentes.

Método alfa de Cronbach

Este método, propuesto por Lee Cronbach , compara la dispersión de cada elemento con la dispersión total de toda la escala. Si la distribución de los puntajes de las pruebas es menor que la distribución de los puntajes de cada pregunta individual, entonces cada pregunta individual tiene como objetivo explorar el mismo terreno común. Producen un valor que puede considerarse verdadero. Si no se puede calcular dicho valor, es decir, se obtiene una distribución aleatoria al responder las preguntas, la prueba no es confiable y el alfa de Cronbach será igual a 0. Si todas las preguntas miden el mismo atributo, entonces la prueba es confiable. y el alfa de Cronbach en este caso será igual a uno.

Cálculo de Cronbach

Cronbach se define como

,

donde  es el número de ítems en la escala,  es la varianza del puntaje total de la prueba y  es la varianza del elemento .

Una forma alternativa de calcular es la siguiente:

donde N es el número de ítems en la escala,  es la varianza media de la muestra,  es la media de todas las covarianzas entre los componentes de la muestra.

Actualmente, Cronbach se calcula usando SPSS , STATISTICA y otros paquetes estadísticos modernos, posiblemente usando Microsoft Excel.

significado de Cronbach

El alfa de Cronbach generalmente aumentará a medida que aumenten las correlaciones cruzadas de las variables y, por lo tanto, se considera un marcador de consistencia interna para evaluar la validez de los resultados de las pruebas. Dado que las correlaciones cruzadas máximas entre variables en todos los elementos están presentes si se mide lo mismo, el alfa de Cronbach indica indirectamente hasta qué punto todos los elementos miden lo mismo. Por lo tanto, alfa es más apropiado para usar cuando todos los elementos tienen como objetivo medir el mismo fenómeno, propiedad, fenómeno. Sin embargo, debe tenerse en cuenta que un valor alto del coeficiente indica la presencia de una base común para un conjunto de preguntas, pero no significa que solo haya un factor detrás de ellas: la unidimensionalidad de la escala debe ser confirmada por métodos adicionales. Cuando se mide una estructura heterogénea, el alfa de Cronbach suele ser bajo. Por lo tanto, alfa no es adecuado para evaluar la confiabilidad de instrumentos deliberadamente heterogéneos (por ejemplo, para el MMPI original , en este caso tiene sentido realizar mediciones separadas para cada escala).

Se cree que las pruebas diseñadas profesionalmente deben tener una consistencia interna de al menos 0,70 [1] .

El coeficiente alfa también se puede utilizar para resolver otro tipo de problemas. Por lo tanto, se puede utilizar para medir el grado de consistencia de los expertos que evalúan un objeto en particular, la estabilidad de los datos durante múltiples mediciones, etc.

Fundamento teórico de Cronbach

El método alfa de Cronbach puede verse como una extensión de Cuder-Richardson-20 , que es el equivalente para trabajar con dicotomías o variables que toman solo dos valores (por ejemplo, respuestas verdadero/falso).

El criterio alfa de Cronbach está relacionado teóricamente con la fórmula de predicción de Spearman-Brown . Y ambas fórmulas se derivan de la teoría clásica de la prueba  (enlace inaccesible) , que consiste en el hecho de que la fiabilidad de los resultados de la prueba se puede expresar como la relación de las varianzas de las puntuaciones verdaderas y totales (error y puntuación verdadera) .

Véase también

  • Además de la confiabilidad de la prueba, también existe la confiabilidad observacional: la confiabilidad entre observadores. МН es el porcentaje de coincidencia de los resultados de la observación de expertos entre sí.
  • Análisis de fiabilidad
  • Teoría de la respuesta al ítem

Fiabilidad y validez

La confiabilidad muestra que los resultados del estudio que se está realizando están cerca de la verdad, y la validez muestra que los resultados realmente se relacionan con el fenómeno que el investigador está estudiando. Un estudio válido es automáticamente confiable, pero lo contrario no es necesariamente el caso. Un estudio fiable puede no ser válido.

Notas

  1. Lance Charles E. , Butts Marcus M. , Michels Lawrence C. Las fuentes de los cuatro criterios de corte comúnmente informados  //  Métodos de investigación organizacional. - 2006. - Abril ( vol. 9 , no. 2 ). - pág. 202-220 . - ISSN 1094-4281 . -doi : 10.1177/ 1094428105284919 .

Literatura

Pablo Kline. "Guía de referencia para el diseño de pruebas", Kyiv, 1994.

Enlaces