La ilusión de agrupamiento es un sesgo cognitivo , la tendencia a asumir erróneamente que las inevitables "bandas" o "grupos" de valores que ocurren en muestras pequeñas de distribuciones aleatorias no son aleatorias. Esta ilusión es causada por la tendencia humana a subestimar el grado de variabilidad que puede aparecer en una pequeña muestra de datos aleatorios o pseudoaleatorios.
La ilusión de agrupamiento es la tendencia humana a esperar que los eventos aleatorios parezcan más regulares o uniformes de lo que realmente son, lo que lleva a suponer que los agrupamientos o patrones en los datos no pueden deberse únicamente a la aleatoriedad.
Un ejemplo importante de agrupamiento es que las estrellas en el cielo nocturno aparecen más brillantes y más agrupadas en algunas áreas, mientras que hay puntos "en blanco" en otras áreas. En la ilusión del cúmulo, uno simplemente espera que tenga alguna explicación física (por ejemplo, las estrellas deben estar físicamente agrupadas en el espacio), ya que "no parecen realmente aleatorias". Sin embargo, la posición de las estrellas es aleatoria y nuestra idea de un sistema es errónea.
Thomas Gilovich , uno de los primeros investigadores sobre el tema, argumentó que la ilusión de agrupamiento ocurre con varios tipos de variaciones aleatorias, incluidos datos bidimensionales como agrupaciones en los sitios de bombardeo V-1 en mapas de Londres durante la Segunda Guerra Mundial ; o al evaluar los patrones de fluctuación de precios en el mercado de valores a lo largo del tiempo [1] .
Aunque los londinenses desarrollaron teorías específicas sobre la naturaleza de los atentados de Londres, el análisis estadístico de R. D. Clarke, publicado por primera vez en 1946 , mostró que la distribución de las bombas estaba cerca de la aleatoriedad matemática [2] [3] [4] [5] .
Según la rama de las matemáticas conocida como teoría de Ramsey , la aleatoriedad completa no es posible en ningún sistema físico. Sin embargo, sería más correcto argumentar que la ilusión de agrupamiento se refiere a la tendencia humana natural a asociar algún valor con ciertos patrones que inevitablemente deben aparecer en cualquier conjunto de datos suficientemente grande.
Por ejemplo, la mayoría de la gente afirma que la secuencia "OXXXOXXXOXXOOOXOOXXOO" no es aleatoria cuando, de hecho, tiene muchas cualidades que también podrían ser características de lo que uno vería en un flujo de valores "aleatorios", como tener el mismo número de valores. cada valor y que el número de conglomerados adyacentes con el mismo resultado es igual para ambos posibles resultados. Con tales secuencias, la gente parece esperar ver más cambios de los que se podrían predecir estadísticamente. De hecho, en un pequeño número de ensayos, la variabilidad y los "grupos" de aspecto no aleatorio son bastante probables.
Otro ejemplo son las respuestas del SAT , una prueba estandarizada de opción múltiple en los Estados Unidos , en la que las preguntas están espaciadas deliberadamente para que no contengan secuencias largas. Como resultado, el estudiante puede sentirse presionado para elegir la respuesta incorrecta.
La existencia de patrones en la evaluación humana de un conjunto de datos a menudo se puede determinar utilizando técnicas de análisis estadístico o incluso de criptoanálisis.
Considere la secuencia "XXOXOXOOOXOXOOOXOX"; ella es al azar? La respuesta es no; si asocia la posición "X" en la cadena con números primos y "O" - con números compuestos, comenzando con el número 2, el patrón es obvio. Los programas informáticos que leen y comprimen datos están diseñados, en cierto sentido, para "buscar patrones" en los datos y crear representaciones alternativas a partir de las cuales se pueden reconstruir los datos originales a partir de la forma comprimida. Se puede esperar que grandes conjuntos de datos que contienen "clusters" de naturaleza no aleatoria se compriman bien con el algoritmo de codificación correcto. Por otro lado, si no hay un agrupamiento o patrón real en un conjunto de datos en particular, se puede esperar que se comprima mal, si es que se comprime.
La ilusión de agrupamiento ha sido central en la muy publicitada investigación de Thomas Gilovich, Robert Vallone y Amos Tversky . Su conclusión desacreditó la ilusión de "mano caliente" en el baloncesto al establecer que la distribución de resultados no se puede distinguir de la aleatoriedad [6] . Entrenadores prominentes, incluido Bobby Knight, también se burlaron de la idea.
El uso de este sesgo cognitivo en el estudio de la causalidad puede dar lugar a errores, incluso entre francotiradores.
Las formas más comunes de error de reconocimiento de patrones son la pareidolia y la apotenia . Los sesgos asociados están relacionados con la ilusión de control, a la que puede contribuir la ilusión de agrupación, y la insensibilidad al tamaño de la muestra, en la que las personas no esperan más cambios en muestras pequeñas. Otro sesgo cognitivo asociado con la mala interpretación de flujos aleatorios de información se denomina error del jugador .
Daniel Kahneman y Amos Tversky descubrieron las razones de esta ilusión y descubrieron que la predicción incorrecta basada en la agrupación es causada por la representatividad heurística (de la que también fueron pioneros). La aparente presencia de filas o secuencias en la distribución de datos donde no las hay puede ser problemática para los inversores. La razón es que un inversionista puede interpretar un período de altos rendimientos como una tendencia, cuando en realidad es solo una fracción de un cambio normal en los rendimientos. La ilusión de la agrupación crea trampas para los inversores. Los datos a corto plazo sobre aumentos de precios (de varios meses a varios años) pueden convencernos del atractivo de cierta clase de inversiones, como acciones, bonos o bienes raíces.
Esto puede afectar el estilo de inversión, por ejemplo, capitalización baja versus capitalización alta, o crecimiento versus inversión de valor. Incluso puede convencer a un inversionista de que un administrador de dinero en particular es un genio infalible cuando sus resultados solo pueden atribuirse a la pura suerte.
Además, es necesario tener en cuenta la ilusión de agrupamiento al evaluar los datos estadísticos obtenidos en la investigación científica. La relevancia y precisión de una "muestra" aparente depende a menudo de cuán grande era el tamaño de la muestra de la población original.
Por ejemplo, al estimar la prevalencia de la esquizofrenia en un grupo étnico en particular, sería más confiable observar una muestra de unos pocos miles de personas que una de 100 personas. Seleccionando solo 100 personas y observando a quince personas con esquizofrenia, un investigador podría concluir que la friolera de 15% de la población tiene esquizofrenia; esta sería otra manifestación de la ilusión del agrupamiento. Considerando que, seleccionar mil personas probablemente daría como resultado un verdadero porcentaje típico del 1% de esquizofrénicos, que es el caso de la mayoría de las personas étnicas. Una muestra de población grande facilita la extrapolación de números exactos y evita la ilusión de agrupamiento.