La paradoja de Simpson (también paradoja de Yule-Simpson o paradoja de unión ) es un efecto, un fenómeno en estadística, cuando, en presencia de dos grupos de datos, en cada uno de los cuales hay una dependencia igualmente dirigida, cuando estos grupos se combinan , la dirección de la dependencia cambia a la opuesta.
Este fenómeno fue descrito por Simpson en 1951 y Udni Yule en 1903 El nombre de "paradoja de Simpson" fue propuesto por primera vez por Colin Blythe en 1972 . Sin embargo, dado que Simpson no fue el descubridor de este efecto, algunos autores utilizan nombres impersonales como " paradoja de la unión ".
Por primera vez, la situación bajo consideración fue notada por Karl Pearson en el artículo "Contribución matemática a la teoría de la evolución" [1] . Considera la dependencia de los signos de grupos heterogéneos de caballos. Udny Yule hace un análisis más detallado de tales cambios de población, estudiando los mecanismos de la herencia. Simpson analiza lo que llama "un caso curioso" en varias secciones del artículo "La interpretación de la interacción en tablas de contingencia" [2] . Simpson fue el primer autor en estudiar este fenómeno en términos estadísticos. Por lo tanto, el matemático posterior K. R. Blythe en el artículo "Sobre la paradoja de Simpson y el principio de la cosa segura" [3] introduce el término "paradoja de Simpson".
Sean cuatro sombreros (dos negros y dos grises), 41 fichas (23 de colores y 18 blancas) y dos mesas (A y B). Las fichas se distribuyen por sombreros de la siguiente manera:
Digamos que quieres dibujar una ficha de color.
Si está cerca de la mesa A, entonces la probabilidad de extraer una ficha de color de un sombrero negro es 5/11 = 35/77 , y de un sombrero gris en la misma mesa: 3/7 = 33/77 ; por lo tanto, es más probable que se extraiga una ficha de color de un sombrero negro que de uno gris.
Si está cerca de la mesa B, entonces la probabilidad de sacar una ficha de color del sombrero negro es 6/9 = 84/126 y del sombrero gris - 9/14 = 81/126 ; por lo tanto, aquí también es más probable que se extraiga una ficha de color de un sombrero negro que de uno gris.
Supongamos ahora que las fichas de los dos sombreros negros se apilan en un sombrero negro, y las fichas de los dos sombreros grises se apilan en un sombrero gris. A primera vista, sería lógico suponer que la probabilidad de sacar una ficha de color de un sombrero negro es mayor que de uno gris. Pero esto está mal:
es decir, hay más posibilidades de sacar una ficha de color de un sombrero gris que de uno negro [4] .
Supongamos que tenemos cuatro conjuntos de piedras. La probabilidad de sacar una piedra negra del conjunto No. 1 es mayor que la del conjunto No. 2. A su vez, la probabilidad de sacar una piedra negra del conjunto No. 3 es mayor que la del conjunto No. 4. Combine el conjunto No. 1 con el conjunto n.º 3 (obtenemos el conjunto I) y el conjunto n.º 2 con el conjunto n.º 4 (conjunto II). Intuitivamente , uno esperaría que la probabilidad de sacar una piedra negra del conjunto I fuera mayor que la del conjunto II. Sin embargo, esta afirmación no es cierta en el caso general.
De hecho, sea el número de piedras negras en el -ésimo conjunto (muestra), sea el número total de piedras en el -ésimo conjunto con . Por condición:
La probabilidad de sacar una piedra negra de los conjuntos I y II, respectivamente:
La expresión del conjunto I no siempre es mayor que la expresión del conjunto II; es decir, puede suceder que
Por ejemplo, en . Es fácil comprobar eso . mientras .
El motivo de la paradoja es el promedio incorrecto de dos conjuntos de datos con diferentes proporciones de observaciones de control ( muestreo no representativo ). Dado que se supone intuitivamente que al aplicar las dependencias encontradas, la participación de control será la misma en ambos grupos, y esto no es cierto en los datos iniciales, entonces no se les puede aplicar el promedio aritmético.
Para eliminar el problema, al promediar, es necesario usar pesos que eliminen el sesgo de la parte de control. Entonces, en el ejemplo con fichas, la proporción de fichas de sombrero gris en la mesa A es 7 de 18 (39 %) y en la mesa B es 14 de 23 (61 %).
Para promediar de forma representativa la posibilidad de sacar una ficha de color, basta con multiplicar el número de fichas de ambos colores en uno de los sombreros por un factor de ponderación que elimina la desviación. Por ejemplo, si en lugar de un sombrero gris en la mesa A, se colocan dos sombreros iguales, entonces las probabilidades para cada mesa por separado no cambiarán, pero se eliminará la paradoja de combinar las mesas: la probabilidad de que salga una ficha de color en un sombrero gris se convertirá en 15/28, es decir, menos que de negro.
Otra forma de resolver la paradoja es usar la fórmula de probabilidad total .
La paradoja de Simpson muestra que las conclusiones de los resultados de encuestas sociológicas con una muestra no representativa no pueden aceptarse como irrefutables, científicamente probadas.
La paradoja de Simpson ilustra la invalidez de las generalizaciones a partir de muestras no representativas, a veces potencialmente mortales. Entonces, por ejemplo, en el curso de un experimento en un grupo de hombres y un grupo de mujeres con la misma enfermedad, se agregó un nuevo medicamento al tratamiento estándar. El resultado de ambos grupos por separado confirmó la eficacia del nuevo agente.
Hombres | Tomar medicamentos | no tomar medicamentos |
---|---|---|
recuperado | 700 | 80 |
no recuperado | 800 | 130 |
Relación | 0.875 | 0.615 |
Mujeres | Tomar medicamentos | no tomar medicamentos |
---|---|---|
recuperado | 150 | 400 |
no recuperado | 70 | 280 |
Relación | 2.142 | 1.429 |
Se asume intuitivamente que si existe una dependencia en ambos grupos, también debería aparecer cuando estos grupos se combinan. Pero aunque la proporción de recuperados y enfermos entre mujeres y hombres que tomaron la droga es mayor que entre los que no la usaron, debido a la falta de representatividad del grupo de control en los datos agregados, este patrón no persiste.
Suma | Tomar medicamentos | no tomar medicamentos |
---|---|---|
recuperado | 850 | 480 |
no recuperado | 870 | 410 |
Relación | 0.977 | 1.171 |
La relación en los datos agregados es 850/870<480/410, es decir, 0,977<1,171. Por lo tanto, la proporción de los que tomaron la droga recuperada fue menor que la misma proporción entre los que no lo hicieron.
Para eliminar la paradoja, debe tenerse en cuenta que la relación entre el grupo de control y el grupo de tratamiento en los grupos anteriores difiere considerablemente: para los hombres es (80+130)/(700+800) = 14 %, y para las mujeres ( 400+280)/(150+ 70) = 309%.
Para promediar correctamente, es necesario asegurar la representatividad del grupo de control en ambas muestras introduciendo coeficientes de ponderación para que la proporción ponderada de controles en ambos grupos sea la misma. En este caso, es suficiente multiplicar el número de hombres que no tomaron medicación por el factor de ponderación 22,07. Las tablas modificadas se verán así:
Hombres | alojado
medicamento |
no tomar medicamentos | |
---|---|---|---|
inicial | con peso x22.07 | ||
recuperado | 700 | 80 | 1765 |
no recuperado | 800 | 130 | 2869 |
Relación | 0.875 | 0.615 |
Suma | alojado
medicamento |
no tomar medicamentos | |
---|---|---|---|
inicial | con peso x22.07 | ||
recuperado | 850 | 480 | 2165 |
no recuperado | 870 | 410 | 3149 |
Relación | 0.977 | 1.171 | 0.685 |
La relación entre el número ponderado de recuperados y no recuperados entre los que no tomaron el medicamento en este caso será de 0,685, es decir, menor que la de los que tomaron el medicamento. Esto elimina la paradoja y muestra la proporción de recuperados y no recuperados sin la droga para la misma proporción de hombres y mujeres que tomaron la droga, lo que hace posible comparar estos números.