Variable de confusión

Una variable de confusión, un factor de confusión, un factor de confusión,  es una variable en estadística que afecta tanto a las variables dependientes como a las independientes , dando como resultado una relación falsa . El entrelazamiento es un concepto causal , un elemento del modelo causal y, como tal, no puede describirse en términos de correlaciones o asociaciones [1] [2] [3] . Los confusores son uno de los tipos de variables en el análisis causal junto con moderadores , mediadores y colisionadores [4] [5] [6] .

Definición

El entrelazamiento se puede definir en términos de generación de datos (como en la figura anterior). Sea X  una variable independiente e Y  una variable dependiente . Para estimar el efecto de X sobre Y , el estadístico debe eliminar el efecto de las variables extrañas que afectan tanto a X como a Y. Decimos que X e Y están entrelazados con alguna variable Z siempre que Z afecta causalmente tanto a X como a Y. a Y.

Sea  la probabilidad del evento Y = y bajo una intervención hipotética X = x . X e Y no están enredados si y solo si se cumple la siguiente condición:

para todas las probabilidades de eventos X = x y eventos Y = y , donde  es la probabilidad condicional X = x . Intuitivamente, esta igualdad establece que X e Y no están enredados si la relación observada entre ellos es la misma que la relación que se mediría en un experimento controlado con x aleatorio .

En principio, la igualdad definitoria se puede probar con el modelo de generación de datos, suponiendo que tenemos todas las ecuaciones y probabilidades asociadas con el modelo. Esto se hace modelando la intervención (ver red bayesiana ) y comprobando si la probabilidad resultante Y es igual a la probabilidad condicional . Resulta que las propiedades del gráfico son suficientes para comprobar la igualdad .

Controlar

Considere a un investigador que intenta evaluar la eficacia del fármaco X en función de los datos de la población, con los propios pacientes eligiendo el fármaco utilizado. Los datos muestran que el género ( Z ) influye en la elección de medicamentos de un paciente, así como en sus posibilidades de recuperación ( Y ). En este escenario, el género de Z rompe la relación entre X e Y, ya que Z es la causa tanto de X como de Y  :

tenemos desigualdad

,

porque la cantidad observada contiene información sobre la correlación entre X y Z , pero la cantidad de confusión no (porque X no se correlaciona con Z en un experimento aleatorio). Un estadístico necesita una estimación imparcial , pero en los casos en que solo se dispone de datos de observación, solo se puede obtener una estimación imparcial teniendo en cuenta todos los factores de confusión, es decir, teniendo en cuenta sus diferentes valores y el resultado promedio. En el caso de un solo factor de confusión Z , esto conduce a una "fórmula de ajuste":

,

lo que da una estimación no sesgada del impacto causal de X en Y. La misma fórmula funciona en presencia de varios factores de confusión, excepto que en este caso la elección del conjunto Z que garantizaría una estimación no sesgada debe hacerse con cuidado. El criterio para elegir correctamente las variables de confusión se denomina puerta trasera [7] [8] y requiere que el conjunto Z elegido "bloquee" (o intercepte) todo camino de X a Y que termine con una flecha en X. Dichos conjuntos se denominan "puerta trasera válida" y puede incluir variables que no son causas comunes de X e Y , sino sus sustitutos.

Volviendo al ejemplo de la droga, dado que Z satisface el requisito de puerta trasera (es decir, intercepta una ruta ), entonces la "fórmula de ajuste" es válida:

.

Por lo tanto, el investigador puede predecir el efecto probable del uso de un fármaco basándose en estudios observacionales , en los que las probabilidades condicionales que aparecen en el lado derecho de la ecuación se pueden estimar mediante regresión.

Contrariamente a la creencia popular, agregar covariables al conjunto Z puede generar distorsión. Un contraejemplo típico ocurre cuando Z es el resultado común de X e Y , [9] en cuyo caso Z no es un factor de confusión (es decir, el conjunto vacío es una puerta trasera válida) y tener en cuenta Z crearía una distorsión conocida como el colisionador. o la paradoja de Berkson .

En general, el entrelazamiento se puede controlar mediante el ajuste si y solo si hay un conjunto de covariables observables que satisfacen la condición de puerta trasera. Además, si Z es un conjunto de este tipo, entonces la fórmula de ajuste de la Ecuación (3) es de hecho <4.5>. El cálculo Do de Jude Pearl proporciona condiciones adicionales bajo las cuales se puede estimar P ( y  | do ( x )) sin recurrir al ajuste [10] .

Historia

Según Morabia (2011) [11] el concepto de confusor proviene del verbo en latín medieval "confudere" (del latín: con = con + fusus = poner o fusionar), que significa "mezclar", y probablemente fue elegido para denotan confusión entre la causa a evaluar y otras razones que pueden afectar el resultado y así confundir o interferir con la evaluación deseada. Fisher usó la palabra "entrelazamiento" en su libro Design of Experiments [12] de 1935 para referirse a la fuente de error al describir un experimento aleatorio ideal. Según Vandenbroucke (2004) [13] , Leslie Kish [14] utilizó por primera vez la palabra "entrelazamiento" en el sentido moderno de la palabra para referirse a la "incompatibilidad" de dos o más conjuntos (por ejemplo, expuesto y no expuesto). ) durante una investigación observacional .

Las condiciones formales que determinan por qué algunos conjuntos son "comparables" y otros "incomparables" fueron desarrolladas en epidemiología por Greenland y Robins (1986) [15] utilizando el lenguaje de los contrafactuales de Jerzy Neumann (1935) [16] y Donald Rubin (1974) [17] . Posteriormente se complementaron con criterios gráficos como el criterio de la puerta trasera (Pearl 1993; Greenland, Pearl and Robins, 1999) [3] [7] . Se ha demostrado que los criterios gráficos son formalmente equivalentes a la definición contrafáctica [18] pero son más transparentes para los investigadores que se basan en modelos de procesos.

Tipos

En el caso de evaluar el riesgo de un factor particular para la salud humana , es importante controlar el enredo para aislar el efecto de una amenaza particular, como un aditivo alimentario, un pesticida o un nuevo fármaco. Para estudios prospectivos , es difícil reclutar y seleccionar voluntarios con los mismos antecedentes (edad, dieta, educación, geografía, etc.). Y en estudios transversales y repetidos , las variables dependientes pueden comportarse de manera similar por razones diferentes. Debido a la incapacidad de controlar la calidad de los voluntarios, el enredo es un problema particular para los estudios en humanos. Por estas razones , los experimentos , a diferencia de los estudios de observación, son una forma de evitar la mayoría de las formas de enredo.

En algunas disciplinas, el enredo se clasifica en diferentes tipos. En epidemiología , un tipo es la "confusión de indicación" [19] , que se asocia con la distorsión de los resultados de los estudios observacionales . Debido a que los factores pronósticos pueden influir en las decisiones de tratamiento (y distorsionar las estimaciones de los efectos del tratamiento), controlar los factores predictivos conocidos puede reducir este problema, pero siempre existe la posibilidad de que se haya omitido un factor olvidado o desconocido o que los factores interactúen de manera complicada. camino. La confusión indicativa se considera la limitación más importante de los estudios observacionales. Los ensayos aleatorizados no se ven afectados por la confusión de indicaciones debido a la distribución aleatoria .

Las variables de confusión también se pueden clasificar según su fuente: elección del instrumento de medición (confusión operativa), características situacionales (confusión de procedimiento) o diferencias interpersonales (confusión de personalidad).

Ejemplos

Supongamos que alguien está estudiando la relación entre el orden de nacimiento (primer hijo, segundo hijo, etc.) y si el niño tiene síndrome de Down . En este estudio, la edad materna será una variable de confusión:

  1. La mayor edad materna está directamente relacionada con el síndrome de Down en un niño
  2. La mayor edad materna está directamente relacionada con el síndrome de Down, independientemente del orden de nacimiento (una madre que tiene su primer o tercer hijo a los 50 años presenta el mismo riesgo)
  3. La edad de la madre está directamente relacionada con el orden de nacimiento (el segundo hijo, a excepción de los gemelos, nace cuando la madre es mayor que cuando nació el primer hijo)
  4. La edad de la madre no es consecuencia del orden de nacimiento (tener un segundo hijo no afecta la edad de la madre)

Al evaluar el riesgo, factores como la edad, el género y el nivel de educación a menudo influyen en el estado de salud y, por lo tanto, deben monitorearse. Además de estos factores, es posible que los investigadores no consideren o no tengan acceso a datos sobre otros factores causales. Un ejemplo es el estudio del impacto del consumo de tabaco en la salud humana. El tabaquismo, el consumo de alcohol y la dieta están relacionados. Una evaluación del riesgo que tenga en cuenta los efectos del tabaquismo, pero que no tenga en cuenta el consumo de alcohol o la dieta, puede sobrestimar el riesgo del tabaquismo [22] . Fumar y enredarse se consideran en las evaluaciones de riesgos laborales, como las evaluaciones de seguridad de la minería del carbón [23] . Cuando no hay una muestra grande de no fumadores o no bebedores en una profesión en particular, la evaluación del riesgo puede estar sesgada hacia los efectos negativos para la salud de la profesión.

Reduciendo la posibilidad de enredos

La probabilidad de aparición e influencia de factores de confusión puede reducirse aumentando los tipos y el número de comparaciones realizadas en el estudio. Si se confunden las mediciones o manipulaciones de las variables principales (es decir, hay factores de confusión operativos o de procedimiento), es posible que el análisis de subgrupos no revele problemas en el estudio. Sin embargo, tenga en cuenta que aumentar el número de comparaciones puede crear otros problemas (consulte Comparaciones múltiples ).

La revisión por pares  es un proceso que puede ayudar a reducir la confusión ya sea antes de realizar el estudio o después de que se haya realizado el análisis. La revisión por pares se basa en la revisión por pares dentro de la disciplina para identificar posibles debilidades en el diseño y análisis del estudio, incluido cómo los resultados pueden verse afectados por la confusión. Del mismo modo, la replicación permite comprobar la fiabilidad de los resultados del estudio en condiciones de estudio alternativas o enfoques alternativos al análisis de sus resultados (por ejemplo, teniendo en cuenta posibles confusiones no identificadas en el estudio original).

Dependiendo del diseño del estudio, hay varias formas de excluir o controlar las variables de confusión [24] :

Todos estos métodos tienen sus inconvenientes:

  1. La mejor defensa contra la confusión de falsos positivos a menudo es renunciar a los esfuerzos de estratificación y, en su lugar, realizar un ensayo aleatorio una muestra lo suficientemente grande , tomada como un todo, de modo que todas las posibles variables de confusión (conocidas y desconocidas) se distribuyan aleatoriamente entre todos. grupos de estudio y por lo tanto no se correlacionará con la variable binaria .
  2. Consideraciones éticas: en ensayos controlados aleatorios y doble ciego, los participantes no saben que están recibiendo un tratamiento simulado , lo que significa que se les puede negar un tratamiento efectivo [25] . Existe la posibilidad de que los pacientes acepten la cirugía invasiva (que conlleva riesgos médicos reales) solo con la condición de que reciban tratamiento.

Véase también

Notas

  1. Perla, J., (2009). Paradoja , confusión y colapsabilidad de Simpson en la causalidad: modelos, razonamiento e inferencia (2ª ed.). Nueva York: Cambridge University Press.
  2. Vander Weele, TJ (2013). “Sobre la definición de un confusor” . Anales de Estadística . 41 (1): 196-220. arXiv : 1304.0564 . DOI : 10.1214/12-años1058 . PMID  25544784 .
  3. 1 2 Groenlandia, S. (1999). “Confusión y colapsabilidad en la inferencia causal” . Ciencias Estadísticas . 14 (1):29-46. DOI : 10.1214/ss/1009211805 .
  4. Field-Fote, Edelle. Mediadores y moderadores, factores de confusión y covariables: exploración de las variables que iluminan u oscurecen los "ingredientes activos" en la neurorrehabilitación . Journal of Neurologic Physical Therapy, abril de 2019, volumen 43, número 2, páginas 83-84, doi: 10.1097/NPT.0000000000000275 . Consultado el 8 de diciembre de 2021. Archivado desde el original el 8 de diciembre de 2021.
  5. Adrian E. Bauman, PhD, James F. Sallis, PhD, David A. Dzewaltowski, PhD, Neville Owen, PhD. Hacia una mejor comprensión de las influencias en la actividad física: el papel de los determinantes, los correlatos, las variables causales, los mediadores, los moderadores y los factores de confusión . American Journal of Preventive Medicine, 2002, volumen 23, número 2S .
  6. David P. Mackinnon. Una unificación de los efectos mediador, confusor y colisionador . ciencia de la prevención. Volumen 22, páginas 1185–1193 (2021) . Consultado el 9 de diciembre de 2021. Archivado desde el original el 9 de diciembre de 2021.
  7. 1 2 Perla, J., (1993). "Aspectos de los modelos gráficos relacionados con la causalidad", en Actas de la 49.ª sesión del Instituto Internacional de Ciencias Estadísticas, págs. 391-401.
  8. Perla, J. (2009). Diagramas causales y la identificación de efectos causales en la causalidad: modelos, razonamiento e inferencia (2ª ed.). Nueva York, NY, EE. UU.: Cambridge University Press.
  9. Lee, PH (2014). “¿Deberíamos ajustar por un factor de confusión si los criterios empíricos y teóricos arrojan resultados contradictorios? Un estudio de simulación”. representante de ciencia 4 : 6085. Bibcode : 2014NatSR...4E6085L . doi : 10.1038/ srep06085 . IDPM 25124526 . 
  10. Shpitser, I. (2008). “Métodos completos de identificación para la jerarquía causal”. El diario de investigación de aprendizaje automático . 9 : 1941-1979.
  11. Morabia, A (2011). “Historia del concepto epidemiológico moderno de confusión” (PDF) . Revista de Epidemiología y Salud Comunitaria . 65 (4): 297-300. DOI : 10.1136/jech.2010.112565 . PMID  20696848 . Archivado (PDF) desde el original el 2021-12-05 . Consultado el 05-12-2021 . Parámetro obsoleto utilizado |deadlink=( ayuda )
  12. Fisher, RA (1935). El diseño de experimentos (págs. 114-145).
  13. Vandenbroucke, JP (2004). "La historia del descubrimiento". Soz Praventivmed . 47 (4): 216-224. DOI : 10.1007/BF01326402 . PMID  12415925 .
  14. Kish, L (1959). “Algunos problemas estadísticos en el diseño de investigaciones”. Soy Sociol . 26 (3): 328-338. DOI : 10.2307/2089381 .
  15. Groenlandia, S. (1986). “Identificabilidad, intercambiabilidad y confusión epidemiológica” . Revista Internacional de Epidemiología . 15 (3): 413-419. DOI : 10.1093/ije/15.3.413 . IDPM  3771081 .
  16. Neyman, J., con la cooperación de K. Iwaskiewics y St. Kolodziejczyk (1935). Problemas estadísticos en la experimentación agrícola (con discusión). Suplemento J Roy Statist Soc Ser B 2 107-180.
  17. Rubin, DB (1974). “Estimación de los efectos causales de los tratamientos en estudios aleatorizados y no aleatorizados” . Revista de Psicología Educativa . 66 (5): 688-701. DOI : 10.1037/h0037350 .
  18. Perla, J., (2009). Causalidad: modelos, razonamiento e inferencia (2ª ed.). Nueva York, NY, EE. UU.: Cambridge University Press.
  19. Johnston, Carolina del Sur (2001). "Identificación de confusión por indicación a través de una revisión prospectiva cegada". Revista americana de epidemiología . 154 (3): 276-284. DOI : 10.1093/aje/154.3.276 . PMID  11479193 .
  20. 1 2 Pelham, Brett. Realización de Investigaciones en Psicología. - 2006. - ISBN 978-0-534-53294-9 .
  21. Steg, L. Psicología social aplicada: comprensión y manejo de problemas sociales / L. Steg, A. P. Buunk. — 2008.
  22. Tjønneland, Anne (enero de 1999). "Ingesta de vino y dieta en una muestra aleatoria de 48763 hombres y mujeres daneses" . El Diario Americano de Nutrición Clínica . 69 (1): 49-54. DOI : 10.1093/ajcn/69.1.49 . IDPM  9925122 .
  23. Axelson, O. (1989). “Confusión del tabaquismo en la epidemiología ocupacional” . Revista británica de medicina industrial . 46 (8): 505-07. DOI : 10.1136/oem.46.8.505 . PMID2673334  ._ _
  24. Mayrent, Sherry L. Epidemiología en Medicina . - Lippincott Williams & Wilkins , 1987. - ISBN 978-0-316-35636-7 .
  25. Emanuel, Ezekiel J (20 de septiembre de 2001). "La ética de los ensayos controlados con placebo: un término medio" . Revista de Medicina de Nueva Inglaterra . 345 (12): 915-9. doi : 10.1056/ nombre200109203451211 . PMID 11565527 . 

Literatura

Enlaces