El problema de Galton , llamado así por Sir Francis Galton , es el problema de inferir a partir de datos transculturales basados en un fenómeno estadístico conocido hoy como autocorrelación de redes.. El problema ahora se reconoce como un problema general que se aplica a toda la investigación no experimental, así como al diseño experimental. Puede describirse simplemente como un problema extrínseco en los cálculos estadísticos donde los elementos seleccionados no son estadísticamente independientes. Si le preguntas a dos personas en la misma casa, por ejemplo, si ven la televisión, no obtendrás respuestas estadísticamente independientes. El tamaño de muestra, n, para observaciones independientes en este caso es uno, no dos. Después de hacer los ajustes adecuados, esto ya se ocupará de las dependencias externas, y luego se aplicarán los axiomas de la teoría de la probabilidad con respecto a la dependencia estadística. Tales axiomasimportante para establecer criterios de variabilidad (por ejemplo) o probar la significación estadística .
En 1888, Galton estuvo presente cuando Sir Edward Tylor presentó su trabajo en el Royal Anthropological Institute. Tylor recopiló información sobre las instituciones del matrimonio y la herencia de 350 culturas, y también investigó la correlación entre estas instituciones y el nivel de desarrollo de la estructura de la sociedad. Tylor interpretó sus resultados como indicadores de una secuencia evolutiva general en la que las instituciones cambiaron su enfoque de lo materno a lo paterno a medida que se desarrollaba la estructura social de la sociedad. Galton no estuvo de acuerdo y señaló que las similitudes entre culturas podrían deberse a la adopción, la descendencia común o el desarrollo evolutivo; apoyó la idea de que sin controlar los parámetros de préstamo y ascendencia común, no se pueden sacar conclusiones confiables sobre el desarrollo evolutivo. La crítica de Galton se conoció como el epónimo Problema de Galton , [1] :175 , como lo llamó Raul Naroll , [2] [3] quien propuso las primeras soluciones estadísticas.
A principios del siglo XX, la teoría de la evolución unilineal se había olvidado, al igual que las inferencias directas de las correlaciones de secuencias evolutivas. Sin embargo, la crítica de Galton ha demostrado su validez para inferir relaciones funcionales a partir de correlaciones. El problema de la autocorrelación aún permanecía.
En 1914, el estadístico William S. Gosset desarrolló métodos para eliminar las correlaciones espurias basadas en cómo la ubicación en el tiempo y el espacio afecta el grado de similitud. Las encuestas contemporáneas de la población en general sobre las elecciones muestran un problema similar: cuanto más cerca están las elecciones, menos personas piensan de forma independiente y mayor es la falta de confiabilidad de los resultados de las encuestas, especialmente el margen de error o los límites de confianza . El rendimiento de n casos independientes de su población de muestra cae a medida que se acerca la elección.
La significación estadística cae junto con tamaños de muestra efectivos más bajos.
Surge un problema en las encuestas por muestreo cuando, para reducir el tiempo de la entrevista, los sociólogos dividen la población en conglomerados locales y muestrean aleatoriamente entre conglomerados, y luego nuevamente muestrean dentro de los conglomerados. Si encuestan a un número n de personas en un conglomerado de tamaño m, el tamaño de muestra efectivo (efs) tendrá un límite inferior de 1 + (n − 1) / m si todos en el conglomerado son idénticos. Si solo hay una similitud parcial dentro de un grupo, m en la presente fórmula disminuirá en consecuencia. Este tipo de fórmula es 1 + d (n − 1), donde d es la correlación intraclase para el estadístico en cuestión. [cuatro]
En general, la estimación de los efs correspondientes depende de las estadísticas estimadas, como media, chi-cuadrado, correlación , coeficiente de regresión y sus variaciones . Para estudios transculturales , Murdoch y White [5] estimaron el tamaño de los parches de similitud en su muestra de 186 sociedades. Las cuatro variables que examinaron (lenguaje, economía, integración política y herencia) tenían parches de similitud que iban desde el tamaño 3 hasta el tamaño 10. Se puede usar una regla general para dividir la raíz cuadrada de los tamaños de los parches de similitud entre n, de modo que el efectivos, los tamaños de muestra son 58 y 107 para los parches dados , respectivamente. Una vez más, la significación estadística cae con tamaños de muestra efectivos más bajos.
En el análisis moderno, los retrasos espaciales se modelan para evaluar el nivel de globalización de las sociedades modernas. [6]
La correlación espacial, o autocorrelación , es un concepto fundamental en geografía. Los métodos desarrollados por geógrafos que se utilizan para medir y monitorear la autocorrelación espacial [7] [8] hacen mucho más que simplemente reducir el valor efectivo de n para probar la importancia de una correlación. Un ejemplo es una hipótesis sofisticada de que "la presencia de juegos de azar en una sociedad es directamente proporcional a la presencia de fondos comerciales y la presencia de diferencias socioeconómicas significativas, y está inversamente relacionada con si la sociedad es una sociedad de pastores nómadas o no. Pruebas de esta hipótesis en una muestra de 60 sociedades, no pudieron rechazar la hipótesis nula , pero el análisis de autocorrelación mostró un impacto significativo de las diferencias socioeconómicas . [9]
¿Qué tan común es la autocorrelación entre las variables consideradas en un estudio transcultural? Anton Eff probó contra 1700 variables en una base de datos agrupada para la muestra transcultural estándar publicada en World Cultures y midió el índice I de Moran para autocorrelación espacial (distancia), autocorrelación lingüística (ancestro común) y autocorrelación de complejidad cultural (evolución básica) . "Los resultados sugieren que... valdría la pena probar la autocorrelación espacial y filogenética al realizar análisis de regresión con muestreo transcultural estándar". [diez]
Se ilustra el uso de pruebas de autocorrelación en análisis de datos exploratorios, lo que refleja cómo las variables en un estudio determinado pueden evaluarse en ausencia de independencia de caso con respecto a la distancia, el idioma y la complejidad cultural. Luego se explican e ilustran los métodos para evaluar estos efectos de autocorrelación para la regresión de mínimos cuadrados ordinarios utilizando una medida de la importancia del índice de autocorrelación I de Moran.
Si hay autocorrelación, a menudo se puede eliminar para obtener una estimación no sesgada de los coeficientes de regresión y sus variables mediante la construcción de una variable dependiente reiniciada que se "retrasa" al volver a ponderar la variable dependiente en otros lugares donde el peso es el grado de relación. Tal variable dependiente rezagada es endógena y la estimación requiere un método de mínimos cuadrados en dos etapas o un método de máxima verosimilitud. [once]
El servidor público, cuando se usa externamente en http://SocSciCompute.ss.uci.edu , ofrece datos etnográficos, variables y herramientas de inferencia con R-scripts de Dow (2007) y Eff & Dow (2009) en proyectos respaldados por NSF ( http://getgalaxy.org ) y ( https://www.xsede.org ) para educadores, estudiantes e investigadores para realizar simulaciones de investigación transcultural CoSSci (ciencias sociales integradas), controlando el problema Galton mediante el uso de variables estándar de muestreo transcultural disponibles en https://web.archive.org/web/20160402201432/https://dl.dropboxusercontent.com/u/9256203/SCCScodebook.txt .
En antropología, donde el problema de Tylor fue reconocido por primera vez por el estadístico Galton en 1889, todavía no se acepta ampliamente que existan ajustes estadísticos estándar para el problema de los parches de similitud en los ejemplos observados, ni la posibilidad de nuevos descubrimientos utilizando métodos de autocorrelación. Algunos investigadores transculturales (ver, por ejemplo, Korotaev y de Munk, 2003) [12] concluyen que la evidencia de distribución, orígenes históricos y otras fuentes de similitud entre sociedades e individuos relacionados deberían renombrarse Galton Opportunity o Galton Resource. en lugar de ser llamado el problema de Galton. Los investigadores ahora usan análisis de variación longitudinal, transcultural y regional para explorar rutinariamente hipótesis contrapuestas: relaciones funcionales, distribución, ascendencia histórica común, evolución multilinaje, coadaptación con el medio ambiente y la dinámica de interacción social compleja . [13]
Dentro de la antropología, el problema de Galton se cita a menudo como una razón para el rechazo de los estudios comparativos. Dado que el problema es de carácter general, común a las ciencias y a la inferencia estadística en general, una crítica tan específica a los estudios transculturales o comparativos -y hay muchos- conduce lógicamente a un rechazo de la ciencia y la estadística en su conjunto. Cualquier dato recopilado y analizado por etnógrafos, por ejemplo, también está sujeto al problema de Galton, entendido en el sentido más amplio. La crítica de la crítica anticomparativa no se limita a la comparación estadística, ya que también se aplicará al análisis textual. Es decir, el análisis y uso del texto en el argumento está sujeto a críticas en cuanto a la base de evidencia de las conclusiones. Confiar únicamente en la retórica no es una defensa contra las críticas a la validez de un argumento y su base de evidencia.
Sin embargo, casi no hay duda de que la comunidad de investigación intercultural está ignorando casualmente el problema de Galton. La investigación de expertos sobre el tema demuestra hallazgos que "sugieren fuertemente que los informes extensos de pruebas ingenuas de independencia mutua de chi-cuadrado utilizando datos transculturales en las últimas décadas han rechazado erróneamente teorías nulas en niveles sustancialmente más altos que el 5% previsto". [14] :247
El investigador concluye que "las teorías incorrectas que han sido 'preservadas' mediante pruebas ingenuas de independencia mutua de chi-cuadrado utilizando datos comparativos aún pueden probarse científicamente de manera rigurosa en el futuro". [14] :270 Nuevamente, la variable de la muestra de conglomerados ajustada se da como tal multiplicada por 1 + d (k + 1), donde k es el tamaño promedio del conglomerado, y el ajuste más complejo se da como la variable de correlación de la muestra cruzada. tabulaciones con r filas y columnas. Desde que se publicó la presente crítica en 1993, así como otras declaraciones similares, más autores han comenzado a adaptar las correlaciones para el problema de Galton, sin embargo, la mayoría de los especialistas que trabajan en el campo transcultural no lo hacen. En consecuencia, es probable que la mayoría de los resultados publicados que se basan en pruebas de significación ingenuas y adaptan el estándar P < 0,05 en lugar de P < 0,005 sean erróneos, ya que son más propensos al error Tipo I, que rechaza la hipótesis nula cuando es verdadero.
Algunos investigadores transculturales descartan la seriedad del problema de Galton porque creen que las estimaciones de correlación y los medios pueden ser objetivos incluso si hay autocorrelación (ya sea débil o fuerte). Sin embargo, sin un estudio de autocorrelación, aún pueden juzgar mal las estadísticas sobre las relaciones entre las variables. En el análisis de regresión, por ejemplo, examinar patrones de residuos autocorrelacionados puede proporcionar pistas importantes sobre terceros factores que pueden afectar las relaciones entre variables pero que no se incluyeron en el modelo de regresión. En segundo lugar, si hay grupos de sociedades similares o relacionadas en la muestra, se subestimarán las medidas de la varianza, lo que conducirá a inferencias estadísticas engañosas, como la exageración de la significación estadística de las correlaciones. En tercer lugar, subestimar la varianza dificulta verificar la replicación de los resultados de dos muestras diferentes, ya que los resultados a menudo se descartarán como similares.