El análisis de enlaces o link analysis (del inglés "link analysis") es un método de análisis de datos utilizado en el marco del análisis de redes para evaluar relaciones (enlaces) entre nodos (objetos/actores) . Las relaciones se pueden definir para varios tipos de nodos: personas, organizaciones, operaciones, etc. El término "análisis de enlaces" (una de las opciones de traducción: "análisis de relaciones") se refiere al proceso de analizar la totalidad de las relaciones entre diferentes objetos de la red. para identificar sus caracteristicas .
Inicialmente, este método se utilizó para combatir la delincuencia, principalmente el fraude y el terrorismo, con fines de contrainteligencia y optimización de las herramientas de seguridad de la información . Posteriormente, este método encontró su aplicación en marketing e investigación médica, así como en la optimización de algoritmos de motores de búsqueda .
Este método pertenece al grupo de métodos de Minería de Datos . Este es un grupo de algoritmos iterativos e interactivos para detectar, analizar y visualizar varios patrones en los datos. El análisis de enlaces pertenece a este grupo de algoritmos y, como la mayoría de los métodos de este grupo, se implementa en los siguientes pasos[ estilo ] [1] : recopilación de datos, procesamiento de datos, análisis de datos y visualización de datos .
Klerks distinguió tres [2] periodos en el desarrollo de herramientas para la implementación del Link Analysis. La primera generación se introdujo en 1975 como el Gráfico Anacpapa de Harper y Harris [3] . Este método se implementa de la siguiente manera: el investigador procesa los datos disponibles, denotando las relaciones entre los actores en forma de una matriz de interacción. Luego, el investigador construye un gráfico apropiado para visualizar los datos y, en última instancia, analiza la red resultante, determinando los indicadores de centralidad (Patrones de interés). Este método requiere mucho tiempo cuando se consideran grandes cantidades de datos.
La segunda generación de herramientas proporcionó la capacidad de automatizar la construcción de gráficos para las matrices de interacción correspondientes, pero la entrada de datos todavía tenía que hacerse manualmente. Los procedimientos de análisis de datos también requerían la participación activa de un investigador con la base de conocimientos necesaria.
La tercera generación de herramientas también brinda la capacidad de visualizar automáticamente las relaciones entre los actores. Además, están surgiendo herramientas que permiten comprimir visualmente grandes cantidades de datos en paquetes compactos, lo que simplifica el análisis de datos visuales para modelos complejos. El cálculo de los principales indicadores de centralidad también se realizó de forma automática.
Al recopilar datos de la red, es decir, al determinar la presencia o ausencia de vínculos sociales, en la mayoría de los casos, se utilizan los informes de los encuestados. Por lo general, estos datos se obtienen solicitando al encuestado que enumere aquellos agentes con los que él o la organización a la que pertenece tiene contactos directos. El tipo (o tipo) de estas conexiones se especifica de antemano y depende de los objetivos del estudio. Cuando la población es limitada (el número de actores - elementos de la futura red es pequeño), se puede pedir a los encuestados que simplemente enumeren sus contactos, pero se practican con más frecuencia otros métodos. Holland y Lenhardt [4] utilizaron:
De forma más sistemática, la técnica de recopilación de datos de la red se muestra en el procedimiento de Burt [5] , donde primero se identificaba la pertenencia a la red del encuestado mediante uno o más parámetros, y luego, dependiendo de los datos, se obtenían resultados adicionales que explicaban tal arreglo. Se estudiaron las siguientes propiedades de las redes:
Al estudiar las interacciones interorganizacionales, se recomienda no limitarse a los testimonios de uno solo de los informantes, el problema de seleccionar a los encuestados crece en proporción directa a la amplitud de la especialización de una determinada organización. Para un estudio pequeño, un informe de red de alta calidad de un agente de la organización será suficiente, pero dichos informes deben usarse para estudiar esos tipos de interacciones que reflejan solo un lado de la actividad del informante. Pero a la hora de analizar organizaciones, es mejor analizar información obtenida de los informes de varios agentes, así como respaldada por documentos de la organización (cartas, memorandos, informes, actas de reuniones).
Se necesitan recursos significativos para recopilar datos de red de alta calidad. Las fuentes de archivo son mucho menos costosas y una de sus ventajas es que permiten la investigación retrospectiva y siguen el desarrollo de las redes estudiadas. Aquí el análisis de enlaces como herramienta de minería de datos está muy relacionado con otra área del análisis de datos de minería de textos .
El resultado de la recolección y procesamiento de datos empíricos son matrices formalizadas de interacción entre los actores de la red objeto de estudio.
Sobre la base de los datos recibidos en forma de matriz de interacción, se construye un gráfico correspondiente que ilustra las relaciones de los actores en la red.
Algunos investigadores [6] señalan que además del alto riesgo de obtener valoraciones subjetivas de la red por parte de los informantes, existe el riesgo de percepción subjetiva de los datos recibidos por el investigador, por lo que incluso el análisis de la misma información puede conducir a conclusiones diferentes.
No obstante, existe una serie de técnicas generalmente aceptadas para evaluar las propiedades de una red y las conexiones entre sus actores.
Tamaño de redEl principal indicador que representa el tamaño de la red es el número de enlaces directos incluidos en las uniones individuales. El tamaño de la red puede variar desde el valor mínimo 1 (2 vértices en el gráfico) hasta el valor máximo posible (g-1) , donde g es el número de vértices del gráfico.
Densidad de redPor lo general, se entiende como una fuerza significativa de conectividad entre asociaciones en una red o (para mediciones dicotómicas) la proporción de conexiones existentes y posibles.
La densidad de conexión de un gráfico no dirigido se puede calcular mediante la fórmula:
, donde L es el número de enlaces observados en un gráfico o subgráfico dado.
La densidad de conexiones en un gráfico dirigido se calcula mediante la fórmula:
.
Sin embargo, con la ayuda de la densidad, es bastante problemático revelar enlaces estructurales si la red tiene subgrupos, y la transformación de la densidad puede ocurrir cuando cambia el tamaño de la red.
Centralidad y centralización [7] Medición del grado de centralidadCon este enfoque, la cantidad de actores con los que se asocia este actor es importante. En el caso más simple, esto es simplemente contar el número de conexiones de actores usando la siguiente fórmula:
.
Para poder comparar el grado de centralidad de un actor no solo dentro de la misma red, sino también entre redes de diferentes estructuras, es necesario calcular una estimación estandarizada de centralidad utilizando la siguiente fórmula:
.
También puede calcular el grado de centralidad para toda la red:
.
A menudo es necesario comparar diferentes estructuras y determinar cuál proporciona la mejor centralización de actores. Para ello, existe una fórmula para calcular el grado de centralidad normalizado para toda la red:
.
Densidad de centralidadEste enfoque mide la densidad de centralidad: qué tan cerca está un actor de otros actores. Es decir, con este enfoque, el central es la posición desde la que es necesario dar el mínimo número de pasos a todas las demás posiciones del grupo.
La densidad de centralidad del actor se mide de la siguiente manera:
.
Aquí está el número de conexiones entre los actores y . El valor máximo del índice es . Así, el coeficiente de densidad de centralidad de actor normalizado se calcula mediante la siguiente fórmula:
La densidad de centralidad de red normalizada se calcula mediante la fórmula:
La centralidad como mediación
En el marco de este enfoque , la centralidad es vista como el control de las relaciones entre ciertas posiciones. Así, si la distancia más corta entre los actores n 2 y n 3 es n 2 , n 1 , n 4 y n 3 , entonces las posiciones n 1 y n 4 son controladoras con respecto al par de actores n 2 y n 3 .
La centralidad de la mediación del actor se puede calcular utilizando la fórmula:
Aquí , es el número de caminos más cortos que pasan por el actor . Dado que el número máximo de enlaces entre todos los vértices del gráfico es igual a
.
Se puede calcular una puntuación de centralidad de red estandarizada utilizando la siguiente fórmula:
.
EquivalenciaA menudo, al describir las propiedades estructurales de una red, se recurre a los conceptos de similitud estructural de los actores individuales. La identificación de posiciones estructuralmente similares nos permite simplificar el gráfico al combinar actores similares en sus propiedades estructurales en nuevos actores corporativos. En consecuencia, para identificar la equivalencia entre dos posiciones, se suele utilizar la siguiente fórmula propuesta por Burt [8] :