Algoritmo HITS

El algoritmo  HITS ( Hyperlink Induced Topic Search ), propuesto en 1999 por John Kleinberg , permite encontrar páginas de Internet que coincidan con la consulta del usuario a partir de la información contenida en los hipervínculos [1] .

La métrica HITS se usa a menudo para responder consultas de temas amplios y encontrar comunidades de documentos ( por ejemplo, Tightly  -Knit Community ), en Internet . La idea del algoritmo se basa en la suposición de que los hipervínculos codifican un número significativo de páginas de autoridad ocultas [2] .

Un documento autorizado (página autorizada, autor)  es un documento correspondiente a la solicitud del usuario, teniendo una mayor participación entre los documentos de este tema, es decir, una mayor cantidad de documentos se refieren a este documento [1] .

Un documento central (página central, intermediario)  es un documento que contiene muchos enlaces a documentos autorizados.

La página a la que enlazan muchos otros puntos debe ser un buen "autor". A su vez, una página que apunta a muchas otras debería ser un buen “intermediario”. En base a esto, el algoritmo HITS calcula dos puntuaciones para cada página web : una puntuación de autoridad y una puntuación de intermediario. Es decir, para cada página, su significado como "autor" e "intermediario" se calcula recursivamente [3] [4] .

Algoritmo

El primer paso en el algoritmo HITS es obtener las páginas más relevantes en la consulta de búsqueda . Este conjunto se denomina conjunto raíz y se puede obtener tomando las n páginas más populares devueltas por el algoritmo de búsqueda de texto. El conjunto base se forma incrementando el conjunto raíz con todas las páginas web que están vinculadas a él y algunas de las páginas que lo vinculan. Las páginas web del conjunto base y todos los hipervínculos entre esas páginas forman un subgráfico agrupado. Los cálculos de HITS se realizan solo en este subgráfico.

Las puntuaciones del documento de autoridad y del mediador se definen en términos mutuos en recursividad mutua . La puntuación de autoridad de una página se calcula como la suma de las puntuaciones de las páginas proxy que apuntan a esa página. El valor de la puntuación del revendedor se calcula como la suma de las puntuaciones de las páginas autorizadas a las que apunta.

El algoritmo realiza una serie de iteraciones , cada una de las cuales consta de dos pasos principales:

La puntuación de autoridad y la puntuación de mediación para un vértice se calculan utilizando el siguiente algoritmo:

Detallado

Para comenzar a clasificar, , y . Considere dos tipos de actualizaciones: una regla de actualización de autoridad y una actualización de concentrador. Se aplican iteraciones repetidas de las reglas de actualización de autoridad y actualización de concentrador para calcular las puntuaciones de autoridad/representante . El paso k de aplicar el algoritmo implica aplicar la primera regla de actualización de autoridad k veces y luego la regla de actualización de concentrador.

Regla de actualización de autoridad

, obtenemos = donde n es el número total de páginas vinculadas a p e i es la página vinculada a p. Así, la puntuación de autoridad de una página se calcula como la suma de los valores de puntuación de las páginas intermedias que apuntan a esa página.

La regla de actualización del concentrador

, obtenemos = donde n es el número total de páginas a las que apunta p e i es la página a la que apunta p. Por lo tanto, la puntuación de proxy de una página se calcula como la suma de las puntuaciones de autoridad de las páginas a las que enlaza.

En función de estos valores, se calcula la importancia de las páginas web para una solicitud en particular y luego se muestra al usuario. El módulo HITS Rank calcula el rango de una página web sin conexión después de que se hayan descargado y almacenado en una base de datos local. [5]

Normalización

Las puntuaciones de los vértices finales se determinan después de una repetición infinita del algoritmo. La aplicación directa y coherente de las reglas de actualización de centro y actualización de autoridad da como resultado valores divergentes que la matriz debe normalizar después de cada iteración. Así, los valores obtenidos de este proceso eventualmente convergen.

Algoritmo HITS y PageRank

El algoritmo HITS tiene varias diferencias importantes con el algoritmo PageRank . [6]

A pesar de las diferencias entre HITS y PageRank, estos algoritmos tienen en común que la autoridad (peso) de un nodo depende del peso de otros nodos, y el nivel del "intermediario" depende de la autoridad de los nodos a los que se refiere.

El cálculo de la autoridad de documentos individuales es ampliamente utilizado hoy en día en aplicaciones tales como la determinación del orden de escaneo de documentos en la red por parte del robot IPS , la clasificación de resultados de búsqueda, la generación de reseñas temáticas, etc.

En la actualidad, se han generalizado las tecnologías para aumentar artificialmente las clasificaciones de documentos web individuales o de sus grupos de sitios web mediante el establecimiento de hipervínculos que no están relacionados con su contenido . Estas tecnologías, que son una variedad poco confiable de métodos SEO de optimización de motores de búsqueda (  Search Engine Optimization ), llamados "black hat" SEO, se basan en la adaptación a algoritmos existentes para clasificar documentos web por los más populares ( motores de búsqueda ).

A su vez, dichas tecnologías generan la necesidad de una mejora continua de los algoritmos de clasificación en los motores de búsqueda, centrándose en el componente de contenido de los documentos web al determinar sus clasificaciones. [cuatro]

Desventajas de HITS

Se han realizado muchas investigaciones para evaluar el algoritmo HITS y se ha demostrado que, si bien el algoritmo funciona bien para la mayoría de las consultas, no funciona para algunas otras. Hay varias razones [7] :

No es apropiado hacer una distinción clara entre "intermediarios" y "autores", ya que muchas páginas intermediarias también son autoras.

Ubicación dominante de algunos documentos estrechamente relacionados temáticamente como resultado del algoritmo HITS. En algunos casos, estos documentos pueden no ser relevantes para la solicitud . En un caso, cuando el elemento de búsqueda era "Jaguar", el algoritmo HITS convergió en un equipo de fútbol llamado Jaguars.

Para resolver este problema, se propuso el algoritmo PHITS [4] como una extensión del algoritmo HITS estándar. En el marco de este algoritmo, se supone:  — un conjunto de documentos de citas, — un  conjunto de referencias,  — un conjunto de clases (factores). También se supone que el evento ocurre con probabilidad . Las probabilidades condicionales y se utilizan para describir las dependencias entre la presencia de un vínculo , un factor latente y un documento .

La función de verosimilitud se estima :

,

El objetivo del algoritmo PHITS es ajustar , maximizar .

Después de eso:

– rangos de "autores"; – filas de "intermediarios".

Para calcular los rangos, debe especificar el número de factores en el conjunto , y luego caracterizará la calidad de la página como "autor" en el contexto del tema. Las desventajas del método incluyen el hecho de que el proceso iterativo generalmente no se detiene en el máximo absoluto, sino en el máximo local de la función de probabilidad . Sin embargo, en situaciones en las que no existe un dominio claro del tema de consulta en el conjunto de páginas web encontradas, PHITS supera al algoritmo HITS.

Algunos de los enlaces son generados por computadora, pero el algoritmo HITS aún les da valores iguales.

Algunas consultas pueden devolver documentos irrelevantes a un lugar alto en la clasificación, lo que conduce a resultados erróneos del algoritmo HITS.

Notas

  1. 1 2 Krizhanovsky, 2008 , pág. 27
  2. La métrica de HITS, 2005 , p. 55.
  3. Kleinberg, 1999 .
  4. 1 2 3 Algoritmo HITS, 2009 .
  5. Centros y autoridades, 2010 , p. 5.
  6. PageRank y HITS, 2010 , pág. 257.
  7. Problemas con el algoritmo HITS, 2011 , p. 255.

Literatura