La minería web es el uso de técnicas de minería de datos para descubrir automáticamente documentos y servicios web, extraer información de recursos web y descubrir patrones comunes en Internet [1] .
En Web Mining se pueden distinguir las siguientes etapas:
Estos son los pasos generales que debe seguir para analizar los datos de Internet. Los procedimientos específicos para cada etapa dependen de la tarea a realizar. En este sentido, existen diferentes categorías de Web Mining:
Web Content Mining es el proceso de extraer conocimiento del contenido de documentos o de sus descripciones disponibles en Internet [2] . La búsqueda de conocimiento en Internet es una tarea difícil y que requiere mucho tiempo. Es esta dirección de Web Mining la que lo resuelve. Se basa en una combinación de recuperación de información, aprendizaje automático y minería de datos.
Web Structure Mining es el proceso de descubrir información estructural en Internet [3] . Esta dirección considera la relación entre las páginas web , en base a los enlaces entre ellas. Los modelos construidos se pueden utilizar para categorizar y buscar recursos web similares, así como para reconocer sitios con derechos de autor.
La minería de uso web es el descubrimiento automático de patrones en la ruta de viaje de un usuario y los datos relacionados recopilados o adquiridos como resultado de la interacción con uno o más sitios web [4] . Esta dirección se basa en la extracción de datos de los registros del servidor web. La finalidad del análisis es identificar las preferencias de los visitantes a la hora de utilizar determinados recursos de Internet.
Algunos argumentan que la recuperación de información de Internet es un caso especial de Web Mining, otros asocian Web Mining con la recuperación inteligente de información . De hecho, la recuperación de información es una búsqueda automática de todos los documentos necesarios, sin embargo, al mismo tiempo, es posible recibir algunos documentos irrelevantes [5] . Las principales tareas de la recuperación de información son la búsqueda de documentos útiles, la indexación de texto completo, y actualmente la investigación en el campo de la recuperación de información incluye modelado, clasificación y categorización de documentos, interfaces de usuario , visualización de datos , filtrado, etc. Una tarea que, se considera para realizar un caso especial de minería web: esta es la clasificación o categorización de documentos web que se pueden usar para la indexación. En este sentido, Web Mining es parte del proceso de recuperación de información. Sin embargo, cabe señalar que no todas las tareas de indexación utilizan técnicas de minería de datos .
El objetivo de la extracción de información es convertir una colección de documentos, generalmente con la ayuda de sistemas de recuperación de información , en información fácilmente digerible y analizable. El proceso de extracción de información tiene como objetivo extraer hechos relevantes de los documentos, mientras que el proceso de recuperación de información tiene como objetivo seleccionar documentos relevantes. El primero se interesa por la estructura o presentación del documento, es decir, trabaja a nivel de detalle fino, y el segundo considera el texto del documento como una colección de palabras desordenadas. Sin embargo, las diferencias entre los dos procesos se vuelven insignificantes si el objetivo de la recuperación de información es extraer información [6] .
Debido a la dinámica y variedad del contenido web, no es posible crear un modo manual de sistemas de extracción de información. Debido a esto, la mayoría de los sistemas de minería de datos se enfocan en sitios web específicos. Otros utilizan máquinas de aprendizaje o técnicas de minería de datos y pueden extraer documentos web de forma automática o semiautomática. Desde este punto de vista, Web Mining es parte del proceso de extracción de información de Internet .
La minería web no funciona según el mismo principio que los métodos de aprendizaje automático utilizados en Internet . Por un lado, hay algunas aplicaciones de aprendizaje automático que no son un caso especial de Web Mining. Un ejemplo de esto es un método que usa efectivamente una araña web para un tema en particular, o un método que enfatiza la planificación del mejor camino a seguir. Por otro lado, además de los métodos de aprendizaje automático, existen otros métodos que son aplicables a la minería web. Por ejemplo, algunos de los algoritmos patentados que se utilizan para extraer centros y páginas de autoridad, DataGuides y algoritmos de descubrimiento de esquemas web. Sin embargo, existe una fuerte relación entre las dos áreas de investigación y las técnicas de aprendizaje automático se pueden aplicar a los procesos de minería web. Por ejemplo, estudios recientes han demostrado que la aplicación de métodos de aprendizaje automático puede mejorar el proceso de clasificación de textos, en comparación con los resultados de los métodos tradicionales de recuperación de información [7] .
Web Content Mining describe la búsqueda automática de recursos de información en Internet e incluye la extracción de contenido a partir de datos web. En esencia, la minería de contenido web es análoga a la minería de datos para bases de datos relacionales, ya que es posible encontrar tipos similares de conocimiento a partir de datos no estructurados que se encuentran en documentos web. Un documento web puede contener varios tipos de datos, como texto, imágenes, audio, video, metadatos e hipervínculos . Algunos están semiestructurados, como los documentos HTML , otros están más estructurados, como los datos en tablas o bases de datos , pero la mayor parte de la información se almacena en datos de texto no estructurados [8] .
Existen varios métodos para encontrar información en Internet. El enfoque más común es la búsqueda basada en palabras clave. Los motores de búsqueda tradicionales tienen rastreadores para encontrar y recopilar información útil en la web, métodos de indexación para almacenar información y procesamiento de consultas para ofrecer a los usuarios información más precisa. Web Content Mining va más allá de la tecnología IR ( recuperación de información ) tradicional .
Existen dos enfoques para la minería de contenido web: basado en agentes y basado en bases de datos. En el primer caso, la minería de datos es realizada por agentes de software, en el segundo caso, los datos se consideran como pertenecientes a la base de datos [9] .
El enfoque basado en agentes incluye los siguientes sistemas [10] :
Ejemplos de sistemas de agentes de búsqueda inteligente:
El enfoque basado en bases de datos incluye sistemas [10] :
Ejemplos de sistemas de solicitud web:
Web Structure Mining es un proceso de identificación de información estructural en Internet, que se puede dividir en dos tipos según el tipo de estructura de información utilizada [3] :
Un hipervínculo es una unidad estructural que conecta una ubicación en una página web con otra, ya sea dentro de la misma página web o en otra página web. Un hipervínculo que se conecta a otra parte de la misma página se denomina hipervínculo dentro del documento, y un hipervínculo que conecta dos páginas diferentes se denomina hipervínculo entre documentos.
El contenido de una página web se puede presentar en un formato de árbol basado en varias etiquetas HTML y XML. El objetivo es extraer automáticamente la estructura DOM (modelo de objeto de documento) de los documentos.
Web Structure Mining intenta descubrir el modelo subyacente a la estructura de enlaces en la web. El modelo se basa en una topología de hipervínculo con o sin descripción de vínculo. Este modelo se puede utilizar para clasificar una página web y es útil para obtener información como similitudes y relaciones entre sitios web [11] . La estructura de enlaces contiene información importante y puede ayudar a filtrar y clasificar páginas web. En particular, un enlace de la página A a la página B puede considerarse una recomendación de la página B por parte del autor A.
Se han propuesto algunos algoritmos nuevos que utilizan la estructura de enlaces no solo para búsquedas de palabras clave, sino también para otras tareas, como generar automáticamente jerarquías similares a las de Yahoo o identidades comunitarias en Internet. El rendimiento de estos algoritmos generalmente es mejor que el rendimiento de los algoritmos IR porque utilizan más información que solo el contenido de las páginas.
La minería de uso web es el proceso de extraer información útil de los registros de acceso de los usuarios, los registros del servidor proxy, los registros del navegador y los datos de la sesión del usuario. En términos simples, Web Usage Mining es el proceso de descubrir qué buscan los usuarios en Internet. Algunos usuarios pueden estar interesados únicamente en datos de texto, mientras que otros pueden estar más interesados en datos multimedia [12] .
Se analiza la siguiente información:
También analiza qué grupos de usuarios se pueden distinguir entre su número total en función del historial de navegación del sitio Web.
Web Usage Mining incluye los siguientes componentes:
El primer paso es la recopilación de datos y el preprocesamiento de datos. La etapa preliminar de procesamiento incluye la limpieza de los datos del flujo de clics y la división de los datos en muchas transacciones de usuarios con sus visitas al sitio web. Durante la etapa de descubrimiento de patrones, los algoritmos estadísticos y de bases de datos se ejecutan en los registros de transacciones para encontrar patrones ocultos y el comportamiento del usuario. En el paso final del análisis de patrones, los patrones detectados en el paso anterior se procesan y filtran secuencialmente para producir modelos que luego se pueden usar como entrada para varias herramientas de visualización e informes [12] .
Las estadísticas capturan la identidad de los usuarios de la web junto con su comportamiento en el sitio. Dependiendo del tipo de uso de datos, el resultado de Web Usage Mining será:
El servidor web recopila registros de usuarios y, por lo general, incluye la dirección IP, el enlace de la página y el tiempo de acceso.
Los servidores de aplicaciones comerciales como WebLogic , StoryServer tienen capacidades significativas que permiten que las aplicaciones de comercio electrónico se asienten sobre ellos. Una característica clave es la capacidad de rastrear varios tipos de actividades comerciales y registrarlas en los registros del servidor de aplicaciones.
La aplicación puede definir nuevos tipos de eventos, cuyo registro puede incluir el historial de creación de estos eventos. Cabe señalar que muchas aplicaciones finales requieren una combinación de uno o más de los métodos utilizados en las categorías anteriores.
Web Usage Mining tiene una serie de ventajas, lo que hace que esta tecnología sea atractiva para las corporaciones, incluidas las agencias gubernamentales [13] :