Minería web

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 22 de septiembre de 2016; las comprobaciones requieren 8 ediciones .

La minería web es el uso de técnicas de minería de datos para descubrir automáticamente documentos y servicios web, extraer información de recursos web y descubrir patrones comunes en Internet [1] .

En Web Mining se pueden distinguir las siguientes etapas:

etapa de entrada ( ing. etapa de entrada ) - obtención de datos "sin procesar" de fuentes ( registros del servidor , textos de documentos electrónicos);
etapa de preprocesamiento : los datos se presentan en la forma necesaria para la construcción exitosa de un modelo en particular;
etapa de modelado ( ing. etapa de descubrimiento de patrones );
etapa de análisis de patrones - interpretación de los resultados .

Estos son los pasos generales que debe seguir para analizar los datos de Internet. Los procedimientos específicos para cada etapa dependen de la tarea a realizar. En este sentido, existen diferentes categorías de Web Mining:

minería de contenido web;
Minería de estructuras web;
Minería de uso web.

Web Content Mining es el proceso de extraer conocimiento del contenido de documentos o de sus descripciones disponibles en Internet [2] . La búsqueda de conocimiento en Internet es una tarea difícil y que requiere mucho tiempo. Es esta dirección de Web Mining la que lo resuelve. Se basa en una combinación de recuperación de información, aprendizaje automático y minería de datos.

Web Structure Mining es el proceso de descubrir información estructural en Internet [3] . Esta dirección considera la relación entre las páginas web , en base a los enlaces entre ellas. Los modelos construidos se pueden utilizar para categorizar y buscar recursos web similares, así como para reconocer sitios con derechos de autor.

La minería de uso web es el descubrimiento automático de patrones en la ruta de viaje de un usuario y los datos relacionados recopilados o adquiridos como resultado de la interacción con uno o más sitios web [4] . Esta dirección se basa en la extracción de datos de los registros del servidor web. La finalidad del análisis es identificar las preferencias de los visitantes a la hora de utilizar determinados recursos de Internet.

Minería web

Minería Web y Recuperación de Información

Algunos argumentan que la recuperación de información de Internet es un caso especial de Web Mining, otros asocian Web Mining con la recuperación inteligente de información . De hecho, la recuperación de información es una búsqueda automática de todos los documentos necesarios, sin embargo, al mismo tiempo, es posible recibir algunos documentos irrelevantes [5] . Las principales tareas de la recuperación de información son la búsqueda de documentos útiles, la indexación de texto completo, y actualmente la investigación en el campo de la recuperación de información incluye modelado, clasificación y categorización de documentos, interfaces de usuario , visualización de datos , filtrado, etc. Una tarea que, se considera para realizar un caso especial de minería web: esta es la clasificación o categorización de documentos web que se pueden usar para la indexación. En este sentido, Web Mining es parte del proceso de recuperación de información. Sin embargo, cabe señalar que no todas las tareas de indexación utilizan técnicas de minería de datos .

Minería web y extracción de información

El objetivo de la extracción de información es convertir una colección de documentos, generalmente con la ayuda de sistemas de recuperación de información , en información fácilmente digerible y analizable. El proceso de extracción de información tiene como objetivo extraer hechos relevantes de los documentos, mientras que el proceso de recuperación de información tiene como objetivo seleccionar documentos relevantes. El primero se interesa por la estructura o presentación del documento, es decir, trabaja a nivel de detalle fino, y el segundo considera el texto del documento como una colección de palabras desordenadas. Sin embargo, las diferencias entre los dos procesos se vuelven insignificantes si el objetivo de la recuperación de información es extraer información [6] .

Debido a la dinámica y variedad del contenido web, no es posible crear un modo manual de sistemas de extracción de información. Debido a esto, la mayoría de los sistemas de minería de datos se enfocan en sitios web específicos. Otros utilizan máquinas de aprendizaje o técnicas de minería de datos y pueden extraer documentos web de forma automática o semiautomática. Desde este punto de vista, Web Mining es parte del proceso de extracción de información de Internet .

Minería web y aprendizaje automático

La minería web no funciona según el mismo principio que los métodos de aprendizaje automático utilizados en Internet . Por un lado, hay algunas aplicaciones de aprendizaje automático que no son un caso especial de Web Mining. Un ejemplo de esto es un método que usa efectivamente una araña web para un tema en particular, o un método que enfatiza la planificación del mejor camino a seguir. Por otro lado, además de los métodos de aprendizaje automático, existen otros métodos que son aplicables a la minería web. Por ejemplo, algunos de los algoritmos patentados que se utilizan para extraer centros y páginas de autoridad, DataGuides y algoritmos de descubrimiento de esquemas web. Sin embargo, existe una fuerte relación entre las dos áreas de investigación y las técnicas de aprendizaje automático se pueden aplicar a los procesos de minería web. Por ejemplo, estudios recientes han demostrado que la aplicación de métodos de aprendizaje automático puede mejorar el proceso de clasificación de textos, en comparación con los resultados de los métodos tradicionales de recuperación de información [7] .

Minería de contenido web

Web Content Mining describe la búsqueda automática de recursos de información en Internet e incluye la extracción de contenido a partir de datos web. En esencia, la minería de contenido web es análoga a la minería de datos para bases de datos relacionales, ya que es posible encontrar tipos similares de conocimiento a partir de datos no estructurados que se encuentran en documentos web. Un documento web puede contener varios tipos de datos, como texto, imágenes, audio, video, metadatos e hipervínculos . Algunos están semiestructurados, como los documentos HTML , otros están más estructurados, como los datos en tablas o bases de datos , pero la mayor parte de la información se almacena en datos de texto no estructurados [8] .

Existen varios métodos para encontrar información en Internet. El enfoque más común es la búsqueda basada en palabras clave. Los motores de búsqueda tradicionales tienen rastreadores para encontrar y recopilar información útil en la web, métodos de indexación para almacenar información y procesamiento de consultas para ofrecer a los usuarios información más precisa. Web Content Mining va más allá de la tecnología IR ( recuperación de información ) tradicional .

Existen dos enfoques para la minería de contenido web: basado en agentes y basado en bases de datos. En el primer caso, la minería de datos es realizada por agentes de software, en el segundo caso, los datos se consideran como pertenecientes a la base de datos [9] .

El enfoque basado en agentes incluye los siguientes sistemas [10] :

agentes de búsqueda inteligente (Intelligent Search Agents);
filtrado/clasificación de información;
agentes de red personalizados.

Ejemplos de sistemas de agentes de búsqueda inteligente:

Cosecha (Brown et al., 1994),
Buscador de preguntas frecuentes (Hammond et al., 1995),
Múltiple de información (Kirk et al., 1995),
OCCAM (Kwok y Weld, 1996) y ParaSite (Spertus, 1997),
ILA (Agente de aprendizaje de la información) (Perkowitz y Etzioni, 1995),
ShopBot (Doorenbos et al., 1996).

El enfoque basado en bases de datos incluye sistemas [10] :

bases de datos multinivel;
sistemas de consulta web (sistemas de consulta web);

Ejemplos de sistemas de solicitud web:

W3QL (Konopnicki y Shmueli, 1995),
WebLog (Lakshmanan et al., 1996),
Lorel (Quass et al., 1995),
UnQL (Buneman et al., 1995 y 1996),
TSIMMIS (Chawathe et al., 1994).

Minería de estructuras web

Web Structure Mining es un proceso de identificación de información estructural en Internet, que se puede dividir en dos tipos según el tipo de estructura de información utilizada [3] :

hipervínculos
Estructura del documento

Hipervínculos

Un hipervínculo es una unidad estructural que conecta una ubicación en una página web con otra, ya sea dentro de la misma página web o en otra página web. Un hipervínculo que se conecta a otra parte de la misma página se denomina hipervínculo dentro del documento, y un hipervínculo que conecta dos páginas diferentes se denomina hipervínculo entre documentos.

Estructura del documento

El contenido de una página web se puede presentar en un formato de árbol basado en varias etiquetas HTML y XML. El objetivo es extraer automáticamente la estructura DOM (modelo de objeto de documento) de los documentos.

Web Structure Mining intenta descubrir el modelo subyacente a la estructura de enlaces en la web. El modelo se basa en una topología de hipervínculo con o sin descripción de vínculo. Este modelo se puede utilizar para clasificar una página web y es útil para obtener información como similitudes y relaciones entre sitios web [11] . La estructura de enlaces contiene información importante y puede ayudar a filtrar y clasificar páginas web. En particular, un enlace de la página A a la página B puede considerarse una recomendación de la página B por parte del autor A.

Se han propuesto algunos algoritmos nuevos que utilizan la estructura de enlaces no solo para búsquedas de palabras clave, sino también para otras tareas, como generar automáticamente jerarquías similares a las de Yahoo o identidades comunitarias en Internet. El rendimiento de estos algoritmos generalmente es mejor que el rendimiento de los algoritmos IR porque utilizan más información que solo el contenido de las páginas.

Minería de uso web

La minería de uso web es el proceso de extraer información útil de los registros de acceso de los usuarios, los registros del servidor proxy, los registros del navegador y los datos de la sesión del usuario. En términos simples, Web Usage Mining es el proceso de descubrir qué buscan los usuarios en Internet. Algunos usuarios pueden estar interesados únicamente en datos de texto, mientras que otros pueden estar más interesados en datos multimedia [12] .

Se analiza la siguiente información:

qué páginas vio el usuario;
cuál es la secuencia de visitas a la página.

También analiza qué grupos de usuarios se pueden distinguir entre su número total en función del historial de navegación del sitio Web.

Web Usage Mining incluye los siguientes componentes:

procesamiento preliminar;
identificación operativa;
herramientas de detección de patrones;
herramientas de análisis de plantillas.

El primer paso es la recopilación de datos y el preprocesamiento de datos. La etapa preliminar de procesamiento incluye la limpieza de los datos del flujo de clics y la división de los datos en muchas transacciones de usuarios con sus visitas al sitio web. Durante la etapa de descubrimiento de patrones, los algoritmos estadísticos y de bases de datos se ejecutan en los registros de transacciones para encontrar patrones ocultos y el comportamiento del usuario. En el paso final del análisis de patrones, los patrones detectados en el paso anterior se procesan y filtran secuencialmente para producir modelos que luego se pueden usar como entrada para varias herramientas de visualización e informes [12] .

Las estadísticas capturan la identidad de los usuarios de la web junto con su comportamiento en el sitio. Dependiendo del tipo de uso de datos, el resultado de Web Usage Mining será:

datos del servidor web;
datos de la aplicación del servidor;
Datos de nivel de aplicación.

Datos del servidor web

El servidor web recopila registros de usuarios y, por lo general, incluye la dirección IP, el enlace de la página y el tiempo de acceso.

Datos de la aplicación del servidor

Los servidores de aplicaciones comerciales como WebLogic , StoryServer tienen capacidades significativas que permiten que las aplicaciones de comercio electrónico se asienten sobre ellos. Una característica clave es la capacidad de rastrear varios tipos de actividades comerciales y registrarlas en los registros del servidor de aplicaciones.

Datos de la capa de aplicación

La aplicación puede definir nuevos tipos de eventos, cuyo registro puede incluir el historial de creación de estos eventos. Cabe señalar que muchas aplicaciones finales requieren una combinación de uno o más de los métodos utilizados en las categorías anteriores.

Pros y contras de la minería de uso web

Ventajas

Web Usage Mining tiene una serie de ventajas, lo que hace que esta tecnología sea atractiva para las corporaciones, incluidas las agencias gubernamentales [13] :

Esta tecnología permitió que el comercio electrónico creara un marketing personalizado, lo que finalmente llevó a un aumento de los volúmenes comerciales.
Las agencias gubernamentales utilizan esta tecnología para clasificar amenazas y combatir el terrorismo.
La capacidad de predecir puede beneficiar a la sociedad al detectar actividades delictivas.
Las empresas pueden establecer relaciones más estrechas con los clientes brindándoles exactamente lo que necesitan.
Las empresas pueden comprender mejor las necesidades de los clientes y responder más rápido a las necesidades de los clientes.
Las empresas pueden encontrar, atraer y retener clientes, ahorrar en costos de productos utilizando la comprensión adquirida de los requisitos del cliente.
Las empresas aumentan la rentabilidad a través de precios específicos basados en perfiles creados.

Contras

El problema ético más criticado relacionado con la Minería de uso web es el tema de la invasión de la privacidad. La protección se considera perdida cuando la información obtenida sobre un usuario individual se utiliza o distribuye sin su conocimiento y consentimiento. Los datos resultantes se analizarán y agruparán en forma de perfiles, o serán anónimos antes de la agrupación sin crear perfiles personales. Por lo tanto, estas aplicaciones desindividualizan al usuario al juzgarlo solo por los clics de su mouse [14] .
Otro tema importante es que las empresas de recopilación de datos pueden usarlos para fines completamente diferentes, lo que viola significativamente los intereses de los usuarios.
La tendencia creciente de utilizar datos personales como mercancía alienta a los propietarios de sitios web a intercambiar estos datos ubicados en sus sitios.
Algunos algoritmos de minería pueden usar atributos cuestionables como género, raza, religión u orientación sexual. Estas prácticas pueden estar en contra de las leyes contra la discriminación.

Notas

↑ Minería web: aprendizaje automático para aplicaciones web, 2004 , p. 290.
↑ Funciones de minería web, 2009 , p. 132.
↑ 1 2 Minería web: conceptos, aplicaciones y direcciones de investigación, 2004 , p. 3.
↑ Descripción de minería de uso web, 2011 , p. 527.
↑ Una encuesta sobre minería web, 2000 , p. 2.
↑ Una encuesta sobre minería web, 2000 , p. 2-3.
↑ Una encuesta sobre minería web, 2000 , p. 3.
↑ Contenido web, 2000 , p. 5.
↑ Métodos de contenido web, 2008 , p. 263.
↑ 1 2 Enfoques basados en agentes y orientados a bases de datos, 2006 .
↑ Minería de estructuras web, 2007 , p. 3.
↑ 1 2 Minería de uso web, 2008 , p. 7.
↑ Pros y contras de la minería de uso web
↑ Cuestiones éticas, 2004 .

Literatura

Wang Y. Minería web y descubrimiento de conocimiento de patrones de uso . - 2000. (enlace inaccesible)
Lingras P., Akerkar R. Creación de una web inteligente: teoría y práctica: teoría y práctica (inglés) . - Jones y Bartlett Publishers, 2008. - 326 p. - ISBN 978-0-7637-4137-2 .
Bing L. Minería de datos web : exploración de hipervínculos, contenidos y datos de uso . - Springer, 2011. - 642 págs. — ISBN 978-3642194597 .
Wookie L. Minería de estructura web jerárquica . — 2007.
Kosala R., Blockeel H. Investigación de minería web: una encuesta . - ACM SIGKDD, 2000. - P. 2-3 .

Cronin B. Revisión anual de ciencia y tecnología de la información . - ARIST, 2004. - 674 p. — ISBN 1573872091 .
Chubukova I. A. Minería de datos: un tutorial . - M. : Internet Universidad de las Tecnologías de la Información: BINOM: Laboratorio del Conocimiento, 2006. - 382 p. — ISBN 5-9556-0064-7 .
Sivaramakrishnan J., Balakrishnan V. Funciones de minería web en una aplicación de búsqueda académica . - Dubái: BITS - PILANI, 2009. - P. 132-139.
Sharma A. Minería de uso web: preprocesamiento de datos, descubrimiento de patrones y análisis de patrones en los datos web de RIT . — Instituto de Tecnología de Rochester, 2008. Archivado desde el original el 23 de enero de 2013.
Srivastava J., Desikan P., Kumar V. Minería web : conceptos, aplicaciones y direcciones de investigación . — 2004.
Royakkers L, v.Wel L. Cuestiones éticas en la minería de datos web . — Editores académicos de Kluwer, 2004.