Extracción de textos

La minería de texto ( IAT , English  text mining ) es una dirección en inteligencia artificial , cuyo propósito es obtener información de colecciones de documentos de texto , basada en el uso de métodos prácticos de aprendizaje automático y procesamiento de lenguaje natural . El nombre "minería de texto" hace eco del concepto de " minería de datos " ( IAD , ing.  data mining ), que expresa la similitud de sus objetivos, enfoques de procesamiento de información y áreas de aplicación; la diferencia se manifiesta solo en los métodos finales, y también en el hecho de que el IAD se ocupa de repositorios y bases de datos , y no de bibliotecas electrónicas y corpus de texto .

Grupos de trabajo de IAT

Los grupos clave de tareas de IAT son: categorización de texto, extracción y recuperación de información , procesamiento de cambios en colecciones de texto y desarrollo de medios para presentar información al usuario. [una]

La categorización de documentos consiste en asignar documentos de una colección a uno o más grupos (clases, clusters) de textos similares (por ejemplo, por tema o estilo). La categorización puede ocurrir con la participación de una persona y sin ella. En el primer caso, denominado clasificación de documentos , el sistema IAT debe atribuir textos a clases ya definidas (convenientes para él). En términos de aprendizaje automático, esto requiere un aprendizaje supervisado , para lo cual el usuario debe proporcionar al sistema IAT tanto un conjunto de clases como muestras de documentos pertenecientes a estas clases.

El segundo caso de categorización se denomina agrupación de documentos . Al mismo tiempo, el sistema IAT debe determinar por sí mismo el conjunto de grupos en los que se pueden distribuir los textos; en el aprendizaje automático, la tarea correspondiente se denomina aprendizaje no supervisado . En este caso, el usuario deberá informar al sistema IAT del número de conglomerados en los que desea dividir la colección que se está procesando (se supone que el procedimiento de selección de características ya está incluido en el algoritmo del programa ).

Aplicación

Recientemente, el análisis de texto ha atraído cada vez más la atención en varios campos, como la seguridad, el comercio y la ciencia.

Seguro

Muchos paquetes de análisis de texto, como Aerotext y Attensity , se dirigen al mercado de aplicaciones de seguridad, en particular, el análisis de fuentes de texto sin formato, como sitios de noticias.

En software

Las divisiones de investigación y desarrollo de importantes empresas como IBM , Apple y Microsoft están investigando tecnologías de análisis de texto con el objetivo de automatizar en el futuro los procesos de extracción y análisis de datos.

Notas

  1. Baya, 2003 , pág. xi.

Literatura

En ruso:

En inglés: