Extracción de información

La extracción de información es la  tarea de extraer (construir) automáticamente datos estructurados a partir de documentos no estructurados o semiestructurados legibles por máquina.

La extracción de información es un tipo de recuperación de información asociada con el procesamiento de texto en lenguaje natural . Un ejemplo de extracción de información puede ser la búsqueda de visitas comerciales - formalmente se escribe así: НанеслиВизит(Компания-Кто, Компания-Кому, ДатаВизита) - de feeds de noticias , tales como: "Ayer, 1 de abril de 2007, representantes de la corporación Pepelac Internacional visitaron la oficina de Gravitsap Producciones". El objetivo principal de tal transformación es la capacidad de analizar información inicialmente "caótica" utilizando métodos estándar de procesamiento de datos . [1] Un objetivo más limitado puede ser, por ejemplo, la tarea de identificar patrones lógicos en los eventos descritos en el texto. [2]

En las tecnologías de la información modernas , el papel de un procedimiento como la extracción de información está aumentando cada vez más, debido al rápido aumento en la cantidad de información no estructurada (sin metadatos ), en particular, en Internet . Esta información se puede estructurar más convirtiéndola a un formato relacional o agregando marcado XML . [3] Al monitorear fuentes de noticias con agentes inteligentes , necesitará métodos para extraer información y transformarla en una forma que sea más conveniente para trabajar más adelante.

Una tarea típica de extracción de información es escanear un conjunto de documentos en lenguaje natural y llenar una base de datos con información útil extraída. Los enfoques modernos de recuperación de información utilizan métodos de procesamiento de lenguaje natural que abordan solo un conjunto muy limitado de temas (preguntas, problemas), a menudo solo un tema. Por ejemplo, la Conferencia de comprensión de mensajes (MUC ) es una conferencia competitiva y en el pasado se centró en:

Los textos en lenguaje natural pueden requerir algún tipo de transformación preliminar a un lenguaje (por ejemplo, RDF  - Marco de descripción de recursos) comprensible para una computadora.

Subtareas típicas de extracción de información:

Notas

  1. El procesamiento de datos puede entenderse, entre otras cosas , y simplemente su acumulación en una base de datos .
  2. ↑ La minería de datos se ocupa de esta tarea .
  3. ↑ El concepto del desarrollo de Internet, donde se adjunta un archivo con metadatos en formato XML a cada documento , se denomina web semántica y se considera muy prometedor; pero vale la pena señalar: esto no es lo mismo que transformar el documento en sí.

Véase también

Enlaces

idioma extranjero