Extracción de información

La extracción de información es la tarea de extraer (construir) automáticamente datos estructurados a partir de documentos no estructurados o semiestructurados legibles por máquina.

La extracción de información es un tipo de recuperación de información asociada con el procesamiento de texto en lenguaje natural . Un ejemplo de extracción de información puede ser la búsqueda de visitas comerciales - formalmente se escribe así: НанеслиВизит(Компания-Кто, Компания-Кому, ДатаВизита) - de feeds de noticias , tales como: "Ayer, 1 de abril de 2007, representantes de la corporación Pepelac Internacional visitaron la oficina de Gravitsap Producciones". El objetivo principal de tal transformación es la capacidad de analizar información inicialmente "caótica" utilizando métodos estándar de procesamiento de datos . [1] Un objetivo más limitado puede ser, por ejemplo, la tarea de identificar patrones lógicos en los eventos descritos en el texto. [2]

En las tecnologías de la información modernas , el papel de un procedimiento como la extracción de información está aumentando cada vez más, debido al rápido aumento en la cantidad de información no estructurada (sin metadatos ), en particular, en Internet . Esta información se puede estructurar más convirtiéndola a un formato relacional o agregando marcado XML . [3] Al monitorear fuentes de noticias con agentes inteligentes , necesitará métodos para extraer información y transformarla en una forma que sea más conveniente para trabajar más adelante.

Una tarea típica de extracción de información es escanear un conjunto de documentos en lenguaje natural y llenar una base de datos con información útil extraída. Los enfoques modernos de recuperación de información utilizan métodos de procesamiento de lenguaje natural que abordan solo un conjunto muy limitado de temas (preguntas, problemas), a menudo solo un tema. Por ejemplo, la Conferencia de comprensión de mensajes (MUC ) es una conferencia competitiva y en el pasado se centró en:

MUC-1 (1987), MUC-2 (1989): Operaciones navales.
MUC-3 (1991), MUC-4 (1992): Terrorismo en los países latinoamericanos.
MUC-5 (1993): Operaciones de empresas de microelectrónica.
MUC-6 (1995): Artículos periodísticos sobre cambios en los procesos de gestión.
MUC-7 (1998): Informes de lanzamiento de satélites.

Los textos en lenguaje natural pueden requerir algún tipo de transformación preliminar a un lenguaje (por ejemplo, RDF - Marco de descripción de recursos) comprensible para una computadora.

Subtareas típicas de extracción de información:

Reconocimiento de elementos nominados ( entidades ), por ejemplo: nombres de personas, nombres de organizaciones, nombres geográficos, eventos, designaciones temporales y monetarias, etc.
Resolución de anáforas y correferencias : buscando conexiones referentes a un mismo objeto. Un caso típico de tales referencias es la anáfora pronominal.
Identificación de terminología: búsqueda de palabras clave y frases ( colocations ) para un texto determinado.
Auto- abstracting : selección de información semántica, emotiva, valorativa, etc. del texto. Puede ser generativa y declarativa.

Notas

↑ El procesamiento de datos puede entenderse, entre otras cosas , y simplemente su acumulación en una base de datos .
↑ La minería de datos se ocupa de esta tarea .
↑ El concepto del desarrollo de Internet, donde se adjunta un archivo con metadatos en formato XML a cada documento , se denomina web semántica y se considera muy prometedor; pero vale la pena señalar: esto no es lo mismo que transformar el documento en sí.

Véase también

Enlaces

idioma extranjero

https://web.archive.org/web/20110718185816/http://extraccióninformacion.iespana.es/ Extracción informacion (sitio en español)
http://www.itl.nist.gov/iaui/894.02/related_projects/muc/MUC _
http://projects.ldc.upenn.edu/ace/ Archivado el 25 de septiembre de 2013 en Wayback Machine ACE (LDC)
https://web.archive.org/web/20060308054306/http://www.itl.nist.gov/iad/894.01/tests/ace/ ACE (NIST)
http://lcl2.di.uniroma1.it (enlace no disponible) - TermExtractor
TermFinder , extractor de terminología en línea para EN, FR e IT - aplicación web
Video tutoriales, charlas, conferencias Videolectures.net
Automatice la extracción de metadatos para búsqueda corporativa y mashups (Apache UIMA)

Ingeniería del conocimiento
Conceptos generales	Datos metadatos Conocimiento metaconocimiento Representación del conocimiento Base de conocimientos Ontología web semántica
Modelos rígidos	Productos Redes semánticas marcos modelo lógico
Métodos blandos	red neuronal modelado evolutivo lógica difusa
Aplicaciones	Sistemas expertos Procesamiento de datos Extracción de información Interlocutores virtuales Sistemas inteligentes híbridos
Inteligencia artificial Aprendizaje automático procesamiento natural del lenguaje

procesamiento natural del lenguaje
Definiciones generales	corpus de textos corpus de habla Para las palabras bolsa de palabras Integridad de la IA N-grama Cifrado de bigrama trigrama
Análisis de texto	Segmentación de texto Marcado parcial análisis de superficie Procesamiento de textos compuestos Extracción de colocaciones derivación lematización Reconocimiento de entidad nombrada Resolución de correferencia Análisis de sentimiento de texto Extracción de conceptos analizando Resolución de la polisemia léxica Extraer terminología Extracción de información Identificación de idioma Definición de caso
Referencia	Extrayendo oraciones Generación abstracta Referenciación multi-documento Simplificación de texto
Traducción automática	automatizado Híbrido Interlingüístico Basado en reglas Basado en ejemplos Basado en diccionario Basado en la transformación neural Estadístico Sincrónico
Identificación y recogida de datos	Reconocimiento de voz síntesis de voz Reconocimiento óptico de caracteres Generación de texto
Modelo Temático	colocación de pachinko Colocación latente de Dirichlet Análisis semántico latente
revisión por pares	Evaluación automatizada de ensayos concordante Entrada de texto predictivo Corrector gramatical Corrector ortográfico Adivinanzas de sintaxis
Interfaz de lenguaje natural	asistente virtual Interlocutor virtual sistema de preguntas y respuestas interfaz de voz Literatura Interactiva