Los datos no estructurados son datos que no corresponden a un modelo de datos predeterminado y, por regla general, se presentan en forma de texto con fechas, números, hechos ubicados en él de forma arbitraria [1] [2] . Dichos datos son difíciles de analizar, especialmente con los programas tradicionales diseñados para trabajar con datos estructurados ( anotados o almacenados en bases de datos ).
Merrill Lynch estimó en 1998 que alrededor del 80-90% de toda la información empresarial potencialmente útil se presentaba de forma no estructurada [1] , pero esta proporción no se basaba en estadísticas o investigaciones cuantitativas, sino que era una suposición [2] . Computerworld estima que el volumen de datos no estructurados en las organizaciones es del 70-80 % de todos los datos [3] .
Las primeras investigaciones en inteligencia empresarial no se centraron en datos numéricos, sino en datos textuales no estructurados. Ya en 1958, investigadores de tecnologías de la información como H. P. Lun exploraban formas de extraer y clasificar datos en texto no estructurado. [3] Sin embargo, solo desde principios de la década de 2000 la tecnología disponible se ha puesto al día con el interés de la investigación. En 2004, el Instituto SAS desarrolló SAS Text Miner, que utiliza la descomposición de valores singulares para factorizar un espacio de texto de alta dimensión en subespacios de menor dimensión para simplificar en gran medida el análisis de la máquina [4] . Los avances en matemáticas y tecnologías de procesamiento de texto han estimulado la investigación por parte de organizaciones comerciales en áreas como el análisis de sentimientos de texto (análisis de sentimiento), la recopilación y el análisis de opiniones de consumidores, la automatización de centros de llamadas [5] . El advenimiento de las tecnologías de big data a fines de la década de 2000 estimuló un mayor interés en los programas para analizar datos no estructurados en campos modernos como la previsión y el análisis de causa raíz [6] .
El término "datos no estructurados" puede considerarse impreciso por varias razones:
Técnicas como la minería de datos , el procesamiento del lenguaje natural y la minería de texto proporcionan métodos para encontrar patrones con el fin de interpretar de alguna manera la información no estructurada.
Las técnicas para estructurar el texto suelen incluir el etiquetado manual (metadatos) o el marcado de parte del discurso para estructurar aún más el texto. La Arquitectura de gestión de información no estructurada (UIMA) proporciona un marco común para procesar esta información para extraer valores y crear datos estructurados a partir de la información no estructurada [4] . El software que crea una estructura de datos legible por máquina hace uso de las estructuras lingüísticas, auditivas y visuales que existen en todas las formas de comunicación humana [5] . Por ejemplo, los algoritmos especiales pueden inferir la estructura del texto mediante el análisis de la morfología , la sintaxis de las oraciones, etc. La información no estructurada se puede marcar para desambiguación y se utilizan técnicas de puntuación de relevancia para mejorar la búsqueda.
Los ejemplos de "datos no estructurados" incluyen libros, revistas, documentos, metadatos, registros médicos, audio, video, datos analógicos, imágenes y archivos basados en texto no estructurado: mensajes de correo electrónico, páginas web, documentos creados con procesadores de texto . La información no estructurada se puede almacenar en forma de objetos estructurados (por ejemplo, en forma de archivos o documentos) que tienen una estructura en sí mismos. En este caso, la combinación de datos estructurados y no estructurados en conjunto también se denomina "datos no estructurados" [6] . Por ejemplo, las páginas web HTML ya tienen marcas, pero solo se pueden usar para mostrar. No contiene información sobre los significados o funciones de ciertos elementos de marcado en una forma adecuada para el procesamiento automático. El marcado XHTML es más fácil de manejar automáticamente, pero normalmente no contiene los significados semánticos de las expresiones.
Dado que los datos no estructurados generalmente se almacenan en forma de documentos electrónicos , los programas de análisis de contenido o administración de documentos prefieren clasificar documentos completos en lugar de manipularlos dentro de los documentos. Así, los programas para el tratamiento de este tipo de datos suelen ser herramientas para la creación de colecciones de documentos con información no estructurada. Sin embargo, hoy en día también existen soluciones que funcionan con elementos atómicos más pequeños que todo el documento [7] .
Los motores de búsqueda se han convertido en una de las herramientas populares para indexar y buscar datos no estructurados.
![]() |
---|