La fusión de datos es el proceso de combinar fuentes de datos para producir información más consistente, precisa y útil que la información de una sola fuente [1] .
Los procesos de fusión de datos a menudo se agrupan como fusión baja, media o alta, según la etapa de procesamiento en la que se realiza la fusión [2] . La fusión de datos de bajo nivel combina algunas fuentes de datos sin procesar para producir otros datos sin procesar. Se requiere que los datos fusionados sean más informativos y sintéticos que los datos originales.
Por ejemplo, recopilar y resumir datos de sensores se conoce como fusión de datos (multisensor) y es un subconjunto de la fusión de información .
Las personas son un ejemplo directo de fusión de datos. Como seres humanos, dependemos en gran medida de nuestros sentidos, como la vista, el olfato , el gusto, el oído y el movimiento físico. La combinación de todos estos sentidos se combina constantemente para ayudarnos a realizar la mayoría, si no todas, las tareas de nuestra vida diaria. Es decir, este es un ejemplo directo de fusión de datos. Confiamos en la fusión del olor, el gusto y el tacto de los alimentos para asegurarnos de que sean comestibles. Asimismo, dependemos de nuestra visión y nuestra capacidad para escuchar y controlar el movimiento de nuestro cuerpo para caminar o conducir un automóvil y llevar a cabo la mayoría de las tareas de nuestra vida. En todos estos casos, el cerebro se está fusionando y controlando lo que tenemos que hacer en el momento siguiente. Nuestro cerebro se basa en la fusión de datos recopilados de los sentidos anteriores [3] .
En el dominio de estudio geoespacial ( SIG ), la fusión de datos suele ser sinónimo de integración de datos . En estas aplicaciones, a menudo existe la necesidad de combinar diferentes conjuntos de datos en un conjunto de datos fusionado que incluye todos los puntos de datos. Los conjuntos de datos combinados se diferencian de una combinación simple en que los puntos del conjunto de datos combinado contienen atributos y metadatos que los puntos del conjunto de datos original pueden no tener.
A continuación se muestra un ejemplo simplificado de este proceso, donde el conjunto de datos α se fusiona con el conjunto de datos β, formando un conjunto de datos fusionado δ. Los puntos de datos en el conjunto α tienen coordenadas espaciales X e Y y atributos A1 y A2. Los puntos de datos en el conjunto β tienen coordenadas espaciales X e Y y atributos B1 y B2. El conjunto de datos fusionado contiene todos los puntos y atributos.
Conjunto de datos de entrada α | Conjunto de datos de entrada β | Conjunto de datos fusionado δ | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
|
|
En el caso simple, cuando todos los atributos son uniformes en toda el área, los atributos pueden asignarse simplemente: M?, N?, Q?, R? en M, N, Q, R. En las aplicaciones reales, los atributos no son uniformes y, por lo general, se necesita algún tipo de interpolación para asignar atributos correctamente a los puntos de datos en un conjunto fusionado.
En una aplicación mucho más compleja, los investigadores de animales marinos han utilizado la fusión de datos de movimiento de animales con datos batimétricos y meteorológicos , temperatura la superficie del mar y hábitat de los animales para ver y comprender el comportamiento de los animales en respuesta a influencias externas como el clima y la temperatura del agua. Cada uno de estos conjuntos de datos representa una cuadrícula espacial y una frecuencia de muestreo diferentes, por lo que una simple combinación de datos probablemente generaría suposiciones poco razonables y estropearía el análisis. Sin embargo, al fusionar datos, todos los datos y atributos se reúnen en una sola entidad, lo que crea una imagen más completa del entorno. Esto permite a los científicos identificar lugares y tiempos clave y proporciona nuevos conocimientos sobre la interacción entre el medio ambiente y el comportamiento animal.
En la imagen de la derecha, se estudian langostas a orillas del mar de Tasmania. Hugh Pederson, de la Universidad de Tasmany , utilizó programas de fusión de datos para fusionar los datos de seguimiento del movimiento de la langosta de roca del sur codificados en amarillo y negro para el día y la noche respectivamente en la imagen) con datos batimétricos y de hábitat en un patrón de 4 dimensiones del comportamiento de la langosta.
En aplicaciones fuera de los dominios geoespaciales, el uso de los términos integración de datos y fusión de datos difiere. En áreas como inteligencia comercial, por ejemplo, el término "integración de datos" se usa para describir la combinación de datos, mientras que el término "fusión de datos" es una integración seguida de compactación y reemplazo de datos. La integración de datos se puede considerar como una combinación de conjuntos en la que se retiene un conjunto más grande, mientras que la fusión es una técnica de reducción de conjuntos con confiabilidad mejorada.
A mediados de la década de 1980, los Directores Conjuntos de Laboratorios (JDL) formaron el Subcomité de Fusión de Datos (que luego se conoció como el Grupo de Fusión de Datos , DFG) . Con la llegada de la World Wide Web, la fusión de datos comenzó a incluir la fusión de sensores y la fusión de información. El grupo JDL/DFIG ha introducido un modelo de fusión de datos que se descompone en diferentes procesos. Actualmente hay seis niveles del modelo de Grupo de Información de Fusión de Datos ( DFIG ):
Nivel 0: Preprocesamiento de la fuente / Evaluación de la materia
Nivel 1 : Evaluación de objetos _
Nivel 2 : Evaluación de la situación _
Nivel 3 : Evaluación de impacto ( o refinamiento de amenazas ) _
Nivel 4 : Refinamiento del proceso _
Nivel 5 : Refinamiento de Usuario o Refinamiento Cognitivo _ _ _
Aunque el modelo JDL (niveles 1 a 4) todavía se usa en la actualidad, a menudo se lo critica por exigir que los niveles se implementen en el orden especificado y por no representar adecuadamente la participación humana. El modelo DFIG (niveles 0 a 5) tiene en cuenta el impacto de la conciencia medioambiental, las mejoras del usuario y la gestión del trabajo [4] . A pesar de sus deficiencias, los modelos JDL/DFIG son útiles para visualizar el proceso de fusión de datos, lo que promueve la discusión y el entendimiento común [5] , y también es importante para desarrollar la fusión de información a nivel del sistema [4] .
Los datos de varias tecnologías de sensores se pueden combinar de forma inteligente para determinar el estado exacto del tráfico. El enfoque de fusión de datos, que utiliza datos acústicos, de imagen y de sensores derivados de la carretera, muestra la ventaja de combinar diferentes métodos individuales [6] .
En muchos casos, los sensores dispersos geográficamente están severamente limitados en términos de consumo de energía y rendimiento. Por lo tanto, los datos sin procesar relacionados con un fenómeno particular a menudo se reducen a varios bits para cada sensor. Al inferir un evento binario (es decir , o ), en el caso extremo, solo la solución binaria se envía desde el sensor al centro de toma de decisiones y se combina para obtener una clasificación mejorada [7] [8] [9] .
Con una gran cantidad de sensores incorporados, incluidos sensores de movimiento, sensores ambientales, sensores de posición, los dispositivos móviles modernos generalmente permiten que las aplicaciones móviles accedan a una gran cantidad de datos de sensores que se pueden usar para mejorar la conciencia contextual. El uso de técnicas de procesamiento de señales y fusión de datos, como la generación de características, la evaluación de viabilidad y el análisis de componentes principales para analizar dichos datos de sensores, mejora significativamente la clasificación de movimiento y el estado contextual del dispositivo [10] .
Datos | |
---|---|
|