Almacén de datos

Data Warehouse es una base de datos de información específica de dominio  , especialmente diseñada y diseñada para el reporte y análisis de negocios con el fin de apoyar la toma de decisiones en una organización. Está construido sobre la base de sistemas de gestión de bases de datos y sistemas de apoyo a la decisión . Los datos que ingresan a un almacén de datos suelen ser de solo lectura.

Los datos del sistema OLTP se copian al almacén de datos de tal manera que al generar informes y análisis OLAP , los recursos del sistema transaccional no se utilizan y no se viola su estabilidad. Hay dos opciones para actualizar los datos almacenados:

Principios de organización del almacenamiento

Diseño de almacén de datos

Hay dos direcciones arquitectónicas principales: almacenes de datos normalizados y almacenes dimensionales.

En los almacenes normalizados, los datos se almacenan en tablas de tercera forma normal específicas del dominio . Los almacenamientos normalizados se caracterizan por ser fáciles de crear y administrar, las desventajas de los almacenamientos normalizados son una gran cantidad de tablas como resultado de la normalización, por lo que, para obtener cualquier información, es necesario seleccionar entre muchas tablas al mismo tiempo. tiempo, lo que conduce a un deterioro en el rendimiento del sistema. Para resolver este problema, se utilizan tablas desnormalizadas: data marts , en base a las cuales ya se muestran los formularios de informes. Con grandes cantidades de datos, se pueden utilizar varios niveles de "mart" / "almacenamiento".

Las tiendas con dimensiones utilizan un esquema de estrella o un esquema de copo de nieve . En este caso, los datos ( tabla de hechos ) están en el centro de la "estrella" y las medidas forman los rayos de la estrella. Diferentes tablas de hechos comparten tablas de dimensiones, lo que facilita mucho la combinación de datos de varias tablas de hechos de materias (por ejemplo, hechos de ventas y entregas de productos). Las tablas de datos y las dimensiones correspondientes forman la arquitectura "bus". Las dimensiones a menudo se crean en tercera forma normal, incluso para registrar cambios en las dimensiones. La principal ventaja de los almacenamientos con medidas es la sencillez y claridad para desarrolladores y usuarios, además, gracias a un almacenamiento de datos más eficiente y medidas formalizadas, se facilita y acelera el acceso a los datos, especialmente en análisis complejos. La principal desventaja son los procedimientos más complejos para preparar y cargar datos, así como para administrar y modificar las dimensiones de los datos.

Con una cantidad suficientemente grande de datos, los esquemas de estrella y copo de nieve también incurren en una degradación del rendimiento cuando se conectan a las dimensiones.

Procesos de datos

Las fuentes de datos pueden ser:

  1. Sistemas tradicionales de registro
  2. Documentos separados
  3. conjuntos de datos

Operaciones de datos:

  1. Extracción: mover información de fuentes de datos a una base de datos separada, llevándolas a un solo formato.
  2. La transformación es la preparación de la información para su almacenamiento en una forma óptima para la ejecución de la solicitud necesaria para la toma de decisiones.
  3. Carga: colocar datos en el almacenamiento, realizado atómicamente, agregando nuevos hechos o ajustando los existentes.
  4. Análisis - OLAP , Data Mining , informes resumidos.
  5. Presentación de resultados de análisis.

Toda esta información se utiliza en el diccionario de metadatos . El diccionario de metadatos incluye automáticamente diccionarios de fuentes de datos. También describe los formatos de datos para su posterior coordinación, la frecuencia de reposición de datos, la consistencia en el tiempo. El propósito del diccionario de metadatos es aliviar al desarrollador de la necesidad de estandarizar las fuentes de datos. La creación de almacenes de datos no debe contradecir los sistemas existentes para recopilar y procesar información. Los componentes especiales de los diccionarios deben garantizar la extracción oportuna de datos de ellos y permitir la conversión de datos a un formato único basado en un diccionario de metadatos.

La estructura de datos lógica de un almacén de datos es significativamente diferente de la estructura de datos de las fuentes de datos. El diseño de un proceso de transformación efectivo requiere un modelo de datos empresariales bien diseñado y un modelo de tecnología de decisiones. Es conveniente para el usuario presentar los datos en bases de datos multidimensionales, donde el tiempo, el precio o la región geográfica pueden actuar como medidas.

Además de extraer datos de la base de datos, el proceso de extracción de conocimiento es importante para la toma de decisiones, de acuerdo con las necesidades de información del usuario. Desde el punto de vista del usuario, en el proceso de extracción de conocimiento de la base de datos se deben resolver las siguientes transformaciones: datos → información → conocimiento → soluciones obtenidas.

Véase también