La minería de datos ( Minería de datos en ruso , minería de datos, minería de datos ) es un nombre colectivo utilizado para referirse a un conjunto de métodos para detectar conocimientos previamente desconocidos, no triviales, útiles en la práctica y accesibles en los datos , necesarios para tomar decisiones en varios campos de actividad humana. El término fue introducido por Grigory Pyatetsky-Shapiro en 1989 [1] [2] [3] .
La frase en inglés " data mining " aún no tiene una traducción bien establecida al ruso. Cuando se transmite en ruso, se utilizan las siguientes frases [4] : tamizado de información, minería de datos, extracción de datos , así como minería de datos [5] [6] [7] . Más completa y precisa es la frase " conocimiento descubrimiento en bases de datos " ( en inglés Knowledge Discovery in Databases, KDD).
La base de los métodos de minería de datos son todo tipo de métodos de clasificación, modelado y pronóstico basados en el uso de árboles de decisión , redes neuronales artificiales , algoritmos genéticos , programación evolutiva , memoria asociativa , lógica difusa . Los métodos de minería de datos a menudo incluyen métodos estadísticos ( análisis descriptivo, análisis de correlación y regresión, análisis factorial , análisis de varianza , análisis de componentes , análisis discriminante, análisis de series temporales , análisis de supervivencia , análisis de relaciones ). Dichos métodos, sin embargo, asumen algunas ideas a priori sobre los datos analizados, lo que está algo en contradicción con los objetivos de la minería de datos (descubrir conocimiento previamente desconocido, no trivial y útil en la práctica).
Uno de los propósitos más importantes de los métodos de minería de datos es visualizar los resultados de los cálculos (visualización), lo que permite el uso de herramientas de minería de datos por parte de personas que no tienen una formación matemática especial.
La aplicación de métodos estadísticos de análisis de datos requiere un buen conocimiento de la teoría de la probabilidad y las estadísticas matemáticas .
Los métodos de minería de datos (o, lo que es lo mismo, descubrimiento de conocimiento en datos, KDD para abreviar) se encuentran en la intersección de bases de datos , estadísticas e inteligencia artificial [8] .
El campo de la minería de datos comenzó con un seminario realizado por Grigory Pyatetsky-Shapiro en 1989 [1] .
Anteriormente, mientras trabajaba en GTE Labs, Grigory Pyatetsky-Shapiro se interesó por la pregunta: ¿es posible encontrar automáticamente ciertas reglas para acelerar algunas consultas a grandes bases de datos? Al mismo tiempo, se propusieron dos términos: minería de datos ("minería de datos" [9] ) y descubrimiento de conocimiento en datos (que debería traducirse como "descubrimiento de conocimiento en bases de datos").
En 1993, se lanzó la primera lista de correo de Knowledge Discovery Nuggets y, en 1994, se creó uno de los primeros sitios de minería de datos.
Inicialmente, la tarea se establece de la siguiente manera:
Es necesario desarrollar métodos para descubrir el conocimiento oculto en grandes volúmenes de datos iniciales "en bruto". En las condiciones actuales de competencia global, son los patrones encontrados (conocimiento) los que pueden ser una fuente de ventaja competitiva adicional.
¿Qué significa "conocimiento oculto"? Debe ser conocimiento de:
Estos requisitos determinan en gran medida la esencia de los métodos de minería de datos y en qué forma y en qué proporción se utilizan los sistemas de gestión de bases de datos , los métodos de análisis estadístico y los métodos de inteligencia artificial en la tecnología de minería de datos.
Minería de datos y bases de datosLos métodos de minería de datos se pueden aplicar tanto para trabajar con big data como para procesar cantidades relativamente pequeñas de datos (obtenidos, por ejemplo, de los resultados de experimentos individuales o al analizar datos sobre las actividades de la empresa) . Como criterio de cantidad suficiente de datos se considera tanto el campo de estudio como el algoritmo de análisis aplicado. .
El desarrollo de tecnologías de bases de datos primero condujo a la creación de un lenguaje especializado: el lenguaje de consulta de bases de datos. Para las bases de datos relacionales , este es el lenguaje SQL , que brinda amplias oportunidades para crear, modificar y recuperar datos almacenados. Luego surgió la necesidad de obtener información analítica (por ejemplo, información sobre las actividades de una empresa durante un período determinado), y luego resultó que las bases de datos relacionales tradicionales, bien adaptadas, por ejemplo, para mantener registros operativos en una empresa, están mal adaptados para el análisis. Esto, a su vez, condujo a la creación de los llamados. " almacenes de datos ", cuya estructura misma es la mejor manera de realizar un análisis matemático completo.
Minería de datos e inteligencia artificialEl conocimiento obtenido por métodos de minería de datos se suele representar en forma de patrones (patrones) . Estos son:
Los algoritmos para buscar dichos patrones se encuentran en la intersección de áreas: inteligencia artificial, estadística matemática, programación matemática, visualización, OLAP .
Minería de datos y negociosSegún IBM , el procesamiento de "big data" es "la capacidad de usar la información de una manera nueva para generar ideas útiles o crear bienes y servicios de alto valor". Esta definición trata a los big data como un tipo de análisis , ya que trabajar con ellos tiene como objetivo extraer información útil que pueda proporcionar una ventaja competitiva [10] .
Las tareas resueltas por métodos de minería de datos se suelen dividir en descriptivas ( English description ) y predictivas ( English predictive ).
En tareas descriptivas, lo más importante es dar una descripción visual de los patrones ocultos existentes, mientras que en tareas predictivas, la cuestión de la predicción para aquellos casos para los que aún no hay datos está en primer plano.
Las tareas descriptivas incluyen:
Las tareas predictivas incluyen:
Los problemas de clasificación se caracterizan por el " aprendizaje supervisado ", en el que la construcción (entrenamiento) del modelo se realiza sobre una muestra que contiene vectores de entrada y salida.
Para problemas de agrupamiento y asociación se utiliza el “ aprendizaje no supervisado ”, en el que el modelo se construye sobre una muestra que no tiene un parámetro de salida. El valor del parámetro de salida ("se refiere a un grupo...", "parece un vector...") se selecciona automáticamente en el proceso de aprendizaje.
Los problemas de reducción de descripción se caracterizan por la ausencia de división en vectores de entrada y salida . Comenzando con el trabajo clásico de C. Pearson sobre análisis de componentes principales , el enfoque está en la aproximación de datos .
Una serie de etapas de resolución de problemas utilizando métodos de minería de datos:
Antes de utilizar algoritmos de minería de datos, es necesario preparar un conjunto de datos analizados. Dado que IAD solo puede detectar patrones que están presentes en los datos, los datos iniciales, por un lado, deben tener un volumen suficiente para que estos patrones estén presentes en ellos y, por otro lado, ser lo suficientemente compactos para que el análisis se lleve a cabo. un tiempo aceptable. En la mayoría de los casos, los almacenes de datos o los data marts actúan como datos de origen . Se requiere preparación para analizar datos multidimensionales antes del agrupamiento o la extracción de datos.
Luego se filtran los datos. El filtrado elimina muestras con ruido y datos faltantes.
Los datos filtrados se reducen a conjuntos de características (o vectores si el algoritmo solo puede funcionar con vectores de dimensión fija), un conjunto de características por observación. El conjunto de características se forma de acuerdo con las hipótesis sobre qué características de los datos sin procesar tienen un alto poder predictivo en función de la potencia informática requerida para el procesamiento. Por ejemplo, una imagen facial en blanco y negro de 100 × 100 píxeles contiene 10 000 bits de datos sin procesar. Se pueden convertir en un vector de características detectando ojos y bocas en la imagen. Como resultado, hay una reducción en la cantidad de datos de 10 mil bits a una lista de códigos de posición, lo que reduce significativamente la cantidad de datos analizados y, por lo tanto, el tiempo de análisis.
Una serie de algoritmos pueden procesar datos faltantes que tienen poder predictivo (por ejemplo, la ausencia de un determinado tipo de compra por parte de un cliente). Por ejemplo, cuando se utiliza el método de reglas de asociación , no se procesan vectores de características, sino conjuntos de dimensiones variables.
La elección de la función objetivo dependerá de cuál sea el propósito del análisis; elegir la función "correcta" es fundamental para una extracción de datos exitosa.
Las observaciones se dividen en dos categorías: conjunto de entrenamiento y conjunto de prueba. El conjunto de entrenamiento se usa para "entrenar" el algoritmo de minería de datos, y el conjunto de prueba se usa para probar los patrones encontrados.
diccionarios y enciclopedias | |
---|---|
En catálogos bibliográficos |
|
Ingeniería del conocimiento | |
---|---|
Conceptos generales | |
Modelos rígidos | |
Métodos blandos | |
Aplicaciones | |
Almacén de datos | ||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ||||||||||||||
| ||||||||||||||
| ||||||||||||||
Categoría |
Aprendizaje automático y minería de datos | |
---|---|
Tareas | |
Aprendiendo con un maestro | |
análisis de conglomerados | |
Reducción de dimensionalidad | |
Pronóstico estructural | |
Detección de anomalías | |
Graficar modelos probabilísticos | |
Redes neuronales | |
Aprendizaje reforzado |
|
Teoría | |
revistas y congresos |
|