La ciencia de datos ( inglés data science ; a veces datalogy - datalogy [1] ) es una sección de la informática que estudia los problemas de análisis , procesamiento y presentación de datos en forma digital. Combina métodos de procesamiento de datos en condiciones de grandes volúmenes y un alto nivel de paralelismo, métodos estadísticos , métodos de minería de datos y aplicaciones de inteligencia artificial para trabajar con datos, así como métodos de diseño y desarrollo de bases de datos .
Considerada como una disciplina académica [2] , y desde principios de la década de 2010, en gran medida debido a la popularización del concepto de " big data " [3] , - y como un campo práctico de actividad intersectorial, además, la especialización de un datos científico [4] [5] .
Se considera que el comienzo de la formación de una disciplina dedicada es 1966 , cuando se estableció el Comité de Datos para la Ciencia y la Tecnología (CODATA) [6] , y la primera introducción del término ciencia de datos hace referencia al libro de Peter Naur en 1974, en el que definió explícitamente la ciencia de datos como disciplina, estudiando el ciclo de vida de los datos digitales - desde la aparición hasta la transformación para su presentación en otras áreas de conocimiento [7] (hay una opinión de que Naur usó el término "ciencia de datos" en fines de la década de 1960 [8] ).
Sin embargo, solo en la década de 1990, el término que denota disciplina se volvió ampliamente utilizado [9] [6] , y solo a principios de la década de 2000 se aceptó en general, principalmente debido a un artículo del estadístico de Bell Labs William Cleveland (a partir de 2012 profesor de estadística en la Universidad de Purdue ), en el que publicó un plan para el desarrollo de los aspectos técnicos de la investigación estadística e identificó la ciencia de datos como una disciplina académica separada en la que estos aspectos técnicos deberían concentrarse [10] [11] .
En 2002, el Comité de Datos para la Ciencia y la Tecnología lanzó la publicación de CODATA Data Science Journal, que contiene el nombre de la disciplina en el título, y en enero de 2003, se publicó el primer número de The Journal of Data Science de la Universidad de Columbia . publicado
Otro aumento en el interés generalizado en la ciencia de datos se refiere al surgimiento del paradigma de " grandes datos ", que se centra en nuevas posibilidades tecnológicas para procesar datos de gran volumen y diversidad, incluso mediante la aplicación de métodos desarrollados en la década de 2000 en ciencia de datos. Desde 2011, O'Reilly ha realizado una serie de importantes conferencias sobre ciencia de datos: Strata [12] , EMC ha realizado una cumbre anual sobre ciencia de datos desde 2011 [13] . McKinsey en 2011 predijo una demanda en los Estados Unidos de 440-490 mil nuevos especialistas con "habilidades analíticas profundas para trabajar con big data" para 2018 y una escasez de 50% - 60% en dichos especialistas mientras se mantienen las tendencias educativas [14] , En relación con este pronóstico, se alimentó en gran medida el interés en la creación de planes de estudio [15] .
En 2012, la profesión de científico de datos se destaca repetidamente como una de las más atractivas ( ing. sexy ) y prometedoras en el mundo moderno, se argumenta que tales especialistas desempeñarán un papel clave en las organizaciones, debido a las oportunidades para obtener ventajas competitivas. mediante análisis, procesamiento rápido y extracción de patrones en datos, principalmente en industrias tecnológicas [16] [5] .
Desde el año académico 2013, la Universidad de Dundee , la Universidad de Auckland , la Universidad del Sur de California han lanzado programas de maestría en ciencia de datos, y la escuela de negocios del Imperial College London ha lanzado un programa para la preparación de "Masters of Science en Data Science and Management" ( ing. MSc Data Science & Management ) [17] . Ese mismo año, la Universidad de Washington , la Universidad de California en Berkeley y la Universidad de Nueva York recibieron una subvención de $37,8 millones para avanzar en la ciencia de datos, que, durante cinco años, entre otras cosas, creará planes de estudio y creará oportunidades para un académico. carrera en el campo [18] .
El principal objetivo práctico de la actividad profesional en ciencia de datos es descubrir patrones en los datos [19] , extrayendo conocimiento de los datos de forma generalizada [20] . Para explicar las habilidades requeridas para las actividades en esta área, a menudo se usa el diagrama de Venn [21] , en el que las habilidades requeridas por un especialista se reflejan en la intersección de áreas de experiencia general en la materia ( English substantive expert ), experiencia práctica en información tecnología ( habilidades de piratería informática ) y conocimientos estadísticos matemáticos [22] .
Como rasgo epistemológico de la disciplina, se señala la prioridad de la aplicabilidad práctica de los resultados, es decir, el éxito de las predicciones, sobre su causalidad, mientras que en las áreas tradicionales de investigación es fundamental explicar la naturaleza del fenómeno [23] . En comparación con la estadística clásica , en los métodos en los que se basa en gran medida la ciencia de datos, implica el estudio de conjuntos heterogéneos supergrandes de información digital y un vínculo inextricable con las tecnologías de la información que proporcionan su procesamiento [24] . En comparación con las actividades en el campo del diseño y trabajo con bases de datos, donde se asume el diseño preliminar de un modelo de datos que refleja la relación del área temática y el estudio posterior de los datos cargados con métodos (aritméticos) relativamente simples, La ciencia de datos asume la confianza en el aparato de estadísticas matemáticas, inteligencia artificial, aprendizaje automático, a menudo sin cargar primero los datos en el modelo. En comparación con la profesión de analista, cuyo objetivo principal es describir fenómenos basados en datos acumulados con herramientas de usuario relativamente simples (como hojas de cálculo o herramientas de clase de Business Intelligence ), el perfil de un científico de datos requiere menos enfoque en el contenido de las áreas temáticas. pero requiere un conocimiento más profundo en estadística matemática, aprendizaje automático, programación y, en general, un nivel educativo superior ( maestría , candidatos a ciencias , doctorado en comparación con licenciaturas y especialistas ) [25] .
El curso Introducción a la ciencia de datos de la Universidad de Washington , publicado en Coursera , tiene las siguientes secciones [26] :
El bloque de Data Science del Programa de Maestría en Data Science and Management del Imperial College London incluye un curso preparatorio para Estadística Avanzada . Las siguientes disciplinas están directamente incluidas en el curso de ciencia de datos:
Después de los cursos de ciencia de datos y los conceptos básicos de gestión, el programa ofrece un curso aplicado, dividido en dos corrientes, la gestión de riesgos, la gestión de activos y los instrumentos financieros derivados se incluyen en la corriente financiera y tecnológica, y el procesamiento de grandes conjuntos de datos se incluye en la consultoría . flujo , análisis de redes, análisis econométrico , aplicaciones en servicios y consultoría, energía , salud , política . [17]
El programa de la Universidad de Dundee hace hincapié en los " grandes datos ", principalmente en oposición al "procesamiento de hojas de cálculo", y se centra en la extracción de datos, el modelado de bases de datos y almacenamiento , las estadísticas y los lenguajes SQL , MDX , R , Erlang y Java en los que se estudian . el programa , herramientas Hadoop y NoSQL [27] .