Ciencia de los datos

La ciencia de datos ( inglés  data science ; a veces datalogy  - datalogy [1] ) es una sección de la informática que estudia los problemas de análisis , procesamiento y presentación de datos en forma digital. Combina métodos de procesamiento de datos en condiciones de grandes volúmenes y un alto nivel de paralelismo, métodos estadísticos , métodos de minería de datos y aplicaciones de inteligencia artificial para trabajar con datos, así como métodos de diseño y desarrollo de bases de datos .

Considerada como una disciplina académica [2] , y desde principios de la década de 2010, en gran medida debido a la popularización del concepto de " big data " [3] , - y como un campo práctico de actividad intersectorial, además, la especialización de  un datos científico [4] [5] .

Historia

Se considera que el comienzo de la formación de una disciplina dedicada es 1966 , cuando se estableció el Comité de Datos para la Ciencia y la Tecnología (CODATA) [6] , y la primera introducción del término ciencia de datos hace referencia al libro de Peter Naur en 1974, en el que definió explícitamente la ciencia de datos como disciplina, estudiando el ciclo de vida de los datos digitales - desde la aparición hasta la transformación para su presentación en otras áreas de conocimiento [7] (hay una opinión de que Naur usó el término "ciencia de datos" en fines de la década de 1960 [8] ).

Sin embargo, solo en la década de 1990, el término que denota disciplina se volvió ampliamente utilizado [9] [6] , y solo a principios de la década de 2000 se aceptó en general, principalmente debido a un artículo del estadístico de Bell Labs William Cleveland (a partir de 2012 profesor de estadística en la Universidad de Purdue ), en el que publicó un plan para el desarrollo de los aspectos técnicos de la investigación estadística e identificó la ciencia de datos como una disciplina académica separada en la que estos aspectos técnicos deberían concentrarse [10] [11] .

En 2002, el Comité de Datos para la Ciencia y la Tecnología lanzó la publicación de CODATA Data Science Journal, que contiene el nombre de la disciplina en el título, y en enero de 2003, se publicó el primer número de The Journal of Data Science de la Universidad de Columbia . publicado

Otro aumento en el interés generalizado en la ciencia de datos se refiere al surgimiento del paradigma de " grandes datos ", que se centra en nuevas posibilidades tecnológicas para procesar datos de gran volumen y diversidad, incluso mediante la aplicación de métodos desarrollados en la década de 2000 en ciencia de datos. Desde 2011, O'Reilly ha realizado una serie de importantes conferencias sobre ciencia de datos: Strata [12] , EMC ha realizado una cumbre anual sobre ciencia de datos desde 2011 [13] . McKinsey en 2011 predijo una demanda en los Estados Unidos de 440-490 mil nuevos especialistas con "habilidades analíticas profundas para trabajar con big data" para 2018 y una escasez de 50% - 60% en dichos especialistas mientras se mantienen las tendencias educativas [14] , En relación con este pronóstico, se alimentó en gran medida el interés en la creación de planes de estudio [15] .

En 2012, la profesión de científico de datos se destaca repetidamente como una de las más atractivas ( ing.  sexy ) y prometedoras en el mundo moderno, se argumenta que tales especialistas desempeñarán un papel clave en las organizaciones, debido a las oportunidades para obtener ventajas competitivas. mediante análisis, procesamiento rápido y extracción de patrones en datos, principalmente en industrias tecnológicas [16] [5] .

Desde el año académico 2013, la Universidad de Dundee , la Universidad de Auckland , la Universidad del Sur de California han lanzado programas de maestría en ciencia de datos, y la escuela de negocios del Imperial College London ha lanzado un programa para  la preparación de "Masters of Science en Data Science and Management" ( ing.  MSc Data Science & Management ) [17] . Ese mismo año, la Universidad de Washington , la Universidad de California en Berkeley y la Universidad de Nueva York recibieron una subvención de $37,8 millones para avanzar en la ciencia de datos, que, durante cinco años, entre otras cosas, creará planes de estudio y creará oportunidades para un académico. carrera en el campo [18] .

Contenidos

El principal objetivo práctico de la actividad profesional en ciencia de datos es descubrir patrones en los datos [19] , extrayendo conocimiento de los datos de forma generalizada [20] . Para explicar las habilidades requeridas para las actividades en esta área, a menudo se usa el diagrama de Venn [21] , en el que las habilidades requeridas por un especialista se reflejan en la intersección de áreas de experiencia general en la materia ( English  substantive expert ), experiencia práctica en información tecnología ( habilidades de piratería informática ) y conocimientos estadísticos matemáticos [22] .

Como rasgo epistemológico de la disciplina, se señala la prioridad de la aplicabilidad práctica de los resultados, es decir, el éxito de las predicciones, sobre su causalidad, mientras que en las áreas tradicionales de investigación es fundamental explicar la naturaleza del fenómeno [23] . En comparación con la estadística clásica , en los métodos en los que se basa en gran medida la ciencia de datos, implica el estudio de conjuntos heterogéneos supergrandes de información digital y un vínculo inextricable con las tecnologías de la información que proporcionan su procesamiento [24] . En comparación con las actividades en el campo del diseño y trabajo con bases de datos, donde se asume el diseño preliminar de un modelo de datos que refleja la relación del área temática y el estudio posterior de los datos cargados con métodos (aritméticos) relativamente simples, La ciencia de datos asume la confianza en el aparato de estadísticas matemáticas, inteligencia artificial, aprendizaje automático, a menudo sin cargar primero los datos en el modelo. En comparación con la profesión de analista, cuyo objetivo principal es describir fenómenos basados ​​en datos acumulados con herramientas de usuario relativamente simples (como hojas de cálculo o herramientas de clase de Business Intelligence ), el perfil de un científico de datos requiere menos enfoque en el contenido de las áreas temáticas. pero requiere un conocimiento más profundo en estadística matemática, aprendizaje automático, programación y, en general, un nivel educativo superior ( maestría , candidatos a ciencias , doctorado en comparación con licenciaturas y especialistas ) [25] .

Programas académicos

El curso Introducción a la ciencia de datos de la Universidad de Washington , publicado en Coursera , tiene las siguientes secciones [26] :

El bloque de Data Science del Programa de Maestría en Data Science and Management del Imperial College London incluye un curso preparatorio para Estadística Avanzada .  Las siguientes disciplinas están directamente incluidas en el curso de ciencia de datos:

Después de los cursos de ciencia de datos y los conceptos básicos de gestión, el programa ofrece un curso aplicado, dividido en dos corrientes, la gestión de riesgos, la gestión de activos y los instrumentos financieros derivados se incluyen en la corriente financiera y tecnológica, y el  procesamiento de grandes conjuntos de datos se incluye en la consultoría . flujo , análisis de redes, análisis econométrico , aplicaciones en servicios y consultoría, energía , salud , política . [17] 

El programa de la Universidad de Dundee hace hincapié en los " grandes datos ", principalmente en oposición al "procesamiento de hojas de cálculo", y se centra en la extracción de datos, el modelado de bases de datos y almacenamiento , las estadísticas y los lenguajes SQL , MDX , R , Erlang y Java en los que se estudian . el programa , herramientas Hadoop y NoSQL [27] .

Notas

  1. Press, 2012 , El término “ciencia de datos” (junto con “Datalogy”)….
  2. Smith, 2006 .
  3. Dar, 2013 .
  4. Davenport, 2012 .
  5. 1 2 Prensa, 2012 .
  6. 12 Smith , 2006 , pág. 164.
  7. Naur, 1974 , "La ciencia de datos es la ciencia de tratar con datos, una vez que se han establecido, mientras que la relación de los datos con lo que representan se delega a otros campos y ciencias".
  8. Press, 2012 , Peter Naur sugirió por primera vez el término "ciencia de datos" (junto con "Datalogy") a fines de la década de 1960.
  9. Zhuravleva, 2012 , "Según F. D. Smith, la ciencia de datos no tuvo nombre hasta 1990, pero comenzó a desarrollarse a partir de 1966, cuando se estableció el comité interdisciplinario de datos para la ciencia y la tecnología del Consejo Internacional de Ciencias".
  10. Cleveland, 2001 .
  11. Press, 2012 , El término "ciencia de datos"... fue propuesto por William S. Cleveland en 2001 como una nueva disciplina académica, ampliando el campo de la estadística para incorporar "avances en computación con datos".
  12. ↑ Archivo de conferencias pasadas de O'Reilly  . O'Reilly Media (2012). Consultado el 2 de enero de 2013. Archivado desde el original el 26 de enero de 2013.
  13. Simón Piff. Notas de la Cumbre de ciencia de datos: Dar sentido a Big Data  (inglés)  (enlace no disponible) . Documento de un vistazo . IDC (1 de julio de 2012). Fecha de acceso: 8 de diciembre de 2012. Archivado desde el original el 26 de enero de 2013.
  14. Manyika, James et al. Big data: la próxima frontera para la innovación, la competencia y la productividad  (inglés) (PDF). Instituto Global McKinsey, junio de 2011 . McKinsey (9 de agosto de 2011). Consultado el 12 de noviembre de 2011. Archivado desde el original el 11 de diciembre de 2012.
  15. Steven Overly. A medida que crece la demanda de analistas de big data, las escuelas se apresuran a graduar a los estudiantes con las habilidades necesarias  (inglés) . Washington Post (16 de septiembre de 2013). — "Esa demanda se detalló en un informe de junio de 2011 del McKinsey Global Institute". Consultado el 31 de diciembre de 2013. Archivado desde el original el 13 de marzo de 2016.
  16. Davenport, 2012 , "Goldman es un buen ejemplo de un nuevo actor clave en las organizaciones: el 'científico de datos'. Es un profesional de alto rango con la capacitación y la curiosidad para hacer descubrimientos en el mundo de los grandes datos".
  17. 1 2 MSc Data Science & Management  . escuela de negocios Colegio Imperial (1 de enero de 2013). Fecha de acceso: 18 de enero de 2013. Archivado desde el original el 29 de enero de 2013.
  18. ↑ UW, Berkeley, NYU colaboran en una iniciativa de ciencia de datos de 37,8  millones de dólares . Universidad de Washington (12 de noviembre de 2013). Fecha de acceso: 31 de diciembre de 2013. Archivado desde el original el 25 de diciembre de 2013.
  19. Zhukov, 2013 , pág. 5.
  20. Dhar, 2013 , La ciencia de datos es el estudio de la extracción generalizable de conocimiento a partir de datos.
  21. Publicado por primera vez por Drew Conway en 2010
  22. Zhukov, 2013 .
  23. Dhar, 2013 , Un requisito epistémico común para evaluar si el nuevo conocimiento es procesable para la toma de decisiones es su poder predictivo, no solo su capacidad para explicar el pasado.
  24. Dhar, 2013 , La respuesta corta es que la ciencia de datos es diferente de las estadísticas <…> en varios aspectos importantes <…> Para empezar, la materia prima, los "datos", parte de la ciencia de datos, es cada vez más heterogénea y desestructurada: texto, imágenes, video: a menudo emanan de redes con relaciones complejas entre sus entidades <…> la mayoría de los datos generados por humanos y computadoras hoy en día son para consumo de computadoras; es decir, cada vez más las computadoras hacen trabajo de fondo entre sí y toman decisiones automáticamente. Esta escalabilidad en la toma de decisiones se ha hecho posible gracias al big data que sirve como materia prima para la creación de nuevo conocimiento.
  25. Zhukov, 2013 , pág. ocho.
  26. Bill Howe. Introducción a la Ciencia de Datos . Coursera (8 de diciembre de 2012). Consultado el 8 de diciembre de 2012. Archivado desde el original el 5 de noviembre de 2012.
  27. Maestría en Ciencia de Datos  (ing.)  (enlace inaccesible) . Escuela de Informática . Universidad de Dundee (1 de enero de 2013). “Un científico de datos es una persona que se destaca en la manipulación y el análisis de datos, en particular grandes conjuntos de datos que no encajan fácilmente en estructuras tabulares (los llamados “Big Data”)”. Fecha de acceso: 18 de enero de 2013. Archivado desde el original el 22 de enero de 2013.

Literatura