Fusión de datos

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 14 de febrero de 2019; las comprobaciones requieren 13 ediciones .
Fusión de datos
Desarrollador S.V.Chekanov _
Escrito en Java
Sistema operativo Unix , Linux , OS X , Microsoft Windows
Primera edición 2005 (nombre inicial JHepWork)
plataforma de hardware máquina virtual de Java
ultima versión 2.4 (febrero de 2019)
Licencia Código abierto (LGPL, GPL y similares)
Sitio web jwork.org/dmelt/

DataMelt (o DMelt para abreviar ) es un programa gratuito para computación científica [1] [2] . DataMelt es un entorno interactivo para computación, análisis y visualización de datos y aprendizaje automático. El programa DataMelt está diseñado para científicos, ingenieros y estudiantes. DataMelt es multiplataforma porque está escrito en Java , por lo que se ejecuta en cualquier sistema operativo donde se pueda instalar una máquina virtual Java. El programa está diseñado para análisis de datos estadísticos, ajuste de curvas, algoritmos de análisis de datos, cálculos numéricos, aprendizaje automático y trazado en 2D y 3D. DataMelt utiliza lenguajes de programación de alto nivel como Jython , JRuby . Java también se puede utilizar para llamar a las bibliotecas gráficas y numéricas de DataMelt.

Historial de creación

DataMelt tiene su origen en la física de partículas , donde la minería de datos es la principal preocupación. Fue creado como un proyecto jHepWork en 2005 y originalmente fue escrito para el análisis de datos para físicos de partículas en el laboratorio DESY en Alemania. Posteriormente se mejoró en el Laboratorio Nacional de Argonne para la investigación de física de partículas [3] utilizando el concepto de software Java para el proyecto International Linear Collider , desarrollado en SLAC . Las versiones posteriores de jHepWork se han modificado para uso general (científicos, ingenieros, estudiantes con fines educativos) desde que se detuvo el proyecto International Linear Collider. En 2013, jHepWork pasó a llamarse DataMelt y se convirtió en un proyecto de propósito general respaldado por la comunidad. La principal fuente de referencia es el libro Analyzing Scientific Data Using Jython Scripting and Java. [4] que analiza las técnicas de análisis de datos utilizando scripts de Java y Jython . Esto también se discutió más tarde en la revista Java alemana SPEKTRUM. [5] . La cadena "HEP" en el nombre del proyecto "jHepWork" es la abreviatura de "Física de alta energía". Pero debido a su gran popularidad fuera de esta área de la física, ha sido rebautizado como SCaViS ( entorno informático 'C' científico ' S' y entorno de uso 'Vis' ). Este proyecto duró 3 años antes de ser renombrado DataMelt (o DMelt para abreviar).

Plataformas soportadas

DataMelt se ejecuta en las plataformas Windows, Linux, Mac y Android . El paquete de Android se llama AWork.

Reseñas

DataMelt y sus versiones anteriores, SCaVis (2013-2015) y JHepWork (2005-2013), que aún están disponibles en el repositorio de archivos de DataMelt , se analizan en estos artículos: [6] [7] [8] [9] El programa se comparó con otros programas similares en estos recursos [10] [11] [12] .

DataMelt (2015-), es un nuevo desarrollo de los programas JHepWork y SCaVis. Estos recursos comparan DataMelt con otros paquetes populares de análisis numérico y estadístico. [13] [14] [15] [16] . Según revisiones más recientes de artículos y blogs en línea, DataMelt es uno de los programas de análisis de datos más populares [17] [18] . .

Código de ejemplo

Aquí hay un ejemplo de cómo mostrar histogramas 2D leyendo un archivo CVS descargado del sitio web del Banco Mundial .

desde jhplot.io.csv importar * desde java.io importar * desde jhplot importar * d = {} lector = CSVReader ( FileReader ( "ny.gdp.pcap.cd_Indicator_en_csv_v2.csv" )); while True : nextLine = lector . readNext () si nextLine es None : break xlen = len ( nextLine ) if xlen < 50 : continue d [ nextLine [ 0 ]] = float ( nextLine [ xlen - 2 ]) # clave=país, valor=DGP c1 = GráficoH ( "2013" , 800 , 400 ) #c1.setGTitle("2013 Producto interno bruto per cápita") c1 . visible () c1 . setChartBar () c1 . setNameY ( "US$ actuales" ) c1 . establecerNombreX ( "" ) c1 . setName ( "Producto interno bruto per cápita de 2013" ) name1 = "Fuente de datos: Indicadores de desarrollo mundial" set_value = nombre lambda : c1 . valueBar ( d [ nombre ], nombre , nombre1 ) set_value ( nombre = "Rusia" ) set_value ( name = "Polonia" ) set_value ( name = "Rumanía" ) set_value ( name = "Bulgaria" ) set_value ( name = "Bielorrusia" ) set_value ( name = "Ucrania" ) c1 . actualizar ()

Cuando se ejecuta este script, el histograma se muestra en una ventana separada. La imagen se puede guardar en varios formatos.

Aquí hay otro ejemplo simple que ilustra cómo llenar un gráfico de barras 2D y mostrarlo en un lienzo. La secuencia de comandos también crea una forma de PDF . Esta secuencia de comandos ilustra cómo unir y mezclar clases Java nativas (del paquete java.util) y clases DataMelt (del paquete jhplot) dentro de una secuencia de comandos escrita con la sintaxis de Python.

desde java.util import Aleatorio desde jhplot import * c1 = HPlot3D ( "Lienzo" ) # crear un lienzo interactivo c1 . setGTitle ( "Título global" ) c1 . establecerNombreX ( "X" ) c1 . establecerNombreY ( "Y" ) c1 . visible () c1 . establecer rango automático () h1 = H2D ( "histograma 2D" , 25 , - 3,0 , 3,0 , 25 , - 3,0 , 3,0 ) rand = aleatorio () para i en el rango ( 200 ): h1 . relleno ( rand . nextGaussian (), rand . nextGaussian ()) c1 . dibujar ( h1 ) c1 . exportar ( "jhplot3d.eps" ) # exportar a gráficos vectoriales EPS

Este script se puede ejecutar con el IDE de DataMelt o con Jython independiente después de especificar el classpath para las bibliotecas de DataMelt.

Notas

  1. Computación numérica y análisis de datos estadísticos en la plataforma Java. S. V. Chekanov, Libro. Springer, (2016) ISBN 978-3-319-28531-3 , 700 páginas, [1] Archivado el 14 de abril de 2019 en Wayback Machine .
  2. DataMelt: entorno de computación y visualización libre. Por Moaaz Aldesoky. medevel.com. [2] Archivado el 9 de agosto de 2019 en Wayback Machine .
  3. Análisis de datos HEP con jHepWork y Java, arXiv: 0809.0840v2, Preprint ANL-HEP-CP-08-53. Preimpresión del CERN, arXiv: 0809.0840v2 Archivado el 19 de noviembre de 2018 en Wayback Machine .
  4. Análisis de datos científicos usando Jython Scripting y Java. Libro. SV Chekanov (SVChekanov), Springer-Verlag, ISBN 978-1-84996-286-5 , [3] Archivado el 14 de abril de 2019 en Wayback Machine .
  5. ScaVis - Werkbank para quienes desarrollan aplicaciones para Java y Jython. Roe Klaus. ESPECTRO JAVA. (en alemán), volumen 5 (2013) 26-28 [4] Archivado el 6 de junio de 2019 en Wayback Machine .
  6. Análisis de datos y minería de datos usando Java, Jython y jHepWork Blog. 2010. Oracle.com. [5] Archivado el 6 de junio de 2019 en Wayback Machine .
  7. SCaVis - Werkbank für technisch-wissenschaftliche Berechnungen und Visualisierungen mit Java und Jython. de Rohe Klaus. SPEKTRUM de Java. (en alemán) volumen 5 (2013) 26-28 [6] Archivado el 6 de junio de 2019 en Wayback Machine .
  8. Análisis de datos HEP usando jHepWork y Java. Actas de los talleres HERA-LHC (2007-2008), DESY-CERN [7] Archivado el 19 de noviembre de 2018 en Wayback Machine .
  9. Análisis de idoneidad de herramientas y métodos de minería de datos. [8] . S. Kovac, tesis de licenciatura (en inglés), jHepWork se revisa en la página 39-42, Universidad de Masaryk.
  10. Una revisión: estudio comparativo de diversas colecciones de herramientas de minería de datos. Por S. Sarumathi, N. Shanthi, S. Vidhya, M. Sharmila. Revista internacional de ingeniería informática, de control, cuántica e informática. 2014; 8(6). 7.
  11. Un estudio de herramientas, técnicas y tendencias para el análisis de Big Data. Por R. Shireesha et al. (2016) Revista internacional de técnicas y aplicaciones informáticas avanzadas (IJACTA), ISSN: 2321-4546, Vol 4, Número 1 [9] Archivado el 31 de marzo de 2019 en Wayback Machine .
  12. Comparación de varias herramientas para minería de datos. Por P.Kaur, etc. IJERT ISSN: 2278-0181 vol. 3 Número 10 (2010) [10] Archivado el 8 de mayo de 2018 en Wayback Machine .
  13. Análisis comparativo de técnicas de extracción de información para minería de datos, por Amit Verma et al. Indian Journal of Science and Technology, Vol 9, marzo de 2016 [11] Archivado el 20 de julio de 2018 en Wayback Machine .
  14. Breve reseña de aplicaciones educativas usando minería de datos y aprendizaje automático, [12] Archivado el 8 de mayo de 2018 en Wayback Machine , por A. Berenice Urbina Nájera, Jorgede la Calleja Mora, Redie ISSN 1607-4041. Revista Electrónica de Investigación Educativa, 19(4), 84-96
  15. Análisis de datos usando la herramienta de minería de datos Orange. Maqsud S. Kukasvadiya et. Alabama. [13] Archivado el 9 de mayo de 2018 en Wayback Machine (2017) IJEDR, Volumen 5, Número 2, ISSN: 2321-9939
  16. Big Data: una encuesta sobre las tecnologías de Big Data. Por P.Dhavalchandra, M.Jignasu, R.Amit. Revista Internacional de Ciencia y Tecnología. Volumen 2, p45-50 (2016) [14] Archivado el 8 de mayo de 2018 en Wayback Machine .
  17. Popularidad de los programas de software para ciencia de datos usando revisiones recientes, Artículo (septiembre de 2018), T.Smalzer (recuperado en 2019), [15] Archivado el 29 de julio de 2019 en Wayback Machine .
  18. Evaluación y comparación de conjuntos de software de código abierto para la extracción de datos y descubrimiento de conocimiento, por Abdulrahman H. Altalhi, JM Luna, MA Vallejo, S. Ventura, Wires/Willey, DOI: 10.1002/widm.1204 (2017), [16] Archivado el 31 de mayo de 2019 en Wayback Machine .

Enlaces