Pandas

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 16 de mayo de 2022; la verificación requiere 1 edición .

pandas
Tipo de Biblioteca Python [d] y programa para análisis numérico [d]
Autor Wes McKinney [d] [1]
Desarrollador Wes McKinney [d]
Escrito en Pitón [2]
Sistema operativo multiplataforma
Primera edición 11 de enero de 2008
ultima versión
Licencia BSD
Sitio web pandas.pydata.org
 Archivos multimedia en Wikimedia Commons

pandas  es una biblioteca de análisis y procesamiento de datos de Python . La manipulación de datos de Pandas se basa en la biblioteca NumPy , que es una herramienta de nivel inferior. Proporciona operaciones y estructuras de datos especiales para manipular tablas numéricas y series de tiempo . El nombre de la biblioteca proviene del término econométrico "panel de datos" utilizado para describir conjuntos de información estructurados multidimensionales. pandas se distribuye bajo la nueva licencia BSD .

Alcance

El área principal de aplicación es proporcionar trabajo dentro del entorno de Python no solo para la recopilación y limpieza de datos, sino también para tareas de análisis y modelado de datos, sin cambiar a lenguajes más específicos para el procesamiento estadístico (como R y octava ).

También se está trabajando para implementar tipos de datos categóricos "nativos".

El paquete está destinado principalmente a la limpieza y evaluación primaria de datos sobre indicadores generales, como la media, los cuantiles , etc.; no es un paquete estadístico en el sentido completo, sin embargo, los conjuntos de datos DataFrame y Series se utilizan como entrada en la mayoría de los módulos de aprendizaje automático y análisis de datos ( SciPy , Scikit-Learn y otros).

Características

Las principales características de la biblioteca:

La biblioteca está optimizada para un alto rendimiento, las partes más importantes del código están escritas en Cython y C.

Historia

El desarrollo del paquete comenzó en 2008 por AQR Capital Management [ ] Wes McKinney .  Antes de dejar AQR, logró convencer a la gerencia para que permitiera que el código fuente de la biblioteca se publicara bajo una licencia gratuita.

Otro empleado de AQR, Chang She, se unió al proyecto en 2012 y se convirtió en el segundo desarrollador principal de la biblioteca. Casi al mismo tiempo, la biblioteca ganó popularidad entre los desarrolladores de Python y muchos colaboradores nuevos se unieron al proyecto. [5]

Ejemplos de uso

Curvas

importar pandas como pd importar matplotlib.pyplot como plt importar numpy como np df = pd . DataFrame ( np . aleatorio . randn ( 100 , 5 ), columnas = lista ( 'ABCDE' )) df = df . cumsum () # Devuelve la suma acumulada sobre un DataFrame o Series axis df . trama () plt . mostrar ()

Diagrama

df = pd . DataFrame ( np . aleatorio . rand ( 10 , 5 ), columnas = lista ( 'ABCDE' )) df . trama _ bar ( apilado = Verdadero ) plt . mostrar ()

Calendario

df = pd . DataFrame ( np . aleatorio . rand ( 7 , 5 ), columnas = lista ( 'ABCDE' )) df . trama _ caja () plt . mostrar ()

gráfico de barras

datos = pd . Serie ( np . aleatoria . normal ( tamaño = 100 )) datos . hist ( cuadrícula = Falso ) plt . mostrar ()

Notas

  1. https://wesmckinney.com/pages/about.html
  2. El proyecto de código abierto de py-pandas en Open Hub: página de idiomas - 2006.
  3. Versión 1.5.1 - 2022.
  4. Pandas Reset Index (30 de agosto de 2021). Consultado el 30 de agosto de 2021. Archivado desde el original el 30 de agosto de 2021.
  5. Daniel Chen. Pandas para todos: análisis de datos de Python . - Addison-Wesley Professional, 2017. - ISBN 978-0134546933 . Archivado el 6 de septiembre de 2021 en Wayback Machine .

Literatura

  • McKinney W. Python y análisis de datos = Python para análisis de datos. - Prensa DMK , 2015. - 482 p. - ISBN 978-5-97060-315-4 , 978-1-449-31979-3.
  • Brink H., Richards D., Feverolf M. Aprendizaje automático. - Pedro , 2018. - 336 p. - ISBN 978-5-496-02989-6 .
  • Vander Plas J. Python para tareas complejas. Ciencia de datos y aprendizaje automático = Manual de ciencia de datos de Python: herramientas esenciales para trabajar con datos. - Pedro, 2017. - 576 p. — ISBN 978-5-496-03068-7 .
  • Heidt M. Pandas de aprendizaje = Pandas de aprendizaje. - Prensa DMK, 2018. - 432 p. - ISBN 978-5-97060-625-4 .