Pandas

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 16 de mayo de 2022; la verificación requiere 1 edición .

pandas


Tipo de	Biblioteca Python [d] y programa para análisis numérico [d]
Autor	Wes McKinney [d] [1]
Desarrollador	Wes McKinney [d]
Escrito en	Pitón [2]
Sistema operativo	multiplataforma
Primera edición	11 de enero de 2008
ultima versión	1.5.1 ( 19 de octubre de 2022 ) [3]
Licencia	BSD
Sitio web	pandas.pydata.org _
Archivos multimedia en Wikimedia Commons

pandas es una biblioteca de análisis y procesamiento de datos de Python . La manipulación de datos de Pandas se basa en la biblioteca NumPy , que es una herramienta de nivel inferior. Proporciona operaciones y estructuras de datos especiales para manipular tablas numéricas y series de tiempo . El nombre de la biblioteca proviene del término econométrico "panel de datos" utilizado para describir conjuntos de información estructurados multidimensionales. pandas se distribuye bajo la nueva licencia BSD .

Alcance

El área principal de aplicación es proporcionar trabajo dentro del entorno de Python no solo para la recopilación y limpieza de datos, sino también para tareas de análisis y modelado de datos, sin cambiar a lenguajes más específicos para el procesamiento estadístico (como R y octava ).

También se está trabajando para implementar tipos de datos categóricos "nativos".

El paquete está destinado principalmente a la limpieza y evaluación primaria de datos sobre indicadores generales, como la media, los cuantiles , etc.; no es un paquete estadístico en el sentido completo, sin embargo, los conjuntos de datos DataFrame y Series se utilizan como entrada en la mayoría de los módulos de aprendizaje automático y análisis de datos ( SciPy , Scikit-Learn y otros).

Características

Las principales características de la biblioteca:

Objeto DataFrame para manipular matrices indexadas de datos bidimensionales [4]
Herramientas para intercambiar datos entre estructuras en memoria y archivos de varios formatos.
Herramientas integradas de fusión de datos y formas de manejar la información faltante
Reformateo de conjuntos de datos, incluida la creación de tablas dinámicas
División de datos por valores de índice, opciones de indexación avanzadas, muestreo de grandes conjuntos de datos
Inserción y eliminación de columnas de datos
Las capacidades de agrupación le permiten realizar operaciones de tres etapas, como "dividir, cambiar, fusionar" ( ing. split-apply-combine ).
Fusionar y fusionar conjuntos de datos
La indexación jerárquica le permite trabajar con datos de alta dimensión en estructuras de menor dimensión
Trabajar con series de tiempo: formar períodos de tiempo y cambiar intervalos, etc.

La biblioteca está optimizada para un alto rendimiento, las partes más importantes del código están escritas en Cython y C.

Historia

El desarrollo del paquete comenzó en 2008 por AQR Capital Management [ ] Wes McKinney . Antes de dejar AQR, logró convencer a la gerencia para que permitiera que el código fuente de la biblioteca se publicara bajo una licencia gratuita.

Otro empleado de AQR, Chang She, se unió al proyecto en 2012 y se convirtió en el segundo desarrollador principal de la biblioteca. Casi al mismo tiempo, la biblioteca ganó popularidad entre los desarrolladores de Python y muchos colaboradores nuevos se unieron al proyecto. [5]

Ejemplos de uso

Curvas

importar pandas como pd importar matplotlib.pyplot como plt importar numpy como np df = pd . DataFrame ( np . aleatorio . randn ( 100 , 5 ), columnas = lista ( 'ABCDE' )) df = df . cumsum () # Devuelve la suma acumulada sobre un DataFrame o Series axis df . trama () plt . mostrar ()

Diagrama

df = pd . DataFrame ( np . aleatorio . rand ( 10 , 5 ), columnas = lista ( 'ABCDE' )) df . trama _ bar ( apilado = Verdadero ) plt . mostrar ()

Calendario

df = pd . DataFrame ( np . aleatorio . rand ( 7 , 5 ), columnas = lista ( 'ABCDE' )) df . trama _ caja () plt . mostrar ()

gráfico de barras

datos = pd . Serie ( np . aleatoria . normal ( tamaño = 100 )) datos . hist ( cuadrícula = Falso ) plt . mostrar ()

Notas

↑ https://wesmckinney.com/pages/about.html
↑ El proyecto de código abierto de py-pandas en Open Hub: página de idiomas - 2006.
↑ Versión 1.5.1 - 2022.
↑ Pandas Reset Index (30 de agosto de 2021). Consultado el 30 de agosto de 2021. Archivado desde el original el 30 de agosto de 2021. (indefinido)
↑ Daniel Chen. Pandas para todos: análisis de datos de Python . - Addison-Wesley Professional, 2017. - ISBN 978-0134546933 . Archivado el 6 de septiembre de 2021 en Wayback Machine .

Literatura

McKinney W. Python y análisis de datos = Python para análisis de datos. - Prensa DMK , 2015. - 482 p. - ISBN 978-5-97060-315-4 , 978-1-449-31979-3.
Brink H., Richards D., Feverolf M. Aprendizaje automático. - Pedro , 2018. - 336 p. - ISBN 978-5-496-02989-6 .
Vander Plas J. Python para tareas complejas. Ciencia de datos y aprendizaje automático = Manual de ciencia de datos de Python: herramientas esenciales para trabajar con datos. - Pedro, 2017. - 576 p. — ISBN 978-5-496-03068-7 .
Heidt M. Pandas de aprendizaje = Pandas de aprendizaje. - Prensa DMK, 2018. - 432 p. - ISBN 978-5-97060-625-4 .

Pitón
Comunidad	guido van rossum Fundación de software de Python
Implementaciones	CPython IronPython Jython micropitón PyPy Python sin pila Más lejos...
Otro	pypi Biblioteca estándar de Python Licencia de Python