pandas

介绍

pandas是一个Python软件包,提供快速,灵活和富于表现力的数据结构,旨在使结构化(表格,多维,潜在异构)和时间序列数据的处理既简单又直观。

  • 具有异构类型列的表格数据,例如在SQL表或Excel电子表格中
  • 有序和无序(不一定是固定频率)时间序列数据。
  • 具有行和列标签的任意矩阵数据(同类型或异类)
  • 观察/统计数据集的任何其他形式。实际上,数据根本不需要标记即可放入pandas数据结构中

pandas的两个主要数据结构分别是Series(一维)和DataFrame(二维),可处理金融,统计,社会科学以及许多工程领域中的绝大多数典型用例。pandas建立在numpy上,旨在与许多其他第三库很好地集成在科学计算环境中。

  • 轻松处理浮点数据和非浮点数据中的缺失数据(表示为NaN)
  • 大小可变性:可以从DataFrame和更高维的对象中插入和删除
  • 自动和显式的数据对齐:可以将对象显式地对齐到一组标签,或者用户可以简单地忽略标签并让Series,DataFrame等自动为您对齐数据
  • 强大,灵活的分组功能,可对数据集执行拆分应用合并操作,以汇总和转换数据
  • 使它易于转换其他Python和NumPy的数据结构参差不齐,不同索引的数据转换成数据帧对象
  • 基于智能标签的切片花式索引大数据集子集
  • 直观的合并联接数据集
  • 灵活地重塑和旋转数据集
  • 轴的分层标签(每个刻度可能有多个标签)
  • 强大的IO工具,用于从平面文件(CSV和定界),Excel文件,数据库加载数据,以及从超快HDF5格式保存/加载数据
  • 特定于时间序列的功能:日期范围生成和频率转换,移动窗口统计信息,移动窗口线性回归,日期移动和滞后等。

Series

行索引

索引取值

DataFrame

-------------end-------------
0%