Pandas 开源库内提供了 DataFrame。DataFrame 是二维数组式数据表,其中每列包含一个变量的值,每行包含一组每列的值。DataFrame 中存储的数据可以是数字、系数,也可以是字符类型。也可以将 Pandas DataFrame 视作系列对象的词典或集合。
对 R 编程语言熟悉的数据科学家和编程人员都知道,可以使用 DataFrame 将数据存储在易于概述的网格中。这表明 Pandas 主要用于 DataFrame 形式的机器学习。
Pandas 支持导入和导出不同格式的表格数据,如 CSV 或 JSON 文件。
此外,Pandas 还支持各种数据操作运算和数据清理功能,包括选择子集、创建衍生列、排序、连接、填充、替换、汇总统计数据和绘图。
Python 软件包索引(Python 编程语言软件库)的编制者表示,Pandas 非常适合处理多种数据,包括:
- 包含异构类型列的表格数据,如 SQL 表或 Excel 电子表格
- 有序和无序(可能并非固定频率)时间序列数据
- 具有行和列标签的任意矩阵数据(同构类型或异构类型)
其他任何形式的可观察/统计数据集。实际上,数据完全无需标记即可放入 pandas 数据结构中。