Python数据处理 ——展现Pandas 的强大
2024-01-08 01:04:51
一、简介
Pandas是一个基于NumPy的分析结构化数据的工具集,NumPy为其提供了高性能的数据处理能力。Pandas被普遍用于数据挖掘和数据分析,同时也提供数据清洗、数据I/O、数据可视化等辅助功能。Pandas不仅简洁,还拥有出众的数据处理能力和完备的辅助功能。归纳起来,Pandas有以下5大特点。
- 具有极强的自适应能力。无论是Python还是NumPy的数据对象,即使是结构不规则的数据也可以轻松转换为DataFrame。Pandas还可以自动处理缺失数据,类似NumPy的掩码数组。
- NumPy为其提供了快速的数据组织和处理能力。Pandas支持任意增删数据列,支持合并、连接、重塑、透视数据集,支持聚合、转换、切片、花式索引、子集分解等操作。
- 完善的时间序列。Pandas支持日期范围生成、频率转换、移动窗口统计、移动窗口线性回归、日期位移等时间序列功能。
- 拥有全面的I/O工具。Pandas支持读取文本文件(CSV等支持分隔符的文件)、Excel文件、HDF文件、SQL表数据、json数据、html数据,甚至可以直接从url下载并解析数据,也可以将数据保存为CSV文件或Excel文件。
- 对用户友好的显示格式。不管数据复杂程度如何,Pandas展现出的数据结构总是最清晰的,它支持自动对齐对象和标签,必要时也可以忽略标签。
二、Series与 DataFrame的介绍
-
1.1 第一件事,导入所需的扩展库:NumPy 和 Pandas
import numpy as np
print(np.__version__) # 查看NumPy版本
import pandas as pd
print(pd.__version__) # 查看Pandas版本
- 1.2 使用Pandas读取csv文件,了解Pandas的数据结构: DataFrame 和 Series
df = pd.read_csv(r'./data/scores.csv', encoding = 'gbk') # .data
df
- 注:以上代码构建了一个带标签的二维数据表格。总分、学号、性别、操作系统、算法分析与设计、数据仓库与挖掘技术、平均分是每列数据的标签,所有列的标签称为列名;0-19是每一行数据的标签,所有行的标签称为索引。这个带标签的二维数据表格就是Pandas最核心的数据结构DataFrame,所有关于Pandas的操作和技巧几乎都是围绕着DataFrame这个结构进行的。
- Series是由一组同一类型的数据和一组与数据对应的标签(Index)组成的数据结构,这个标签又称为索引,索引是允许重复的。Pandas提供了多种生成Series的方式。简言之,Series就是带标签的一维数组。
- 默认索引是从0开始的整型序列,也可以指定索引。如下所示:
pd.Series([1,2,3]) # 默认索引
pd.Series([1,2,3],index = [2020, 2021, 2022]) #指定索引
pd.Series([1,2,3],index = [2020, 2020, 2022]) #指定索引
文章来源:https://blog.csdn.net/m0_61635017/article/details/135374704
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!