小白的python学习之路！掌握Pandas：Python中的数据分析利器

2023-12-27 15:37:54

前言

Pandas是Python中最流行的数据分析工具之一，它提供了强大的数据结构和功能，使你能够轻松地处理、分析和可视化数据。本文将介绍Pandas的两个主要数据结构：DataFrame和Series，以及一些常见的用例和代码示例。

1. DataFrame：数据的核心

DataFrame是Pandas的核心数据结构，它类似于电子表格或数据库表，由行和列组成。每一列可以包含不同类型的数据，使其非常适合处理结构化数据。

创建DataFrame

你可以从各种数据源创建DataFrame，如CSV文件、Excel文件或手动创建。下面是一个示例，从CSV文件创建DataFrame：

import pandas as pd

# 从CSV文件读取数据
data = pd.read_csv('sales_data.csv')

# 查看前几行数据
print(data.head())

数据操作

DataFrame支持各种数据操作，如数据筛选、合并、分组、排序和汇总。以下是一些示例：

# 选择特定列
product_names = data['Product Name']

# 条件筛选
high_sales = data[data['Sales'] > 1000]

# 分组和汇总
sales_by_category = data.groupby('Category')['Sales'].sum()

# 数据排序
sorted_data = data.sort_values(by='Sales', ascending=False)

2. Series：单一特征的利器

Series是Pandas的另一个重要数据结构，它类似于Python中的列表，但带有索引。通常用于表示单一特征的数据列。

创建Series

下面是一个示例，创建一个销售数量的时间序列：

import pandas as pd

# 创建Series
sales_series = pd.Series([100, 150, 200, 250, 300], 
index=['2023-01-01', 
       '2023-01-02', 
       '2023-01-03', 
       '2023-01-04', 
       '2023-01-05'])

# 查看数据
print(sales_series)

数据操作

Series支持索引、切片、数学运算和统计计算。以下是一些示例：

# 使用索引选择第三天的销售数量
sales_on_day3 = sales_series['2023-01-03']

# 使用切片访问第2到第4天的销售数量
sales_between_day2_and_day4 = sales_series['2023-01-02':'2023-01-04']

# 数学运算，将数据翻两倍
double_sales = sales_series * 2

# 统计计算，计算数据平均值
mean_sales = sales_series.mean()

3. 常用Pandas函数和方法

Pandas库提供了众多函数和方法，用于数据处理和分析。以下是一些常用的函数和方法，以及它们的用法示例。

数据导入和导出

3.1 从CSV文件读取数据

import pandas as pd

# 从CSV文件读取数据
data = pd.read_csv('sales_data.csv')

# 查看前几行数据
print(data.head())

3.2 保存DataFrame为CSV文件

# 将DataFrame保存为CSV文件
data.to_csv('saved_data.csv', index=False)

数据查看和基本信息

3.3 查看前几行数据

# 查看前几行数据
print(data.head())

3.4 显示DataFrame的基本信息

# 显示DataFrame的基本信息
print(data.info())

数据选择和筛选

3.5 选择特定列

# 选择特定列
product_names = data['Product Name']

3.6 条件筛选

# 条件筛选
high_sales = data[data['Sales'] > 1000]

数据处理和变换

3.7 删除行或列

# 删除行或列
data = data.drop(['Column1', 'Column2'], axis=1)  # 删除列
data = data.drop([0, 1, 2], axis=0)  # 删除行

3.8 填充缺失值

# 填充缺失值
data['Column1'].fillna(0, inplace=True)  # 使用0填充Column1列的缺失值

数据计算和统计

3.9 计算平均值

# 计算平均值
mean_sales = data['Sales'].mean()

3.10 数据排序

# 数据排序
sorted_data = data.sort_values(by='Sales', ascending=False)

数据可视化

3.11 绘制数据图表

# 绘制数据图表
data['Sales'].plot(kind='bar', title='Sales Data')

这些是Pandas库中一些常见的函数和方法，用于数据导入、查看、选择、筛选、处理、计算、排序和可视化。这些工具使数据分析和数据处理变得更加高效和便捷。

当涉及到Pandas库的函数和方法时，以下是更多有用的函数和操作，这些函数和方法涵盖了Pandas库的主要功能领域，使你能够进行数据清洗、转换、分析和可视化。

数据聚合和汇总

3.12 使用`groupby`和`agg`进行数据聚合

groupby函数用于分组数据，然后可以使用agg函数应用不同的聚合函数，执行多个聚合操作。这对于生成摘要统计信息非常有用。

# 分组数据并计算不同聚合操作
grouped_data = data.groupby('Category').agg({'Sales': 'sum', 'Profit': 'mean'})

3.13 创建数据透视表

pivot_table函数用于创建数据透视表，用于汇总和聚合数据。它允许你以不同的方式对数据进行交叉分析。

# 创建数据透视表
pivot = data.pivot_table(index='Category', columns='Region', values='Sales', aggfunc='sum')

数据清洗和处理

3.14 删除重复的行

drop_duplicates函数用于删除DataFrame中的重复行。

# 删除重复的行
data = data.drop_duplicates()

3.15 重命名列或索引

rename函数用于重命名DataFrame的列或索引。

# 重命名列
data = data.rename(columns={'old_column_name': 'new_column_name'})

3.16 替换特定值

replace函数用于替换DataFrame中的特定值。

# 替换特定值
data['Column1'].replace(0, 1, inplace=True)  # 将0替换为1

3.17 应用函数到DataFrame的每个元素

applymap函数可用于将函数应用到DataFrame的每个元素。

# 将函数应用到DataFrame的每个元素
data = data.applymap(lambda x: x*2)  # 将每个元素翻倍

数据计算和统计

3.18 计算列的平均值、总和和相关性

Pandas提供了多种计算函数，如mean()、sum()、min()、max()和corr()，用于计算列的平均值、总和、最小值、最大值和相关性等。

# 计算平均值
mean_sales = data['Sales'].mean()

# 计算总和
total_profit = data['Profit'].sum()

# 找到最小值
min_quantity = data['Quantity'].min()

# 找到最大值
max_discount = data['Discount'].max()

# 计算列之间的相关性
correlation = data['Sales'].corr(data['Profit'])

字符串操作

3.19 字符串大写、模式匹配和拆分

Pandas的字符串方法允许你对字符串列执行各种操作，如将字符串转换为大写、执行模式匹配和拆分字符串。

# 将字符串列转换为大写
data['Product Name'] = data['Product Name'].str.upper()

# 检查字符串列中是否包含特定模式
pattern = 'ABC'
contains_pattern = data['Description'].str.contains(pattern)

# 拆分字符串列
data['First Name'], data['Last Name'] = data['Full Name'].str.split(' ', 1).str

时间序列操作

3.20 重新采样和滚动计算

对于时间序列数据，Pandas提供了resample和rolling函数，用于重新采样数据和执行滚动计算。

# 重新采样时间序列数据
daily_data = data.resample('D').sum()

# 执行滚动计算
rolling_mean = data['Sales'].rolling(window=7).mean()

缺失数据处理

3.21 处理缺失数据

Pandas提供了处理缺失数据的函数，如dropna、fillna和interpolate，用于删除、填充或插值缺失值。

# 删除包含缺失值的行或列
data = data.dropna()

# 填充缺失值
data['Column1'].fillna(0, inplace=True)

# 插值填充缺失值
data['Column2'].interpolate(method='linear', inplace=True)

多索引操作

3.22 设置和重置索引

set_index函数用于设置列作为索引，而reset_index函数用于重置索引。

# 设置列作为索引
data = data.set_index('Date')

# 重置索引为空
data = data.reset_index()

结语

Pandas是数据科学家、分析师和工程师的利器，它提供了强大的工具来处理和分析数据。无论你是初学者还是有经验的数据分析师，掌握Pandas都将提高你的数据处理效率。希望本文对你了解Pandas有所帮助，进一步探索和学习Pandas，你将能够更轻松地应对数据分析任务。

本文只是Pandas的入门指南，还有很多高级功能和技巧等待你去发现。博主也会继续学习和实践，后续还会继续分享python相关的内容！

Happy coding!

---------------------------END---------------------------

题外话

在这里插入图片描述

感兴趣的小伙伴，赠送全套Python学习资料，包含面试题、简历资料等具体看下方。

👉CSDN大礼包🎁：全网最全《Python学习资料》免费赠送🆓！（安全链接，放心点击）

一、Python所有方向的学习路线

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。

二、Python兼职渠道推荐*

学的同时助你创收，每天花1-2小时兼职，轻松稿定生活费.
在这里插入图片描述

三、最新Python学习笔记

当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。

四、实战案例

纸上得来终觉浅，要学会跟着视频一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

👉CSDN大礼包🎁：全网最全《Python学习资料》免费赠送🆓！（安全链接，放心点击）

若有侵权，请联系删除

文章来源:https://blog.csdn.net/aobulaien001/article/details/135216950
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！

小白的python学习之路！掌握Pandas：Python中的数据分析利器

前言

1. DataFrame：数据的核心

创建DataFrame

数据操作

2. Series：单一特征的利器

创建Series

数据操作

3. 常用Pandas函数和方法

数据导入和导出

3.1 从CSV文件读取数据

3.2 保存DataFrame为CSV文件

数据查看和基本信息

3.3 查看前几行数据

3.4 显示DataFrame的基本信息

数据选择和筛选

3.5 选择特定列

3.6 条件筛选

数据处理和变换

3.7 删除行或列

3.8 填充缺失值

数据计算和统计

3.9 计算平均值

3.10 数据排序

数据可视化

3.11 绘制数据图表

数据聚合和汇总

3.12 使用groupby和agg进行数据聚合

3.13 创建数据透视表

数据清洗和处理

3.14 删除重复的行

3.15 重命名列或索引

3.16 替换特定值

3.17 应用函数到DataFrame的每个元素

数据计算和统计

3.18 计算列的平均值、总和和相关性

字符串操作

3.19 字符串大写、模式匹配和拆分

时间序列操作

3.20 重新采样和滚动计算

缺失数据处理

3.21 处理缺失数据

多索引操作

3.22 设置和重置索引

结语

题外话

3.12 使用`groupby`和`agg`进行数据聚合