Pandas数据结构

2023-12-14 14:30:46

Series

DataFrame和Series是Pandas最基本的两种数据结构

可以把DataFrame看作由Series对象组成的字典，其中key是列名，值是Series ? ? ? ?Series和Python中的列表非常相似，但是它的每个元素的数据类型必须相同

创建 Series 的最简单方法是传入一个Python列表

import pandas as pd
s = pd.Series([ ' banana ' ,42]
print(s)

输出结果
0     banana
1         42
dtype: object

创建Series时，可以通过index参数来指定行索引

s = pd.Series(['Bill Gates','男'],index=['姓名','性别'])


姓名    Bill Gates
性别             男

Series代表一列数据, 需要注意 Pandas里面没有一种数据结构对应行的概念

创建DataFrame

name_list = pd.DataFrame({'姓名':['Tome','Bob'],'职业':['AI工程师','AI架构师'],'年龄':[28,36]})
# 生成三列数据,列索引分别为姓名，职业和年龄

pd.DataFrame() 默认第一个参数放的就是数据
- data 数据
- columns 列名

- index 行索引名行名

pd.DataFrame(data={'职业':['AI工程师','AI架构师'],'年龄':[28,36]},columns=['职业','年龄'],index=['Tome','Bob'])
# 原始行索引为0,1，现在行索引为Tome,Bob

?Series DataFrame 在这里调用的时候, 都是大写的 (Pandas 的API 有些是大写字母开头的)

Series常用属性

1.加载CSV文件

data = pd.read_csv('data/nobel_prizes.csv',index_col='id')

2.使用 DataFrame的loc 属性获取数据集里的一行，就会得到一个Series对象

first_row = data.loc[941]
first_row

3.可以通过 index 和 values属性获取行索引和值

first_row.values  # 获取Series中所有的值, 返回的是np.ndarray对象

first_row.index # 返回Series的行索引

Series的一些属性

Series常用方法

针对数值型的Series，可以进行常见计算

share = data.share
share.mean()         # 计算平均值
share.max()
share.std()          # 计算标准差
share.value_counts() # 统计每个取值在数据集中出现了多少次
share.count()        # 返回有多少非空值
share.describe()     # 一次性计算出 每一列 的关键统计量 平均值, 标准差, 极值, 分位数
movie.head(10)       # 默认取前5条数据

文章来源:https://blog.csdn.net/qq_64685283/article/details/134656920
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！