Pandas教程(二)—— 不同格式的数据读取
前言:几种常用数据格式的介绍
- csv文件
1.??逗号分隔值文件,以纯文本形式(记事本)存储表格数据
2.? 它是一种平面文件:即只存储数据和文字,不能存储公式、图表等
3.? 更适合存储大数据,一般用来批量一维或二维存储数据
4.? csv、tsv、txt都属于文本文件,只是csv以逗号分隔,tsv以制表符Tab隔开,而txt没有具体要求(逗号、制表符、空格等都可)?
- Excel文件
1.? Excel是一个电子表格,将文件保存为自己的专有格式,即xls或xlsx
2.??Excel是一个二进制文件,它不仅可以存储数据,还可以对数据进行操作
3.? 不适合处理大数据
- JSON数据
1.? JSON是一种轻量级的数据交换格式,用于存储和传输结构化数据
2.? JSON一般存储与Web浏览器中,是一种在各个编程语言中流通的数据格式(类似英语)
3.??JSON 数据的书写格式是键(名称)值对
- XML、HXML格式
1.??XML是一种标记语言,被设计用来传输和存储数据(同JOSH),其焦点是数据的内容
2.??HTML 是超文本标记语言,被设计用来显示数据,其焦点是数据的外观
1.在python中新建文件
文件类型 | 新建方法 |
---|---|
csv和txt(纯文本文件) | pd.to_csv(路径) |
excel | pd.to_excel(路径) |
sql | pd.to_sql(路径) |
?新建文件方法的几个参数:
? ? ? ? sep:分隔符
? ? ? ? na_rep= :? 缺失值标注(默认为空字符串)
? ? ? ? index = :? 是否写入行的标签(默认True)
? ? ? ? header = :是否写入列的标签(默认True)
import pandas as pd
import numpy as np
road = "D:\python code\pycharm\表格.xlsx"
data = pd.DataFrame(np.arange(9).reshape(3, 3))
print(data)
data.to_excel(road,index=False,header=False)
2.读写csv和txt文本文件
?
?
?读写文本文件方法的几个参数:
? ? ? ?
? ? ? ? sep =:文件的分隔符;如果文件中分隔符不止一个,一般输入一个正则表达式 “\s+”
? ? ? ? header = :默认第一行为列名,如果不是,则输入None
? ? ? ? names = :? 指定列名列表,和header搭配使用
? ? ? ? index_col = :? 指定一个列,用作行名(可以输入索引名或索引编号)
? ? ? ? skiprows =:从开头起,需要跳过的行数或行号列表
? ? ? ? nrows =:从文件开头处需要读入的行数
? ? ? ? na_values =:需要用Na替换的值序列
?3.读取Excel文件
? ? ? ?操作基本和文本文件差不多(最好先装好第三方包 xlrd和openpyxl)
import pandas as pd
road = "E:\python 资料\孙兴华 数据分析教程\Pandas课件\课件\pandas教程\课件001-005\读取文件.xlsx"
data = pd.read_excel(road,header= None,
names=["序号","姓名","年龄","手机","地址","日期"],
index_col = 0) #读取文件
print(data)
data.to_excel(road) #保存文件
?
?
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!