Matplotlib数据可视化
绘图基础语法
1 创建画布并且创建子图
首先创建一个空白的画布,并且可以将画布分为几个部分,这样就可以在同一附图上绘制多个图像。
plt.figure? 创建一个空白画布,可以指定画布大小、像素
figure.add_subplot 创建并且选中子图,可以指定子图的行数、列数、和图片的编号
2 添加画布内容
plt.title? 当前图形标题,可以指定标题名称、位置、颜色、字体大小
plt.xlabel 当前图像添加x轴名称
plt.ylabel 当前图形添加y轴名称
plt.xlim 指定当前图形x轴的范围
plt.ylim y轴的范围
plt.xtricks? x轴刻度数目与取值
plt.legend 当前图像的图例
import numpy as np
import matplotlib.pyplot as plt
rad=np.arange(0,np.pi*2,0.01)
p1=plt.figure(figsize=(8,8),dpi=80) #创建画布
#子图
ax1=p1.add_subplot(1,2,1) #2行1列的子图,绘制第一幅
plt.title('lines') #添加标题
plt.xlabel('x') #x轴的名称
plt.ylabel('y') #y轴的名称
plt.xlim((0,1)) #确定x轴的范围
plt.ylim((0,1))
plt.xticks([0,0.2,0.4,0.6,0.8,1]) #x轴的刻度
plt.yticks([0,0.2,0.4,0.6,0.8,1])
plt.plot(rad,rad**2) #添加y=x**2曲线
plt.plot(rad,rad**4) #添加y=x**4曲线
plt.legend(['y=x^2','y=x^4'])
#第二幅子图
ax2=p1.add_subplot(1,2,2)
plt.title('sin/cos')
plt.xlabel('rad')
plt.ylabel('value')
plt.xlim((0,np.pi*2))
plt.ylim((-1,1))
plt.xticks([0,np.pi/2,np.pi*1.5,np.pi*2])
plt.yticks([-1,-0.5,0,0.5,1])
plt.plot(rad,np.sin(rad))
plt.plot(rad,np.cos(rad))
plt.legend(['sin','cos'])
plt.savefig('./sin.png')
plt.show()
散点图和折线图
散点图 又叫做散点分布图,是以一个特征为横坐标,另一个特征为纵坐标,利用坐标点的分布形态反映特征间的统计关系。
散点图可以看出特征之间的关系是线性的还是非线性的,另外可以看出一个点是否偏离大多数点。如果偏离大多数点,则这些点就是离群点。
散点图通过散点的疏密程度和变化趋势表示两个特征的数量关系。
matplotlib.pyplot.scatter(x, y, s=None, c=None, marker=None)
s 表示点的大小,c表示颜色,marker表示点的类型。
折线图是一种将数据点连接起来的图像。折线图主要是用来查看因变量y随着自变量x改变的趋势。
import numpy as np
import matplotlib.pyplot as plt
rad=np.arange(0,np.pi*2,0.01)
p1=plt.figure(figsize=(8,8),dpi=80) #创建画布
#子图
ax1=p1.add_subplot(1,2,1) #2行1列的子图,绘制第一幅
plt.title('lines') #添加标题
plt.xlabel('x') #x轴的名称
plt.ylabel('y') #y轴的名称
plt.xlim((0,1)) #确定x轴的范围
plt.ylim((0,1))
plt.xticks([0,0.2,0.4,0.6,0.8,1]) #x轴的刻度
plt.yticks([0,0.2,0.4,0.6,0.8,1])
plt.plot(rad,rad**2,color='r',linestyle='--') #添加y=x**2曲线
plt.plot(rad,rad**4,color='c',linestyle='-') #添加y=x**4曲线
plt.legend(['y=x^2','y=x^4'])
#第二幅子图
ax2=p1.add_subplot(1,2,2)
rad=np.arange(0,np.pi*2,0.1)
plt.title('sin/cos')
plt.xlabel('rad')
plt.ylabel('value')
plt.xlim((0,np.pi*2))
plt.ylim((-1,1))
plt.xticks([0,np.pi/2,np.pi*1.5,np.pi*2])
plt.yticks([-1,-0.5,0,0.5,1])
plt.scatter(rad,np.sin(rad),marker='v')
plt.scatter(rad,np.cos(rad),marker='o')
plt.legend(['sin','cos'])
plt.savefig('./sin.png')
plt.show()
直方图 饼图 箱线图 用于分析特征内部分布与分散状况
直方图主要用于查看各分组数据的数量分布
饼图用于查看个分组数据在总数据中的占比
箱线图是用于发现整体数据的分散情况
直方图? 用于判断特征的分布
直方图,由一系列高度不等的纵向条纹表示数据分布的情况。一般横轴表示数据所属类别,纵轴表示各个类别的数量或者占比。直方图可以直观的表示数据的分布状态。
import numpy as np
import matplotlib.pyplot as plt
# 生成一组服从正态分布的随机数
data = np.random.randn(1000)
# 可视化分布
plt.hist(data, bins=30, density=True, alpha=0.6, color='g')
# 绘制正态分布的概率密度函数
xmin, xmax = plt.xlim()
x = np.linspace(xmin, xmax, 100)
p = 0.9 * np.exp(-(x - 0) ** 2 / (2 * 0.5 ** 2)) # 正态分布的概率密度函数
plt.plot(x, p, 'k', linewidth=2)
plt.show()
import numpy as np
import matplotlib.pyplot as plt
# 生成一组服从[0, 1]均匀分布的随机数
data = np.random.uniform(0, 1, 1000)
# 可视化分布
plt.hist(data, bins=30, density=True, alpha=0.6, color='g')
plt.show()
?
import numpy as np
import matplotlib.pyplot as plt
# 生成一组服从参数为0.5的指数分布的随机数
data = np.random.exponential(0.5, 1000)
# 可视化分布
plt.hist(data, bins=30, density=True, alpha=0.6, color='g')
plt.show()
import numpy as np
import matplotlib.pyplot as plt
# 生成一组服从参数为5的泊松分布的随机数
data = np.random.poisson(5, 1000)
# 可视化分布
plt.hist(data, bins=30, density=True, alpha=0.6, color='g')
plt.show()
from scipy import stats
import numpy as np
# 生成一组随机数
data = np.random.randn(10000)
# 检测正态分布
stat, p = stats.normaltest(data)
print('Statistics=%.3f, p=%.3f' % (stat, p))
# 如果p值小于显著性水平(例如0.05),则认为数据不服从正态分布
if p < 0.05:
print('Data does not follow normal distribution')
else:
print('Data follows normal distribution')
# 拟合指数分布
loc, scale = stats.expon.fit(data)
print('Exponential distribution parameters: loc=%.3f, scale=%.3f' % (loc, scale))
# 检测指数分布
stat, p = stats.kstest(data, stats.expon(loc=loc, scale=scale).cdf)
print('Statistics=%.3f, p=%.3f' % (stat, p))
# 如果p值小于显著性水平(例如0.05),则认为数据不符合指数分布
if p < 0.05:
print('Data does not follow exponential distribution')
else:
print('Data follows exponential distribution')
知道数据的分布可以更好的理解数据的变化规律,而且可以帮助我们发现数据中的异常值。通过对数据分布的分析可以识别并且处理重复值,缺失值,异常值,提高数据的质量和准确性。
饼图
饼图是将各项的大小和各项总和比例显示在一张图上,饼图可以清楚的反应部分与部分,部分与整体的比例关系。
import matplotlib.pyplot as plt
# 数据
labels = ['A', 'B', 'C', 'D']
sizes = [15, 30, 45, 10]
# 绘制饼图
plt.pie(sizes, labels=labels, autopct='%1.1f%%')
# 显示图形
plt.show()
箱线图? 判断数据的分散程度
箱线图可以用来显示一组数据分散情况的统计图,包含一组数据的最大值、最小值
中位数、和上下四分位数。
箱线图有箱子和边缘构成,其中箱子包含了50%的数据,边缘则代表数据的上四分位数和下四分位数,也就是数据的上边缘和下边缘,各包含了25%的数据。箱子的中间包含了一条线,表示了数据的中位数。
import matplotlib.pyplot as plt
import numpy as np
all_data=[np.random.normal(0,std,100) for std in range(1,4)]
figure,axes=plt.subplots() #得到画板、轴
axes.boxplot(all_data,patch_artist=True) #描点上色
plt.show() #展示
import matplotlib.pyplot as plt
import numpy as np
# 创建数据
data=np.random.normal(0,1,10000)
# 计算上下四分位数和异常值
q1 = np.percentile(data, 25)
q3 = np.percentile(data, 75)
iqr = q3 - q1
lower = q1 - 1.5 * iqr
upper = q3 + 1.5 * iqr
outliers = [x for x in data if x < lower or x > upper]
print('q1',q1)
print('q3',q3)
print('iqr',iqr)
print('lower',lower)
print('upper',upper)
print('outliers',outliers)
print('异常值的个数',len(outliers))
# 绘制箱线图
fig, ax = plt.subplots()
ax.boxplot(data, vert=True, patch_artist=True)
ax.set_title('Box Plot')
ax.set_xlabel('Data')
ax.set_ylabel('Value')
ax.text(0.85, 0.90, 'Outliers: {0}'.format(', '.join(map(str, outliers))), ha='center', va='center')
plt.show()
?
通过箱线图找到异常值?
import matplotlib.pyplot as plt
import numpy as np
# 创建数据
data=np.random.normal(0,1,10000)
# 计算上下四分位数和异常值
q1 = np.percentile(data, 25)
q3 = np.percentile(data, 75)
iqr = q3 - q1
lower = q1 - 1.5 * iqr
upper = q3 + 1.5 * iqr
outliers = [x for x in data if x < lower or x > upper]
print('q1',q1)
print('q3',q3)
print('iqr',iqr)
print('lower',lower)
print('upper',upper)
print('outliers',outliers)
print('异常值的个数',len(outliers))
# 绘制箱线图
fig, ax = plt.subplots()
ax.boxplot(data, vert=True, patch_artist=True)
ax.set_title('Box Plot')
ax.set_xlabel('Data')
ax.set_ylabel('Value')
ax.text(0.85, 0.90, 'Outliers: {0}'.format(', '.join(map(str, outliers))), ha='center', va='center')
# plt.show()
p1=plt.figure()
ax1=p1.add_subplot(1,2,1)
ax1.hist(data,density=True)
print(len(data))
for _ in outliers:
coor=np.where(data==_)
data[coor]=np.nan
# print(coor)
# print(data[coor])
# cord=np.where(data==np.nan)
# print(cord)
data=data[~np.isnan(data)]
print(len(data))
# plt.show()
ax2=p1.add_subplot(1,2,2)
ax2.hist(data,density=True)
plt.show()
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!