做数据分析为何要学统计学（6）——什么问题适合使用卡方检验？

2023-12-13 23:46:10

卡方检验作为一种非常著名的非参数检验方法（不受总体分布因素的限制），在工程试验、临床试验、社会调查等领域被广泛应用。但是也正是因为使用的便捷性，造成时常被误用。本文参阅相关的文献，对卡方检验的适用性进行粗浅的论述。

首先，从技术角度来看，（1）卡方检验的样本涉及的因素（也就是变量）需要两个（含）以上，而且是定性变量（分类变量，定类变量），其值可以是数字，也可以符号，但是即使是数字也不具备数量的含义，只是用于区分。比如性别变量，它的值可以是男或女，也可以是0或1，A或B；（2）其样本数据是由多个因素在不同水平（取值）情况下共同决定的数据，直观上表现为列联表（交互分类表，交叉表），形如下表。

某项产品的地区调查（人）
	北京	上海
满意	600	480
一般	120	150
不满意	80	70

上表涉及的因素（变量）有两个，分别是地区和满意度，其值分别是[北京，上海]和[满意，一般，不满意]。而样本是由两个变量的不同取值作用下的统计数据，可以是总和，也可以是平均数，或者其他统计量。

其次，从应用的角度来看，我们的目的是要进行无差异推断，或者不相关推断（无差异等价于不相关）。比如上述问题可以回答北京、上海两地对该产品的满意度是否无差异，或者说对该产品的满意度是否与上述地区不相关。通过即调用卡方检验函数，获得p=0.00472，在显著性水平0.05下，两地满意度无差异（或与地区不相关）的假设被拒绝。于是我们可以认为“两地对某产品的满意度是有差异的”或“某产品的满意度与地区有相关性”。代码如下：

#chi2_contingency是卡方检验函数
from scipy.stats import chi2_contingency
import numpy as np
#定义样本数据
X= np.array([[600,120,80],[480,150,70]])
chi2_contingency(X)

结果:(10.714285714285714, 0.004714356473549276, 2, array([[576., 144.,  80.],[504., 126.,  70.]]))。这些数值分别为卡方值、p值、自由度和理论值。

还有一种特殊情况，就是样本数据只有一组，也就是说表面上看因素只有一个，这种情况实际是进行“试验值（实际值，经验值）与理论值的无差异”推断。如下例：

进行抛硬币试验，进行七轮，每轮抛20次，数据如下表所示。是否可以认为硬币正面与反面（只有这两种情况）朝上的概率相同。

硬币正面向上的频数
第一轮第二轮第三轮第四轮第五轮第六轮第七轮
8 12 10 7 9 8 9

硬币正面向上的频数
第一轮	第二轮	第三轮	第四轮	第五轮	第六轮	第七轮
8	12	10	7	9	8	9

乍一看，此样本只有一组数据，而结合要解答的问题，实际上还有一组数据，即理论值。该理论值是等概率条件下硬币正面向上的次数，也就是每轮都是10。于是样本就变成了

硬币正面向上的频数
第一轮第二轮第三轮第四轮第五轮第六轮第七轮
8 12 10 7 9 8 9
10 10 10 10 10 10 10

硬币正面向上的频数
第一轮	第二轮	第三轮	第四轮	第五轮	第六轮	第七轮
8	12	10	7	9	8	9
10	10	10	10	10	10	10

通过将上述样本数据带入卡方检验函数，p=0.98928。即在显著性水平0.05下，我们接受“硬币正面与反面朝上的概率相同”这一假设。

再来看一个例子，某餐厅对一年内每周内每天的营业额进行统计（均值），看看营业情况是否存在时间方面的差异，数据如下。

一周的营业额统计（万元）

周一周二周三周四周五周六周日
9 11 6 7 8 15 10

一周的营业额统计（万元）
周一	周二	周三	周四	周五	周六	周日
9	11	6	7	8	15	10

该问题同样是一种“试验值（实际值，经验值）与理论值的无差异”推断问题。只不过理论值的与上例不同。如果我们认为营业额与时间无关，也就意味的每天营业额是相同的，于是理论值将由每天营业额的均值来体现。即样本数据为：

一周的营业额统计（万元）

周一周二周三周四周五周六周日
9 11 6 7 8 15 10
9.42 9.42 9.42 9.42 9.42 9.42 9.42

一周的营业额统计（万元）
周一	周二	周三	周四	周五	周六	周日
9	11	6	7	8	15	10
9.42	9.42	9.42	9.42	9.42	9.42	9.42

通过将上述样本数据带入卡方检验函数，p=0.85073。即在显著性水平0.05下，我们接受“营业额不存在时间方面的差异”这一假设。尽管从表面来看，该结果不太容易被接受，似乎周末营业情况更好，但是放眼总体（更长的时间范围），并不能支持直观感受。

***********************接下来划重点，举一个非常有代表性的误用卡方检验的例子***************

某调查机构调查了不同收入水平话费支出的情况，试图分析收入水平是否与话费支出水平相关。数据如下

收入
3000
4000 5000 6000 7000 8000 10000
话费 90 100 150 180 200 300 400

然后对两组数据进行了卡方检验，p=0.000006。结论：拒绝两者不相关的假设。也就是说收入水平与话费支出水平是相关的。从结果来看是没有问题的，两组数据确实是显著正相关的，其皮尔逊相关系数corr=0.9758。但是从样本数据本身来看，不符合使用卡方检验的适用条件。因为：

（1）收入和话费两个因素不是定性变量，而是定量变量。

（2）样本值也不是两个因素共同确定的数值，而是归属于每个因素本身。

对于此类问题使用相关系数才是合理的。

如果上述调查结果改为不同收入水平和话费支出水平下的用户数量，则可以应用卡方检验。比如数据转换为

3000 4000 5000 6000 7000 8000 10000
<=90 85 30 24 7 18 12 3
90-100 7 100 11 29 12 9 5
100-150 15 20 75 14 10 6 8
150-200 5 4 5 90 19 16 1
200-250 6 9 8 3 50 11 3
250-300 3 16 15 14 15 80 6
>300 2 9 4 19 13 20 90

使用卡方检验后 $1.12896*10^{-300}$ <0.05，于是我们可以拒绝收入水平与话费支出水平不相关的假设，也就是说收入水平会影响（或决定）话费支出水平。

文章来源:https://blog.csdn.net/interbigdata/article/details/134860825
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！

收入	3000	4000	5000	6000	7000	8000	10000
话费	90	100	150	180	200	300	400