【机器学习前置知识】二项分布
二项分布
在概率论和统计学里,二项分布表示的是 N次独立试验中成功次数 的概率分布。其中的每次独立试验又可称为伯努利试验,伯努利试验是这样的:在每次独立试验中,结果只有成功或失败两种情况,其中成功的概率为 p p p , p ∈ [ 0 , 1 ] p∈[0,1] p∈[0,1] ,失败的概率为 q = 1 ? p q=1-p q=1?p 。
二项分布其实是伯努利分布的扩展,当n=1时,二项分布等价于伯努利分布。二项分布也常用于对N次 有放回 抽样进行建模。
更直观点来说,以抛硬币为例,抛一次硬币会有正面和反面两种结果,这里把出现正面作为实验成功的结果,对于质地均匀的硬币,出现正面和反面的概率应该都是0.5,即 p = 0.5 p=0.5 p=0.5 , q = 0.5 q=0.5 q=0.5 。
假设我们对这枚硬币进行了3次独立实验,现在我们想分别统计在这三次实验中正面出现0次、1次、2次与3次的概率,这其实就是二项分布能解决的问题。
掷3次硬币,所有可能出现的结果有8种:正正正、正正反、正反正、正反反、反正正、反正反、反反正、反反反 ,其中每种结果出现的概率均为 0.5??0.5??0.5=0.125。
我们可以计算出:
- 正面出现0次的结果在8种结果中有1种,概率为 p 0 q 3 p^0q^3 p0q3?? C 3 0 C_{3}^0 C30? = 0.125??1 = 0.125
- 正面出现1次的结果在8种结果中有3种,概率为 p 1 q 2 p^1q^2 p1q2?? C 3 1 C_{3}^1 C31? = 0.125??3 = 0.375
- 正面出现2次的结果在8种结果中有3种,概率为 p 2 q 1 p^2q^1 p2q1?? C 3 2 C_{3}^2 C32? = 0.125??3 = 0.375
- 正面出现3次的结果在8种结果中有1种,概率为 p 3 q 0 p^3q^0 p3q0?? C 3 3 C_{3}^3 C33? = 0.125??1 = 0.125
由上面计算结果可以总结出概率 B i n ( k , n , p ) = C n k p k ( 1 ? p ) n ? k Bin(k,n,p)=C_{n}^kp^k(1-p)^{n-k} Bin(k,n,p)=Cnk?pk(1?p)n?k
其中, n n n 表示抛硬币总次数; p p p 表示正面出现的概率; k k k 表示 n n n 次中出现正面的次数; B i n ( k , n , p ) Bin(k,n,p) Bin(k,n,p) 表示 n n n 次中出现 k k k 次正面的概率,这也是一般二项分布概率质量函数(PMF)的数学表示。
由此可以引出二项分布的公式。设 n n n 是一个正整数,并设 p ∈ [ 0 , 1 ] p∈[0,1] p∈[0,1] 。如果随机变量 X X X 满足:
P ( X = k ) = ( n k ) p k ( 1 ? p ) n ? k ? , ? k = 0 , 1 , . . . , n P(X=k)=\binom{n}{k}p^k(1-p)^{n-k} \ , \ k=0,1,...,n P(X=k)=(kn?)pk(1?p)n?k?,?k=0,1,...,n ,其中 ( n k ) = C n k = n ! k ! ( n ? k ) ! \binom{n}{k}=C_{n}^k={n!\over{k!(n-k)!}} (kn?)=Cnk?=k!(n?k)!n!?
那么称 X X X 服从参数为 n n n 和 p p p 的二项分布,记作 X X X~ B i n ( n , p ) Bin(n,p) Bin(n,p) , X X X 的均值为 n p np np ,方差为 n p ( 1 ? p ) np(1-p) np(1?p) 。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!