首页 理论教育生态数据分析与建模:概率分布及正态分布

生态数据分析与建模:概率分布及正态分布

【摘要】:试验结果只能是“非此即彼”构成对立事件,将这种事件构成的总体称为二项总体,其概率分布称为二项分布。显然,二项分布是一种离散型随机变量的概率分布。此外,还有不少随机变量的概率分布在一定条件下以正态分布为其极限分布。关于正态分布的概率计算,我们先从标准正态分布着手。

随机变量(random variable)是在一定范围内随机取值的变量,它的取值由于受到许多随机因素的影响,因而是不可预测的,但是这并不是说随机变量的取值是毫无意义的,其规律性就在于它取值的概率性,也就是说它的取值是服从某种概率分布的,因而我们也可以说随机变量是以一定的概率分布取值的变量。它可能取得的某一个实数值或某一范围的实数值是有相应概率的,这就是所要研究和掌握的规律,这规律称为随机变量的概率分布。

图4-1 随机变量的概率分布

一、二项分布

二项分布是一种离散型随机变量的分布,对于某个性状,常常可以把其资料分为两个类型。试验结果只能是“非此即彼”构成对立事件,将这种事件构成的总体称为二项总体,其概率分布称为二项分布。

二项分布定义如下:

设随机变量x所有可能取的值为零和正整数:0,1,2,…,n,且有

其中p>0,q>0,p+q=1,则称随机变量x服从参数为n和p的二项分布(bino⁃mial distribution),记为x~B(n,p)。

显然,二项分布是一种离散型随机变量的概率分布。参数n称为离散参数,只能取正整数;p是连续参数,它能取0与1之间的任何数值(q由p确定,故不是另一个独立参数)。

二项分布由n和p两个参数决定:

1.当p值较小且n不大时,分布是偏倚的。但随着n的增大,分布逐渐趋于对称,如图4-2所示。

图4-2 n值不同的二项分布比较

2.当p值趋于0.5时,分布趋于对称,如图4-3所示。

图4-3 p值不同的二项分布比较

3.对于固定的n及p,当x增加时,Pn(x)先随之增加并达到其极大值,以后又下降。

此外,在n较大,np、nq较接近时,二项分布接近于正态分布;当n→∞时,二项分布的极限分布是正态分布。

二、泊松分布

泊松分布是二项分布的一种特殊类型,也是一种离散型随机变量的分布,可以用来描述和分析随机发生在单位空间或时间里的稀有事件的概率分布。其分布的概率函数为:

其中,λ为参数,λ=np,x=0,1,2,…

泊松分布的平均数、方差和标准差为:

μ=λ,σ2=λ,σ=

因此,泊松分布的参数λ不但是其分布的平均数μ,而且还是方差σ2。泊松分布记作P(λ),在生物学研究中,有许多小概率事件,其发生概率p往往小于0.1,甚至0.01,对这样的小概率事件,都可以用泊松分布描述其概率分布,作出需要的概率预期。在二项分布中,当p<0.1和np<5时,可用泊松分布来近似。

三、正态分布

正态分布(normal distribution)是一种很重要的连续型随机变量的概率分布。生物现象中有许多变量是服从或近似服从正态分布的。许多统计分析方法都是以正态分布为基础的。此外,还有不少随机变量的概率分布在一定条件下以正态分布为其极限分布。因此在统计学中,正态分布无论在理论研究上还是实际应用中,均占有重要的地位。

1.正态分布的定义。

若连续型随机变量x的概率分布密度函数为

其中μ为平均数,σ2为方差,则称随机变量x服从正态分布,记为x~N(μ,σ2)。相应的概率分布函数为

分布密度曲线如图4-4所示。

图4-4 正态分布密度曲线

2.正态分布的特征。

由(4-5)式和图4-4可以看出正态分布具有以下几个重要特征:

(1)正态分布密度曲线是单峰、对称的悬钟形曲线,对称轴为x=μ。

(2)f(x)在x=μ处达到极大,极大值f(μ)=

(3)f(x)是非负函数,以x轴为渐近线,分布从-∞至+∞。

(4)曲线在x=μ±σ处各有一个拐点,曲线通过拐点时改变弯曲度,即曲线在(-∞,μ-σ)和(μ+σ,+∞)区间上是下凸的,在[μ-σ,μ+σ]区间内是上凸的。

(5)正态分布曲线完全由参数μ和σ来决定。μ是位置参数,如图4-5所示。当σ恒定时,μ愈大,则曲线沿x轴愈向右移动;反之,μ愈小,曲线沿x轴愈向左移动。σ是变异度参数,如图4-6所示。当μ恒定时,σ愈大,表示x的取值愈分散,曲线展开程度越大,曲线越宽矮;σ愈小,x的取值愈集中在μ附近,曲线展开程度越小,曲线越陡高。

图4-5 σ相同而μ不同的三个正态分布

图4-6 μ相同而σ不同的三个正态分布

(6)分布密度曲线与横轴所夹的面积为1,即:

3.标准正态分布。

由上述正态分布的特征可知,正态分布是依赖于参数μ和σ2(或σ)的一簇分布,正态曲线的位置及形态随μ和σ2的不同而不同。这就给研究具体的正态总体带来困难,需将一般的N(μ,σ2)转换为μ=0,σ2=1的正态分布。我们称μ=0,σ2=1的正态分布为标准正态分布(standard normal distribution)。标准正态分布的概率密度函数及分布函数分别记作ψ(u)和Φ(u),由(4-5)式及(4-6)式得:

随机变量u服从标准正态分布,记作u~N(0,1),分布密度曲线如图4-7所示。

图4-7 标准正态分布密度曲线(www.chuimin.cn)

对于任何一个服从正态分布N(μ,σ2)的随机变量x,都可以通过标准化变换:

将其变换为服从标准正态分布的随机变量u。u称为标准正态变量或标准正态离差(standard normal deviate)。

按(4-8)式计算,对不同的u值编成函数表,称为正态分布表,可从正态分布表中查到u在任意一个区间内取值的概率。这就给解决不同μ、σ2的正态分布概率计算问题带来很大方便。

4.正态分布的概率计算。

关于正态分布的概率计算,我们先从标准正态分布着手。这是因为,一方面标准正态分布在正态分布中形式最简单,而且任意正态分布都可化为标准正态分布来计算;另一方面,人们已经根据标准正态分布的分布函数编制成正态分布表见附表2以供直接查用。

(1)标准正态分布的概率计算 设u服从标准正态分布,则u在[u1,u2]内取值的概率为:

而Φ(u1)与Φ(u2)可由正态分布表查得。

正态分布表只对于-4.99≤u<4.99给出了Φ(u)的数值。正态分布表中,u值列在第一列和第一行,第一列列出u的整数部分及小数点后第一位,第一行为u的小数点后第二位数值。例如,u=1.75,1.7放在第一列,0.05放在第一行。在正态分布表中,1.7所在行与0.05所在列相交处的数值为0.959 94,即Φ(1.75)=0.959 94。有时会遇到给定Φ(u)值,例如Φ(u)=0.284,反过来查u值。这只要在附表2中找到与0.284最接近的值0.284 3,对应行的第一列数-0.5,对应列的第一行数值0.07,即相应的u值为u=-0.57,亦即Φ(-0.57)=0.284。如果要求更精确的u值,可用线性插值法计算。

由(4-8)式及正态分布密度曲线可推出下列关系式,再借助正态分布表,便能很方便的计算有关概率:

P(0≤u<u1)=Φ(u1)-0.5

P(u≥u1)=Φ(-u1

P(|u|<u1)=1-2Φ(-u1

P(u1≤u<u2)=Φ(u2)-Φ(u1

关于标准正态分布,以下几种概率应当熟记:

P(-1≤u<1)=0.682 6

P(-2≤u<2)=0.954 5

P(-3≤u<3)=0.997 3

P(-1.96≤u<1.96)=0.95

P(-2.58≤u<2.58)=0.99

图4-8 标准正态分布的三个常用概率

u变量在上述区间以外取值的概率分别为:

P(|u|≥1)=2Φ(-1)=1-P(-1≤u<1)=1-0.682 6=0.317 4

P(|u|≥2)=2Φ(-2)=1-P(-2≤u<2)=1-0.9545=0.045 5

P(|u|≥3)=1-0.997 3=0.002 7

P(|u|≥1.96)=1-0.95=0.05

P(|u|≥2.58)=1-0.99=0.01

(2)一般正态分布的概率计算 正态分布密度曲线和横轴围成的一个区域,其面积为1,这实际上表明了“随机变量x取值在-∞与+∞之间”是一个必然事件,其概率为1。若随机变量x服从正态分布N(μ,σ2),则x的取值落在任意区间[x1,x2)的概率,记作P(x1≤x<x2),等于图4-9中阴影部分曲边梯形面积。即:

对(4-12)式作变换u=(x-μ)/σ,得dx=σdu,故有

其中,

这表明服从正态分布N(μ,σ2)的随机变量x在[x1,x2)内取值的概率,等于服从标准正态分布的随机变量u在[(x1-μ)/σ,(x2-μ)/σ)内取值的概率。因此,计算一般正态分布的概率时,只要将区间的上下限作适当变换(标准化),就可用查标准正态分布的概率表的方法求得概率了。

图4-9 正态分布的概率

关于一般正态分布,以下几个概率(即随机变量x落在平均值μ加减不同倍数标准差σ区间的概率)是经常用到的。

P(μ-σ≤x<μ+σ)=0.6826

P(μ-2σ≤x<μ+2σ)=0.9545

P(μ-3σ≤x<μ+3σ)=0.9973

P(μ-1.96σ≤x<μ+1.96σ)=0.95

P(μ-2.58σ≤x<μ+2.58σ)=0.99

生态统计中,不仅注意随机变量x落在平均数加减不同倍数标准差区间(μkσ,μ+kσ)之内的概率而且也很关心x落在此区间之外的概率。我们把随机变量x落在平均数μ加减不同倍数标准差σ区间之外的概率称为双侧概率(两尾概率),记作α。对应于双侧概率可以求得随机变量x小于μ-kσ或大于μ+kσ的概率,称为单侧概率(一尾概率),记作α/2。例如,x落在(μ-1.96σ,μ+1.96σ)之外的双侧概率为0.05,而单侧概率为0.025。即

P(x<μ-1.96σ)=P(x>μ+1.96σ)=0.025

双侧概率或单侧概率如图4-10所示。x落在(μ-2.58σ,μ+2.58σ)之外的双侧概率为0.01,而单侧概率为0.005。

P(x<μ-2.58σ)=P(x>μ+2.58σ)=0.005

4-10 双侧概率与单侧概率

前面讨论的三个重要的概率分布中,后一个属连续型随机变量的概率分布,前两个属离散型随机变量的概率分布。三者间的关系如下:

对于二项分布,在n→∞,p→0,且n p=λ(较小常数)情况下,二项分布趋于泊松分布。在这种场合,泊松分布中的参数λ用二项分布的n p代之;在n→∞,p→0.5时,二项分布趋于正态分布。在这种场合,正态分布中的μ、σ2用二项分布的n p、n pq代之。在实际计算中,当p<0.1且n很大时,二项分布可由泊松分布近似;当p>0.1且n很大时,二项分布可由正态分布近似。

对于泊松分布,当λ→∞时,泊松分布以正态分布为极限。在实际计算中,当λ≥20(也有人认为λ≥6)时,用泊松分布中的λ代替正态分布中的μ及σ2,即可由后者对前者进行近似计算。