t分布的平均数和标准差为:t分布密度曲线如图5-1所示,其特点是:图5-1不同自由度的t分布密度曲线1.t分布受自由度的制约,每一个自由度都有一条t分布密度曲线。2.t分布密度曲线以纵轴为对称轴,左右对称,且在t=0时,分布密度函数取得最大值。3.与标准正态分布密度曲线相比,t分布密度曲线顶部略低,两尾部稍高而平。对于不同自由度下t分布的两尾概率及其对应的临界t值已编制成附表2,即t分布表。......
2023-11-17
随机变量(random variable)是在一定范围内随机取值的变量,它的取值由于受到许多随机因素的影响,因而是不可预测的,但是这并不是说随机变量的取值是毫无意义的,其规律性就在于它取值的概率性,也就是说它的取值是服从某种概率分布的,因而我们也可以说随机变量是以一定的概率分布取值的变量。它可能取得的某一个实数值或某一范围的实数值是有相应概率的,这就是所要研究和掌握的规律,这规律称为随机变量的概率分布。
图4-1 随机变量的概率分布
一、二项分布
二项分布是一种离散型随机变量的分布,对于某个性状,常常可以把其资料分为两个类型。试验结果只能是“非此即彼”构成对立事件,将这种事件构成的总体称为二项总体,其概率分布称为二项分布。
二项分布定义如下:
设随机变量x所有可能取的值为零和正整数:0,1,2,…,n,且有
其中p>0,q>0,p+q=1,则称随机变量x服从参数为n和p的二项分布(bino⁃mial distribution),记为x~B(n,p)。
显然,二项分布是一种离散型随机变量的概率分布。参数n称为离散参数,只能取正整数;p是连续参数,它能取0与1之间的任何数值(q由p确定,故不是另一个独立参数)。
二项分布由n和p两个参数决定:
1.当p值较小且n不大时,分布是偏倚的。但随着n的增大,分布逐渐趋于对称,如图4-2所示。
图4-2 n值不同的二项分布比较
2.当p值趋于0.5时,分布趋于对称,如图4-3所示。
图4-3 p值不同的二项分布比较
3.对于固定的n及p,当x增加时,Pn(x)先随之增加并达到其极大值,以后又下降。
此外,在n较大,np、nq较接近时,二项分布接近于正态分布;当n→∞时,二项分布的极限分布是正态分布。
二、泊松分布
泊松分布是二项分布的一种特殊类型,也是一种离散型随机变量的分布,可以用来描述和分析随机发生在单位空间或时间里的稀有事件的概率分布。其分布的概率函数为:
其中,λ为参数,λ=np,x=0,1,2,…
泊松分布的平均数、方差和标准差为:
μ=λ,σ2=λ,σ=;
因此,泊松分布的参数λ不但是其分布的平均数μ,而且还是方差σ2。泊松分布记作P(λ),在生物学研究中,有许多小概率事件,其发生概率p往往小于0.1,甚至0.01,对这样的小概率事件,都可以用泊松分布描述其概率分布,作出需要的概率预期。在二项分布中,当p<0.1和np<5时,可用泊松分布来近似。
三、正态分布
正态分布(normal distribution)是一种很重要的连续型随机变量的概率分布。生物现象中有许多变量是服从或近似服从正态分布的。许多统计分析方法都是以正态分布为基础的。此外,还有不少随机变量的概率分布在一定条件下以正态分布为其极限分布。因此在统计学中,正态分布无论在理论研究上还是实际应用中,均占有重要的地位。
1.正态分布的定义。
若连续型随机变量x的概率分布密度函数为
其中μ为平均数,σ2为方差,则称随机变量x服从正态分布,记为x~N(μ,σ2)。相应的概率分布函数为
分布密度曲线如图4-4所示。
图4-4 正态分布密度曲线
2.正态分布的特征。
由(4-5)式和图4-4可以看出正态分布具有以下几个重要特征:
(1)正态分布密度曲线是单峰、对称的悬钟形曲线,对称轴为x=μ。
(2)f(x)在x=μ处达到极大,极大值f(μ)=。
(3)f(x)是非负函数,以x轴为渐近线,分布从-∞至+∞。
(4)曲线在x=μ±σ处各有一个拐点,曲线通过拐点时改变弯曲度,即曲线在(-∞,μ-σ)和(μ+σ,+∞)区间上是下凸的,在[μ-σ,μ+σ]区间内是上凸的。
(5)正态分布曲线完全由参数μ和σ来决定。μ是位置参数,如图4-5所示。当σ恒定时,μ愈大,则曲线沿x轴愈向右移动;反之,μ愈小,曲线沿x轴愈向左移动。σ是变异度参数,如图4-6所示。当μ恒定时,σ愈大,表示x的取值愈分散,曲线展开程度越大,曲线越宽矮;σ愈小,x的取值愈集中在μ附近,曲线展开程度越小,曲线越陡高。
图4-5 σ相同而μ不同的三个正态分布
图4-6 μ相同而σ不同的三个正态分布
(6)分布密度曲线与横轴所夹的面积为1,即:
3.标准正态分布。
由上述正态分布的特征可知,正态分布是依赖于参数μ和σ2(或σ)的一簇分布,正态曲线的位置及形态随μ和σ2的不同而不同。这就给研究具体的正态总体带来困难,需将一般的N(μ,σ2)转换为μ=0,σ2=1的正态分布。我们称μ=0,σ2=1的正态分布为标准正态分布(standard normal distribution)。标准正态分布的概率密度函数及分布函数分别记作ψ(u)和Φ(u),由(4-5)式及(4-6)式得:
随机变量u服从标准正态分布,记作u~N(0,1),分布密度曲线如图4-7所示。
图4-7 标准正态分布密度曲线(www.chuimin.cn)
对于任何一个服从正态分布N(μ,σ2)的随机变量x,都可以通过标准化变换:
将其变换为服从标准正态分布的随机变量u。u称为标准正态变量或标准正态离差(standard normal deviate)。
按(4-8)式计算,对不同的u值编成函数表,称为正态分布表,可从正态分布表中查到u在任意一个区间内取值的概率。这就给解决不同μ、σ2的正态分布概率计算问题带来很大方便。
4.正态分布的概率计算。
关于正态分布的概率计算,我们先从标准正态分布着手。这是因为,一方面标准正态分布在正态分布中形式最简单,而且任意正态分布都可化为标准正态分布来计算;另一方面,人们已经根据标准正态分布的分布函数编制成正态分布表见附表2以供直接查用。
(1)标准正态分布的概率计算 设u服从标准正态分布,则u在[u1,u2]内取值的概率为:
而Φ(u1)与Φ(u2)可由正态分布表查得。
正态分布表只对于-4.99≤u<4.99给出了Φ(u)的数值。正态分布表中,u值列在第一列和第一行,第一列列出u的整数部分及小数点后第一位,第一行为u的小数点后第二位数值。例如,u=1.75,1.7放在第一列,0.05放在第一行。在正态分布表中,1.7所在行与0.05所在列相交处的数值为0.959 94,即Φ(1.75)=0.959 94。有时会遇到给定Φ(u)值,例如Φ(u)=0.284,反过来查u值。这只要在附表2中找到与0.284最接近的值0.284 3,对应行的第一列数-0.5,对应列的第一行数值0.07,即相应的u值为u=-0.57,亦即Φ(-0.57)=0.284。如果要求更精确的u值,可用线性插值法计算。
由(4-8)式及正态分布密度曲线可推出下列关系式,再借助正态分布表,便能很方便的计算有关概率:
P(0≤u<u1)=Φ(u1)-0.5
P(u≥u1)=Φ(-u1)
P(|u|<u1)=1-2Φ(-u1)
P(u1≤u<u2)=Φ(u2)-Φ(u1)
关于标准正态分布,以下几种概率应当熟记:
P(-1≤u<1)=0.682 6
P(-2≤u<2)=0.954 5
P(-3≤u<3)=0.997 3
P(-1.96≤u<1.96)=0.95
P(-2.58≤u<2.58)=0.99
图4-8 标准正态分布的三个常用概率
u变量在上述区间以外取值的概率分别为:
P(|u|≥1)=2Φ(-1)=1-P(-1≤u<1)=1-0.682 6=0.317 4
P(|u|≥2)=2Φ(-2)=1-P(-2≤u<2)=1-0.9545=0.045 5
P(|u|≥3)=1-0.997 3=0.002 7
P(|u|≥1.96)=1-0.95=0.05
P(|u|≥2.58)=1-0.99=0.01
(2)一般正态分布的概率计算 正态分布密度曲线和横轴围成的一个区域,其面积为1,这实际上表明了“随机变量x取值在-∞与+∞之间”是一个必然事件,其概率为1。若随机变量x服从正态分布N(μ,σ2),则x的取值落在任意区间[x1,x2)的概率,记作P(x1≤x<x2),等于图4-9中阴影部分曲边梯形面积。即:
对(4-12)式作变换u=(x-μ)/σ,得dx=σdu,故有
其中,
这表明服从正态分布N(μ,σ2)的随机变量x在[x1,x2)内取值的概率,等于服从标准正态分布的随机变量u在[(x1-μ)/σ,(x2-μ)/σ)内取值的概率。因此,计算一般正态分布的概率时,只要将区间的上下限作适当变换(标准化),就可用查标准正态分布的概率表的方法求得概率了。
图4-9 正态分布的概率
关于一般正态分布,以下几个概率(即随机变量x落在平均值μ加减不同倍数标准差σ区间的概率)是经常用到的。
P(μ-σ≤x<μ+σ)=0.6826
P(μ-2σ≤x<μ+2σ)=0.9545
P(μ-3σ≤x<μ+3σ)=0.9973
P(μ-1.96σ≤x<μ+1.96σ)=0.95
P(μ-2.58σ≤x<μ+2.58σ)=0.99
生态统计中,不仅注意随机变量x落在平均数加减不同倍数标准差区间(μkσ,μ+kσ)之内的概率而且也很关心x落在此区间之外的概率。我们把随机变量x落在平均数μ加减不同倍数标准差σ区间之外的概率称为双侧概率(两尾概率),记作α。对应于双侧概率可以求得随机变量x小于μ-kσ或大于μ+kσ的概率,称为单侧概率(一尾概率),记作α/2。例如,x落在(μ-1.96σ,μ+1.96σ)之外的双侧概率为0.05,而单侧概率为0.025。即
P(x<μ-1.96σ)=P(x>μ+1.96σ)=0.025
双侧概率或单侧概率如图4-10所示。x落在(μ-2.58σ,μ+2.58σ)之外的双侧概率为0.01,而单侧概率为0.005。
P(x<μ-2.58σ)=P(x>μ+2.58σ)=0.005
4-10 双侧概率与单侧概率
前面讨论的三个重要的概率分布中,后一个属连续型随机变量的概率分布,前两个属离散型随机变量的概率分布。三者间的关系如下:
对于二项分布,在n→∞,p→0,且n p=λ(较小常数)情况下,二项分布趋于泊松分布。在这种场合,泊松分布中的参数λ用二项分布的n p代之;在n→∞,p→0.5时,二项分布趋于正态分布。在这种场合,正态分布中的μ、σ2用二项分布的n p、n pq代之。在实际计算中,当p<0.1且n很大时,二项分布可由泊松分布近似;当p>0.1且n很大时,二项分布可由正态分布近似。
对于泊松分布,当λ→∞时,泊松分布以正态分布为极限。在实际计算中,当λ≥20(也有人认为λ≥6)时,用泊松分布中的λ代替正态分布中的μ及σ2,即可由后者对前者进行近似计算。
有关生态数据分析与建模的文章
t分布的平均数和标准差为:t分布密度曲线如图5-1所示,其特点是:图5-1不同自由度的t分布密度曲线1.t分布受自由度的制约,每一个自由度都有一条t分布密度曲线。2.t分布密度曲线以纵轴为对称轴,左右对称,且在t=0时,分布密度函数取得最大值。3.与标准正态分布密度曲线相比,t分布密度曲线顶部略低,两尾部稍高而平。对于不同自由度下t分布的两尾概率及其对应的临界t值已编制成附表2,即t分布表。......
2023-11-17
样本平均数的分布与其他分布一样,有两个重要参数,一个是样本平均数的平均数,记作μ,另一个是样本平均数的方差,记作。标准误大,各样本平均数间差异程度大,样本平均数的精确性低。从某特定总体抽样,因为σ是一定值,所以只有增大样本容量,才能降低样本平均数的抽样误差。......
2023-11-17
为了研究随机现象,需要进行大量重复的调查、试验、测试等,这些统称为试验。频率表明了事件频繁出现的程度,因而其稳定性说明了随机事件发生的可能性大小,是其本身固有的客观属性,提示了隐藏在随机现象中的规律性。在一般情况下,随机事件的概率P是不可能准确得到的。通常以试验次数n充分大时,随机事件A的频率作为该随机事件概率的近似值。......
2023-11-17
通过排序分析,既可以认识群落格局,也可以将排序轴跟我们已知的环境条件联系起来,看是否代表某一环境梯度。包括约束性排序和非约束性排序。5.非约束性排序:寻求潜在的或在间接的环境梯度来解释物种数据的变化。图16-1物种响应环境梯度模型但对于单峰响应模型,估计物种在环境梯度上最适值最简单的方法就是通过基于所有包含该物种的n个样方中环境因子值的加权平均得到。......
2023-11-17
土壤无论对植物来说还是对土壤动物来说都是重要的生态因子。由于在土壤中运动要比大气中和水中困难得多,所以除了少数动物能在土壤中掘穴居住外,大多数土壤动物都只能利用枯枝落叶层中的孔隙和土壤颗粒间的空隙作为自己的生存空间。因此,土壤数据包括野外调查数据,比如枯枝落叶层的厚度、土壤类型、土壤厚度和剖面特征、土壤温度等。室内测定数据包括土壤结构、土壤容重、土壤水分、土壤物理特性及化学特性。......
2023-11-17
灵敏度分析试图测量模型的一些参数、强制函数、状态变量初始值,或子模型对最重要状态变量的灵敏度。因此,对于参数P的灵敏度定义如下:S=[x/x]/[P/P]式中:x代表所考虑的状态变量。通常需要在两个或多个水平上发现参数变化的灵敏度,因为参数和状态变量之间的关系很少是线性的。如果发现所观察的状态变量对某个子模型很灵敏,应该考虑哪几个别的子模型可以替换使用,这些子模型应在野外或实验室做进一步的具体检验。......
2023-11-17
为了消除量纲影响和变量自身变异大小和数值大小的影响,故将数据标准化。经过标准差标准化后,数据都是没有单位的纯数量。尽管如此,它还是当前用得最多的数据标准化方法,也是SPSS中最为常用的标准化方法。即第三步,再对变量进行标准差标准化,即将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。表13-7长江17个观测点的水质分析表数据转换步骤如下:1.数据的标准化处理。......
2023-11-17
直线回归是回归分析中最简单的一种,又称为简单回归。(一)直线回归方程散点图上呈现直线趋势的两个变数,自变量x的每一个取值都有y的一个分布与之对应。试计算其直线回归方程。为简化手续,可从以下恒等式得出:(五)直线回归的数学模型和基本假定回归分析的依据是直线回归模型。......
2023-11-17
相关推荐