直线回归是回归分析中最简单的一种,又称为简单回归。(一)直线回归方程散点图上呈现直线趋势的两个变数,自变量x的每一个取值都有y的一个分布与之对应。试计算其直线回归方程。为简化手续,可从以下恒等式得出:(五)直线回归的数学模型和基本假定回归分析的依据是直线回归模型。......
2025-09-30
在多数生态学文献中,回归分析方面的问题是所有应用统计学中出现频率最高的问题。主要表现在以下几个方面。
一、直线回归问题
(一)用R2(相关指数)来描述直线回归的显著性
直线回归分析又称为一元线性回归分析,是回归分析中方法最简单,应用最广泛的方法。在某些生态学论文中,对于回归方程的检验和表述不正确,常用相关指数R2来刻画回归方程的显著性。需要指出的是,相关指数R2是用来刻画曲线回归方程拟合程度的重要指标,并非检验直线回归方程是否显著的统计量。尽管对于直线回归方程有R2=r2,但应用R2来表示直线回归方程的显著性显然是不恰当的。
对于直线回归方程(
=a+bX)的显著性检验,包括回归方程的方差分析,回归系数a、b的显著性检验(t-检验)和相关系数(r)的显著性检验等,在本质上,这3种显著性检验方法是等价的,亦即回归方程显著(p<0.05)⇔回归系数显著⇔相关系数(r)显著。
产生这一错误的主要原因是:(1)作者没有弄清楚直线回归分析与曲线回归分析的最根本区别是什么。(2)更常见的错误来源于对微软Office缺乏客观的认知。作为Ofice(Microsoft)主要组成部分的Excel(或Word),在应用它进行图表编辑的时候可以对数据添加趋势线和回归方程,对回归方程的显著性用了R2来表示。许多作者想当然认为Microsoft的软件肯定不会有问题,所以这些错误屡见不鲜。
(二)回归关系与函数关系的问题
对直线回归方程的准确表达式为:
=a+bx,但是几乎所有的生态学文献中,回归方程都写为:Y=a+bX,比较这两个回归方程区别在于前者Y︿上边有“^”(读作“帽(Hat)”在统计学中表示“估计”(Esimate)的意思),而后者没有“^”。因为有“^”的存在,就意味着它有误差,那么自变量与因变量之间就是回归方程(关系)。如果没有“^”,那变量之间就是的数关系,而非回归(或相关)关系。许多作者没有意识到这一细微的差别,在数学上具有根本不同的意义,类似的问题在曲线回归和多元回归分析中也普遍存在。
二、曲线回归问题
曲线回归问题主要集中在曲线回归方程的检验问题,往往用相关系数r来表示方程的显著性。(https://www.chuimin.cn)
统计学上,对于曲线回归问题往往是将对应的曲线模型转化为线性模型,然后按照直线回归的方法求出回归方程。在直线回归中,既可以用相关系数对回归方程进行显著性检验,也可以用方差分析和t-检验的方法分别对方程和回归系数进行显著性检验。
许多作者仍然不清楚,迄今为止对于曲线回归方程仍然没有显著性检验的方法,只能对曲线回归方程的拟合程度进行判断。常用的方法有剩余(失拟)平方和SSe
式(9-1)中Y为实际观测值,
为回归值。一般来说,SSe越小表明曲线回归方程的拟合程度就越好,反之亦然。
SSe是对曲线回归方程失拟程度的绝对度量,但是对于不同的曲线回归方程,用SSe难以比较它们拟合程度的优劣。因此,采用相关指数更为合理和方便。相关指数的定义为:
式(9-2)中SYY为因变量Y的离差平方和。R2实际上是一个相对的度量,它表示回归平方和占总平方和的百分比。R2越大表明曲线回归方程的拟合程度就越好,反之亦然。
三、多元线性回归方面的问题
在多元线性回归分析中常见的错误是,只对回归方程进行显著性检验,而没有对每一个回归系数进行显著性检验。
多元线性回归方程一般形式如下:
式(9-3)中bo+b1…+bk是回归系数:X1,X2,…,Xk分别是自变量。对于方程(9-3)必须进行显著性检验,以便确定Y与X,X2,X3,…之间是否存在线性关系。如果方程(9-3)显著(p<0.05)并不意味着每个自变量X,X2,X3,…对Y的影响都重要,可能有的自变量重要(p<0.05),而有的自变量则可有可无(p>0.05),因此在对方程进行显著性检验的基础上,就必须对所有回归系数进行显著性检验。对于那些不显著的回归系数bi,其对应的自变量Xi要从方程中剔除,以确保每个回归系数都显著。
相关文章
直线回归是回归分析中最简单的一种,又称为简单回归。(一)直线回归方程散点图上呈现直线趋势的两个变数,自变量x的每一个取值都有y的一个分布与之对应。试计算其直线回归方程。为简化手续,可从以下恒等式得出:(五)直线回归的数学模型和基本假定回归分析的依据是直线回归模型。......
2025-09-30
t分布的平均数和标准差为:t分布密度曲线如图5-1所示,其特点是:图5-1不同自由度的t分布密度曲线1.t分布受自由度的制约,每一个自由度都有一条t分布密度曲线。2.t分布密度曲线以纵轴为对称轴,左右对称,且在t=0时,分布密度函数取得最大值。3.与标准正态分布密度曲线相比,t分布密度曲线顶部略低,两尾部稍高而平。对于不同自由度下t分布的两尾概率及其对应的临界t值已编制成附表2,即t分布表。......
2025-09-30
式(7-1)就是多元线性回归的数字模型。(二)建立多元线性回归方程设y对x1,x2,…,m)称为高斯乘数,是多元线性回归分析假设检验与进一步统计分析所需要的。建立产量y与穗数x1、每穗粒数x2的二元线性回归方程。如果此回归关系是真实的,则可依据该二元线性回归方程由穗数x1、每穗粒数x2预测和控制产量y。统计学已证明,在m元线性回归分析中,离回归平方和的自由度为。......
2025-09-30
生态统计学是运用概率论和数理统计的原理与方法,指导生态学的试验调查设计,分析试验调查资料,进而发现普遍规律的一门学科。生态统计学主要介绍生态学的试验设计,试验数据的收集、整理、分析,并推断、发现和解释生态学现象的本质规律。因此,生态统计学是生态学专业学生培养的重要基础课程之一,越来越受到高等院校的重视。生态统计学研究内容见图1-1。......
2025-09-30
如果两个变量的成对观测值在坐标系中的散点图分布趋势类似于对数函数曲线见图8-3,可配合对数曲线方程=a+blg x。图8-3对数曲线=a+blg x的图像[例10]在大棚育苗中,塑料薄膜苗床内空气最高温度和室外空气最高温度资料如表8-1所示。表8-1苗床内最高温度(y,℃)与空气最高温度(x,℃)的关系图8-4苗床内最高气温y与空气最高气温x的关系图8-5例18资料x′与y之间的直线关系2.配合对数函数方程。......
2025-09-30
试验结果只能是“非此即彼”构成对立事件,将这种事件构成的总体称为二项总体,其概率分布称为二项分布。显然,二项分布是一种离散型随机变量的概率分布。此外,还有不少随机变量的概率分布在一定条件下以正态分布为其极限分布。关于正态分布的概率计算,我们先从标准正态分布着手。......
2025-09-30
样本平均数的分布与其他分布一样,有两个重要参数,一个是样本平均数的平均数,记作μ,另一个是样本平均数的方差,记作。标准误大,各样本平均数间差异程度大,样本平均数的精确性低。从某特定总体抽样,因为σ是一定值,所以只有增大样本容量,才能降低样本平均数的抽样误差。......
2025-09-30
常用希腊字母表示,例如用μ表示总体平均数,用σ表示总体标准差等。实际上,统计学关心的是总体参数的大小,其依据是统计量及其性质。为了便于处理实际问题,统计学中常用若干典型的分布模式来近似的描写实际资料,如正态分布、二项分布和泊松分布等,常称为统计模型。利用统计模型进行统计分析可以简化运算。......
2025-09-30
相关推荐