因子分析是用少数几个公共因子去提取研究对象的绝大部分信息,既减少了因子的数目,又把握住了研究对象的相互关系.在因子分析中根据研究对象的不同,分为R 型和Q 型,如果研究变量的相互关系时则采用R 型因子分析;如果研究样品间相互关系时则采用Q 型因子分析.但无论是R 型或Q 型都未能很好地揭示变量和样品间的双重关系,另一方面当样品容量n 很大(如n>1 000),进行Q型因子分析时,计算n 阶方阵的特......
2023-11-18
假定你是一个公司的财务经理,掌握了公司的所有主要数据,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等.如果让你向上面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗?当然不能.你必须要把各个方面进行高度概括,用一两个指标简单明了地把情况说清楚.其实,每个人都会遇到有很多变量的数据.比如全国或各个地区的带有许多经济和社会变量的数据,各个学校的研究、教学及各类学生人数及科研经费等各种变量的数据等.这些数据的共同特点是变量很多,在如此多的变量之中,有很多是相关的.人们希望能够找出它们的少数“代表”来对它们进行描述.
在实际问题中,往往会涉及众多有关的变量.但是,变量太多不仅会增加计算的复杂性,而且也给合理地分析问题和解释问题带来困难.一般来说,虽然每个变量都提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠.因而人们希望对这些变量加以“改造”,用为数较少的互不相关的新变量来反映原变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的.主成分分析便是在这种降维的思想下产生出来的处理高维数据的方法.
本章就介绍把变量维数降低以便于描述、理解和分析问题的方法:主成分分析(principal component analysis).主成分分析是1901年Pearson对非随机变量引入的,1933年Hotelling将此方法推广到随机向量的情形,主成分分析和聚类分析有很大的不同,它有严格的数学理论作基础.主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量.通常是选出比原始变量个数少,能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标.由此可见,主成分分析实际上是一种降维方法.(www.chuimin.cn)
多维变量的情况和二维类似,也有高维的椭球,只不过无法直观地看见罢了.首先把高维椭球的各个主轴找出来,再用代表大多数数据信息的最长的几个轴作为新变量;这样,主成分分析就基本完成了.注意,和二维情况类似,高维椭球的主轴也是互相垂直的.这些互相正交的新变量是原先变量的线性组合,叫做主成分(principal component).
正如二维椭圆有两个主轴,三维椭球有三个主轴一样,有几个变量,就有几个主成分.当然,选择越少的主成分,降维就越好.什么是选择的标准呢?那就是这些被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分.有些文献建议,所选的主轴总长度占所有主轴长度之和的大约80%(也有的说75%左右等)即可.其实,这只是一个大体的说法;具体选几个,要看实际情况而定.但如果所有涉及的变量都不那么相关,就很难降维.不相关的变量就只有自己代表自己了.
有关应用多元统计分析:基于R的实验的文章
因子分析是用少数几个公共因子去提取研究对象的绝大部分信息,既减少了因子的数目,又把握住了研究对象的相互关系.在因子分析中根据研究对象的不同,分为R 型和Q 型,如果研究变量的相互关系时则采用R 型因子分析;如果研究样品间相互关系时则采用Q 型因子分析.但无论是R 型或Q 型都未能很好地揭示变量和样品间的双重关系,另一方面当样品容量n 很大(如n>1 000),进行Q型因子分析时,计算n 阶方阵的特......
2023-11-18
实际上主成分分析可以说是因子分析(factor analysis)的一个特例.主成分分析从原理上是寻找椭球的所有主轴.因此,原先有几个变量就有几个主成分.而因子分析是事先确定要找几个成分(component),也称为因子(factor)(从数学模型本身来说是事先确定因子个数,但统计软件是事先确定因子个数,或者把符合某些标准的因子都选入).变量和因子个数的不一致使得不仅在数学模型上,而且在计算方法上......
2023-11-18
对于广义线性模型,除了以上介绍的Logistic回归模型外,还有其他的模型,如Poisson模型,这里就不作详细介绍.以下简要介绍R 软件中“glm( )”关于这些模型的使用方法.Poisson分布族模型和拟Poisson分布族模型的使用方法如下:fm<-glmfm<-glm其直观意义是ln[E]=β0+β1x1+β2x2+…+βp xp,即E=exp(β0+β1 x1+β2 x2+…......
2023-11-18
,xn 是从一元总体中抽取的.一元数据的数字特征主要有:均值,方差s2=,标准差s=,等等.对于多元数据,除分析各分量的取值特征外,还要分析各分量之间的相关关系.由于多元统计分析中的符号多而杂,因此需要说明:在一元统计学中一般用大写和小写字母分别来区分随机变量及其观测值,在本书后面的章节里,由于其他复杂的符号,我们可能不再遵守此约定,请读者注意一个符号在每一章中的意义.......
2023-11-18
,λm 对应的特征向量,且.矩阵代数的这几个结论为我们建立了因子分析中R 型与Q 型的关系.借助以上引理11.2.2和引理11.2.3,我们从R 型因子分析出发可以直接得到Q 型因子分析的结果.由于SR 和SQ 有相同的非零特征值,而这些非零特征值又表示各个公共因子所提供的方差,因此变量空间Rp 中的第一公共因子、第二公共因子…......
2023-11-18
对应分析的具体计算步骤如下:由原始数据矩阵A 出发计算对应矩阵P 和对应变换后的新数据矩阵B,计算公式见式和式.计算行轮廓分布,记R 矩阵由A 矩阵的每一行除以行和得到,其目的在于消除行点出现“概率”不同的影响.记N={Ri,i=1,2,…,m)是B 的奇异值.式给出Q 的分解式,第i个因子(i=1,2,…......
2023-11-18
以下我们来讨论两个总体的距离判别,分别讨论两个总体协方差矩阵相同和不同的情况.设总体X1 和X2 的均值向量分别为μ1 和μ2,协方差矩阵分别为Σ1 和Σ2.给定一个样本x,要判断x 来自哪个总体.首先考虑两个总体X1 和X2 的协方差矩阵相同的情况,即μ1 ≠μ2,Σ1=Σ2=Σ.要判断x 来自哪个总体,需要计算x 到总体X1 和X2 的马氏距离的平方d2(x,X1)和d2(x,X2),然后进行......
2023-11-18
,F5 的线性组合表示出来Xi=μi+ai1 F1+ai2 F2+…,F5 的值却是未知的,有关参数的意义也有很大的差异.因子分析的首要任务就是估计因子载荷aij 和方差σ2i,然后给因子Fi 一个合理的解释,若难以进行合理的解释,则需要进一步作因子旋转,希望旋转后能发现比较合理的解释.特别需要说明的是这里的因子和试验设计里的因子(或因素)是不同的,它比较抽象和概括,往往是不可以单独测量的.......
2023-11-18
相关推荐