首页 理论教育R实验:对smoke数据集进行对应分析

R实验:对smoke数据集进行对应分析

【摘要】:以下对smoke数据集进行对应分析.(1)首先查看smoke数据集的信息>library(ca)>data("smoke")>smoke结果如下:这个数据集来自Greenacre(1984),被应用于多个统计软件作为对应分析的说明案例数据.它的内容是一个5行(阶层:SM,JM,SE,JE和SC)4列(吸烟习惯:none,light,medium 和heavy)的列联表,给出了一个虚构的公司内各阶层

以下对smoke数据集进行对应分析.

(1)首先查看smoke数据集的信息

>library(ca)

>data("smoke")

>smoke

结果如下:

这个数据集来自Greenacre(1984),被应用于多个统计软件作为对应分析的说明案例数据.它的内容是一个5行(阶层:SM,JM,SE,JE和SC)4列(吸烟习惯:none,light,medium 和heavy)的列联表,给出了一个虚构的公司内各阶层吸烟习惯的频数.

(2)对数据集smoke进行对应分析

>ca(smoke)

结果如下:

(3)行的标准坐标

>ca(smoke)$rowcoord

结果如下:

(4)提取有关计算结果

>summary(ca(smoke))(www.chuimin.cn)

结果如下:

(5)绘制对应分析的散点图

>plot(ca(smoke))

结果如图11-6所示.

图11-6 行点和列点的散点图

从图11-6(在纵向零点线)的左右两边可以看出,左边是SE,SC 和SM 三个阶层与吸烟习惯none对应;右边是JE和JM 两个阶层与吸烟习惯light,medium和heavy对应.

从图11-6还可以看出,SE阶层的吸烟习惯更接近于none,JE阶层的吸烟习惯更接近于medium,JM 阶层的吸烟习惯是更接近于heavy.

(6)行作为主坐标,列作为标准坐标的情形

>plot(ca(smoke),mass=TRUE,contrib="absolute",map="rowgreen",arrows=c(FALSE,TRUE))

结果如图11-7所示.

图11-7 行点和列点的散点图(行作为主坐标,列作为标准坐标)

当我们从中心向任意两个点(相同类别)做向量的时候,它们的夹角越小越相似.从图11-7可以看出,JE 和JM 两个阶层的吸烟习惯相似(或接近),SE 和SC两个阶层的吸烟习惯相似(或接近),SM 和JM 两个阶层的吸烟习惯相似(或接近).

从图11-6和图11-7(或前面的计算)看到,第一维度(Dimension1)解释了列联表的87.8%,第二维度(Dimension2)解释了列联表的11.8%解,说明在两个维度上已经能够说明数据的99.6%,效果是比较理想的.