第4章
SPSS在教育行业中的应用
4.1 研究背景及意义
现在社会竞争激烈,对于即将走上社会工作岗位的大学生来说,他们既面临着提高自身综合素质以适应社会发展的需求,同时也面临着社会压力的严峻考验,这样就需要有一个健康的体质。身体素质的发展是衡量一个人体质状况的重要标志之一。随着社会的进步、国力的增强、人民生活水平的不断提高,我国学生的身体素质应该是上升趋势,但实际上却呈整体下降趋势,特别是大学生的身体素质已经为越来越多的人所关注。影响学生身体素质下降的原因有很多,怎样可以提高学生的身体素质成为人们所关心的问题。
《学生体质健康标准》是《国家体育锻炼标准》的一个组成部分,是《国家体育锻炼标准》在学校的具体应用。《学生体质健康标准》测试的目的是为了贯彻落实第三次全国教育工作会议提出的“学校教育要树立‘健康第一’的指导思想”的精神,促进学生积极地参加体育锻炼,上好体育与健康课,增强学生的体质和提高健康水平,把学生培养成为德、智、体、美全面发展的高素质人才。
通过每年一次的《学生体质健康标准》测试,可以清楚地了解自己体质与健康的状况,还可以帮助监测一年来体质与健康状况发生变化及变化的程度。这些都有助于在新的一年里有的放矢地设定自己的锻炼目标,有针对性地选择锻炼策略,制定切实可行的锻炼计划。
BMI指数(身体质量指数,简称体质指数,又称体重,英文为Body Mass Index),是用体重公斤数除以身高米数平方得出的数字,是目前国际上常用的衡量人体胖瘦程度以及是否健康的一个标准,主要用于统计用途。当我们需要比较及分析一个人的体重对于不同高度的人所带来的健康影响时,BMI值是一个中立而可靠的指标。
BMI是以身高体重计算出来的。BMI是世界公认的一种评定肥胖程度的分级方法,世界卫生组织(WHO)也以BMI来对肥胖或超重进行定义。
身高体重指数这个概念是由19世纪中期的比利时通才凯特勒最先提出的,它的定义如下:
体质指数(BMI)=体重(kg)÷身高^2(m)
例如,一个人的身高为1.75米,体重为68千克,他的BMI=68÷(1.75^2)=22.2(千克/米^2)当BMI指数为18.5~23.9时属正常。
BMI是与体内脂肪总量密切相关的指标,该指标考虑了体重和身高两个因素。BMI简单、实用、可反映全身性超重和肥胖。在测量身体因超重而面临心脏病、高血压等风险时,比单纯的以体重来认定更具准确性。
BMI值原来的设计是一个用于公众健康研究的统计工具。当我们需要知道肥胖是否为某一疾病的致病原因时,我们可以把病人的身高及体重换算成BMI值,再找出其数值及病发率是否有线性关联。不过,随着科技进步,现时BMI值也只是一个参考值。要真正量度病人是否肥胖,还需要利用微电力量度病人的阻抗,以推断病者的脂肪厚度。因此,BMI的角色也慢慢改变,从医学上的用途变为一般大众的纤体指标。
成人的BMI数值:过轻,低于18.5;正常,18.5~23.9;过重,24~27;肥胖,28~32;非常肥胖,高于32。
4.2 数据建模思路
在研究体质检测时收集了学生的体重、身高、肺活量、耐力类项目成绩、柔韧力量类项目成绩、速度灵活类项目成绩等5个方面的数据,分析学生的体质指数(BMI)是否会影响肺活量、耐力、柔韧力、速度及灵活性。
本实例通过使用SPSS软件把收集的数据进行科学的处理,使用判别分析模型,对体质检测数据进行有效的分析,得出大学生体质检测应该重视的方面,有针对性地选择锻炼策略,制定切实可行的锻炼计划。
建模过程的流程图如图4-1所示。
图4-1 建模过程流程图
4.3 判别分析模型
4.3.1 模型定义
判别分析又称“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。
判别分析是一种统计判别和分组技术,就一定数量样本的一个分组变量和相应的其他多元变量的已知信息,确定分组与其他多元变量信息所属的样本进行判别分组。
解决问题:已知某种事物有几种类型,现在从各种类型中各取一个样本,由这些样本设计出一套标准,使得从这种事物中任取一个样本,可以按这套标准判别它的类型。
1.基本思想
- 根据判别中的组数,可以分为两组判别分析和多组判别分析。
- 根据判别函数的形式,可以分为线性判别和非线性判别。
- 根据判别式处理变量的方法不同,可以分为逐步判别、序贯判别等。
- 根据判别标准不同,可以分为距离判别、Fisher判别、Bayes判别法等。
2.判别函数
- 判别分析通常都要设法建立一个判别函数,然后利用此函数来进行批判,判别函数主要有两种,即线性判别函数和典则判别函数。
- 线性判别函数在特征空间中,通过学习,不同的类别可以得到不同的判别函数。比较不同类别的判别函数值大小,就可以进行分类。其中,各组样品互相对立,且服从多元正态分布。
- 典则判别函数是原始自变量的线性组合,通过建立少量的典则变量可以比较方便地描述各类之间的关系,例如可以用画散点图和平面区域图直观地表示各类之间的相对关系等。
3.建立方法
建立判别函数的方法一般有四种:全模型法、向前选择法、向后选择法和逐步选择法。
(1)全模型法是指将用户指定的全部变量作为判别函数的自变量,而不管该变量是否对研究对象显著或对判别函数的贡献大小。此方法适用于对研究对象的各变量有全面认识的情况。如果未加选择地使用全变量进行分析,就可能产生较大的偏差。
(2)向前选择法是从判别模型中没有变量开始,每一步把一个对判别模型的判断能力贡献最大的变量引入模型,直到没有被引入模型的变量都不符合进入模型的条件时,变量引入过程结束。当希望较多变量留在判别函数中时,使用向前选择法。
(3)向后选择法与向前选择法完全相反。它是把用户所有指定的变量建立一个全模型。每一步把一个对模型的判断能力贡献最小的变量剔除模型,直到模型中的所有变量都不符合留在模型中的条件时,剔除工作结束。在希望较少的变量留在判别函数中时,使用向后选择法。
(4)逐步选择法是一种通过选择最能反映类间差异的变量子集来建立判别函数的方法。它是从模型中没有任何变量开始,每一步都对模型进行检验,将模型外对模型的判别贡献最大的变量加入到模型中,同时也检查在模型中是否存在“由于新变量的引入而对判别贡献变得不太显著”的变量,如果有,就将其从模型中选出,以此类推,直到模型中的所有变量都符合引入模型的条件,而模型外所有变量都不符合引入模型的条件为止,整个过程结束。
4.判别方法
判别方法是确定待判样品归属于哪一组的方法,可分为参数法和非参数法,也可以根据资料的性质分为定性资料的判别分析和定量资料的判别分析。此处给出的分类主要是根据采用的判别准则分出几种常用方法。除最大似然法外,其余几种均适用于连续性资料。
(1)最大似然法:用于自变量均为分类变量的情况,该方法建立在独立事件概率乘法定理的基础上,根据训练样品信息求得自变量各种组合情况下样品被分为任何一类的概率。当新样品进入时,计算它被分到每一类中去的条件概率(似然值),概率最大的类就是最终评定的归类。
(2)距离判别:其基本思想是由训练样品得出每个分类的重心坐标,然后对新样品求出它们离各个类别重心的距离远近,从而归入离得最近的类。也就是根据个案离母体远近进行判别。最常用的距离是马氏距离,偶尔也采用欧式距离。距离判别的特点是直观、简单,适合于对自变量均为连续变量的情况下进行分类,且它对变量的分布类型无严格要求,特别是并不严格要求总体协方差阵相等。
(3)Fisher判别:亦称典则判别,根据线性Fisher函数值进行判别,通常用于梁祝判别问题,使用此准则要求各组变量的均值有显著性差异。该方法的基本思想是投影,即将原来在R维空间的自变量组合投影到维度较低的D维空间去,然后在D维空间中再进行分类。投影的原则是使得每一类的差异尽可能小,而不同类间投影的离差尽可能大。Fisher判别的优势在于对分布、方差等都没有任何限制,应用范围比较广。另外,用该判别方法建立的判别方差可以直接用手工计算的方法进行新样品的判别,这在许多时候是非常方便的。
(4)Bayes判别:许多时候用户对各类别的比例分布情况有一定的先验信息,也就是用样本所属分类的先验概率进行分析。比如客户对投递广告的反应绝大多数都是无回音,如果进行判别,自然也应当是无回音的居多。此时,Bayes判别恰好适用。Bayes判别就是根据总体的先验概率,使误判的平均损失达到最小而进行的判别。其最大优势是可以用于多组判别问题,但是适用此方法必须满足三个假设条件,即各种变量必须服从多元正态分布、各组协方差矩阵必须相等、各组变量均值均有显著性差异。
5.验证方法
对于判别分析,用户往往很关心建立的判别函数用于判别分析时的准确度如何。通常的效果验证方法有自身验证、外部数据验证、样品二分法、交互验证、Bootstrap法。
4.3.2 模型应用
在气候分类、农业区划、土地类型划分中有着广泛的应用。
在市场调研中,一般根据事先确定的因变量找出相应处理的区别特性。在判别分析中,因变量为类别数据,有多少类别就有多少类别处理组;自变量通常为可度量数据。通过判别分析,可以建立能够最大限度地区分因变量类别的函数,考查自变量的组间差异是否显著,判断哪些自变量对组间差异贡献最大,评估分类的程度,根据自变量的值将样本归类。
应用范围:信息丢失,直接的信息得不到,预报,破坏性实验。
假设条件
(1)分组类型在两种以上,且组间样本在判别值上差别明显。
(2)组内样本数不得少于两个,并且样本数量比变量起码多两个。
(3)所确定的判别变量不能是其他判别变量的线性组合。
(4)各组样本的协方差矩阵相等。
(5)各判别变量之间具有多元正态分布。
(6)样品量在所使用的自变量个数的10~20倍时,建立的判别函数才比较稳定;而自变量个数在8~10之间时,函数的判别效果才能比较理想。当然,在实际工作中判别函数的自变量个数往往会超过10个。应该注意的是,自变量的个数多并不代表效果好。
4.4 模型数据处理
4.4.1 指标选取
研究学生的体质指数需要完整的指标体系,包括身体形态、身体机能、耐力项目、柔韧力量项目和速度灵巧项目这5类,体质测试项目类别及编号说明如表4-1所示。
表4-1 测试项目类别及编号说明表
在本文,我们选取的数据是某大学计算机学院1班50名学生体质检测的数据,调查数据包括学生编号(ID)、身高(X1)、体重(X2)、肺活量(X3)、耐力类项目成绩(X4)、柔韧力量类项目成绩(X5)、速度灵活类项目成绩(X6)。
整理好学生体质检测的数据后,导入SPSS 24.0软件,数据视图如图4-2所示。
图4-2 数据视图
在变量视图页面设置变量的类型、宽度、小数位数、标签、值和角色等,如图4-3所示。
图4-3 变量视图
4.4.2 创建体质指数
创建学生的体质指数(BMI),选择“转换>计算变量”,如图4-4所示。
图4-4 创建计算变量
在“目标变量”中输入“BMI”,在“数字表达式”框中输入“X2/(X1/100 * X1/100)”,如图4-5所示。
图4-5 输入数字表达式
对变量BMI进行重新编码,选择“转换>重新编码为不同变量”,如图4-6所示。
图4-6 变量重新编码
将BMI选入“数字变量->输出变量”框中,并在“名称”中输入“x7”、在“标签”中输入“体质等级”,如图4-7所示。
图4-7 重新编码为不同变量1
单击“变化量”按钮,变量BMI与变量x7就建立起对应关系,结果如图4-8所示。
图4-8 重新编码为不同变量2
单击“旧值和新值”按钮,在“旧值”框下,勾选“范围,从最低到值”,再在文本框中输入“18.5”;在“新值”框下,在“值”后输入“1”,然后单击“添加”按钮,如图4-9所示。
图4-9 旧值和新值设置1
在“旧值”框下,勾选“范围”,输入18.5到23.9;在“新值”框下,在“值”后输入“2”,然后单击“添加”按钮;添加23.9到27、27到32的操作与此类似,结果如图4-10所示。
图4-10 旧值和新值设置2
在“旧值”框下,勾选“范围,从值到最高”,输入“32”;在“新值”框下,在“值”后输入“5”,并单击“添加”按钮,如图4-11所示。
图4-11 旧值和新值设置3
设置完成后,单击“继续”按钮,旧值和新值对应完毕,结果如图4-12所示。
图4-12 旧值和新值对应完毕
在变量视图页面,为变量x7添加值标签,便于后续的统计分析,如图4-13所示。
图4-13 添加值标签
在“值标签”页面,为变量x7中的5个值添加“过轻”“正常”“过重”“肥胖”和“非常肥胖”的值标签,如图4-14所示。
图4-14 添加值标签
自此建模数据预处理完毕,数据格式已经符合我们的模型需要,数据视图如图4-15所示。
图4-15 建模数据视图
4.5 SPSS操作步骤——判别分析
下面将介绍具体操作步骤及其设置。
操作步骤:
打开SPSS 24.0软件,在下载资源的“SPSS统计分析与行业应用实战\Ch04”文件夹下选择“建模数据.sav”,在数据视图窗口下,选择“分析>分类>判别式”,如图4-16所示。
图4-16 导入建模数据
在判别分析的模型设置界面,将变量x7选入分组变量,将变量X3、X4、X5、X6选入自变量,如图4-17所示。
指定用于分析的分组变量的最小值和最大值。在判别分析中不使用在该范围外的个案,但将基于分析结果将这些个案划分到某个现有组中。单击分组变量下的“定义范围”按钮,并将最小值设置为1、最大值设置为5,如图4-18所示。
图4-17 判别分析
图4-18 定义范围
4.5.1 “统计”选项
单击“判别分析”对话框中的“统计”按钮,可显示“统计”选项,如图4-19所示。
(1)描述
可用选项为平均值(包括标准差)、单变量ANOVA以及博克斯M检验。
- 平均值:显示自变量的总平均值、组平均值和标准差。
- 单变量ANOVA:为每个自变量的组平均值的等同性执行单向方差检验分析。
- 博克斯M:组协方差矩阵的等同性检验。对于足够大的样本,不显著的p值表示断定矩阵不同的证据不足。该检验对于偏离多变量正态性很敏感。
(2)函数系数
可用的选项有费希尔的分类系数和未标准化的系数。
- 费希尔:显示可以直接用于分类的Fisher分类函数系数。为每个组获得一组单独的分类函数系数,将一个个案分配给该组。该个案对此组具有最大判别分数(分类函数值)。
- 未标准化:显示未标准化的判别函数系数。
(3)矩阵
可用的自变量系数矩阵有组内相关性、组内协方差、分组协方差和总协方差矩阵。
- 组内相关性:显示汇聚的组内相关性矩阵,获取该矩阵的方法是在计算相关性之前,求得所有组的单个协方差矩阵的平均值。
- 组内协方差:显示汇聚的组内协方差矩阵,该矩阵可能与总协方差矩阵不同。获取该矩阵的方法是,求得所有组的单个协方差矩阵的平均值。
- 分组协方差:显示每个组的分离协方差矩阵。
- 总协方差:显示来自所有个案的协方差矩阵,就好像它们来自一个样本一样。
图4-19 “统计”选项
4.5.2 “方法”选项
单击“判别分析”对话框可的“方法”按钮,可显示“方法”选项。
(1)方法
选择用于输入或移去新变量的统计。可用统计有Wilks的lambda、未解释的方差、马氏距离、最小F比以及Rao的V。使用Rao的V,可为要输入的变量指定在V中增加的最小值。
- Wilks lambda:一种用于逐步判别分析的变量选择方法,基于变量能在多大程度上降低Wilks的lambda来选择要输入到方程中的变量。在每一步中,均输入能使总体Wilks的lambda最小的变量。
- 未解释方差:在每一步中,均输入能使组间未解释变动合计最小的变量。
- 马氏距离:自变量上个案的值与所有个案的平均值相异程度的测量。大的马氏距离表示个案在一个或多个自变量上具有极值。
- 最小F比:一种逐步分析中的变量选择方法,基于从组间马氏距离计算得到的F比最大。
- Rao V:组平均值之间的差分的测量,也称为Lawley-Hotelling轨迹。在每一步中,能使Rao的V增加最大的变量被选进来。选择此选项之后,输入要进入分析时变量必须具有的最小值。
(2)标准
可用的备用项包括使用F值和使用F的概率。需要输入进入变量和移去变量的值。
- 使用F值:如果变量的F值大于“输入”值,那么该变量输入模型;如果F值小于“剔除”值,那么该变量从模型中移去。“输入”值必须大于“剔除”值,且两者均必须为正数。要将更多的变量选入模型中,就降低“输入”值。要将更多的变量从模型中移去,就增大“剔除”值。
- 使用F的概率:如果变量的F值的显著性水平小于“输入”值,那么将该变量选入到模型中;如果该显著性水平大于“剔除”值,那么将该变量从模型中移去。“输入”值必须小于“剔除”值,且两者均必须为正数。要将更多的变量选入模型中,就增加“输入”值。要将更多的变量从模型中移去,就降低“剔除”值。
(3)输出
步进摘要显示完成每一步后所有变量的统计。两两组间距离的F值显示每一组对的成对F比的矩阵。
4.5.3 “分类”选项
单击“判别分析”对话框中的“分类”按钮,可显示“分类”选项,如图4-20所示。
(1)先验概率
此选项确定对于组成员身份的先验知识,是否调整分类系数。
- 所有组相等:假设所有组的先验概率相等。这对系数没有影响。
- 根据组大小计算:样本中的观察组大小决定组成员身份的先验概率。例如,如果分析中50%的观察值属于第一组、25%属于第二组、25%属于第三组,那么会调整分类系数以增加第一组相对于其他两组的成员身份可能性。
(2)显示
可用的显示选项有个案结果、摘要表和留一分类。
- 个案结果:为每个个案显示实际组的代码、预测组、后验概率和判别分数。
- 摘要表:基于判别分析,正确地和不正确地指定给每个组的个案数。有时称为“混乱矩阵”。
- 留一分类:分析中的每个个案由除该个案之外的所有个案生成的函数来进行分类。这也称为“U方法”。
(3)将缺失值替换为平均值
选择该选项,仅在分类阶段用自变量的平均值代替缺失值。
(4)使用协方差矩阵
可用选择使用组内协方差矩阵或分组协方差矩阵对个案进行分类。
- 组内:汇聚的组内协方差矩阵用来对个案分类。
- 分组:分组协方差矩阵用于分类。由于分类基于判别函数(而非基于原始变量),因此该选项并不总是等同于二次判别。
(5)图
可用的图选项有合并组、分组和领域图。
- 合并组:创建前两个判别函数值的所有组散点图。如果只有一个函数,就显示一个直方图。
- 分组:创建前两个判别函数值的分组散点图。如果只有一个函数,就转而显示直方图。
- 领域图:用于基于函数值将个案分类到组的边界图。其个数对应于个案分类到的组数。每个组的平均值在其边界内用一个星号表示。如果只有一个判别函数,那么该图不会显示。
图4-20 “分类”选项
4.5.4 “保存”选项
单击“判别分析”对话框的“保存”按钮,可显示“保存”选项,如图4-21所示。
可以向活动数据文件添加新变量,可用的选项有预测组成员(单个变量)、判别得分(解中每个判别函数均有一个变量)和已给出判别分数的组成员概率。
还可以将模型信息导出到指定的XML格式文件中。可以使用该模型文件,以应用模型信息到其他数据文件,用于评分目的。
单击“浏览”按钮,在文件名后输入“判别分析”,然后单击“保存”按钮,如图4-22所示。
图4-21 “保存”选项
图4-22 选择保持路径
4.5.5 “自助抽样”选项
用于建模的数据抽样方法,这里我们不做选择,默认用全部数据进行建模,如图4-23所示。
图4-23 “自助抽样”选项
4.6 SPSS结果介绍
(1)分析个案处理摘要
有效个案数为50,缺失或超出范围组代码的个案数为0,如图4-24所示。
图4-24 分析个案处理摘要
(2)组统计
从组统计可以看出每一种体质等级的肺活量、耐力类、柔韧力量类和速度灵活类的均值和标准差,也可以知道总样本的均值和标准差,如图4-25所示。
(3)汇聚的组内矩阵
汇聚组内矩阵显示各个因素之间的协方差和相关系数,可以看出各个因素的相关系数都较小,因此在判别分析中不需要剔除变量,如图4-26所示。
图4-25 组统计
图4-26 汇聚组内矩阵
(4)典型判别方程的特征值
典型判别方程的特征值为4,其中第一个特征值为0.178,能够解释所有变异的56.7%,如图4-27所示。
(5)标准化的典型判别方程
4个标准化的典型判别方程的系数如图4-28所示。
图4-27 典型判别方程的特征值
图4-28 标准化的典型判别方程系数
(6)未标准化的典型判别方程
4个未标准化的典型判别方程的系数如图4-29所示。
(7)典型判别函数的散点图
从全部组的散点图可以直观地看出体质等级各个类的聚类效果,其中正方形代表每一类的组质心,如图4-30所示。
图4-29 未标准化的典型判别方程系数
图4-30 典型判别函数的散点图
(8)分类结果
从分类结果可以看出原始的体质等级与预测组成员信息的交叉表统计情况,如图4-31所示。
图4-31 建模分类结果
4.7 体质锻炼建议
通过本文的研究,可以使学校和学生更清楚地了解他们的体质与健康状况,并监测其变化,同时根据每位同学的测试结果,将有针对性地选择锻炼策略,制定出切实可行的运动锻炼处方,使同学们的锻炼更具有科学性、实效性,从而达到全面增进学生体质健康水平的目的。
(1)适当控制体重的过胖或过瘦
身高是反映骨骼的发育状况和人体纵向发育水平的重要指标;体重是人体横向发育指标,是衡量健康和体力好坏的重要标志。身体形态对人体健康具有很重要的意义,因此,身体形态是体质检测的一个很重要的因素。作为大学生,身高不会有太大的变化,体重就成为反应和衡量一个人健康状况的重要标志。过胖和过瘦都不利于健康,身高体重不协调也不会给人以美感。适当控制体重,使得身高、体重协调是十分重要的。
(2)增强身体机能和耐力等素质
身体素质的强弱是衡量一个人体质状况的重要标志之一。身体素质的发展对增强人的体质和健康、掌握运动技术、提高运动成绩、实现大学体育与健康教学目的等都有重要意义。大学阶段是促进各项身体素质,特别是力量和耐力素质发展的重要时期,错过时机,补偿就要花更大的力气。因此,抓住时机进行全面的身体素质练习,对大学生的身心健康具有深远的意义。
(3)培养学生的运动兴趣
学校体育是终身体育的基础,运动兴趣和习惯是促进学生自主学习和终身坚持锻炼的前提。无论是教学内容的选择还是教学方法的更新,都应十分关注学生的运动兴趣,只有激发和保持学生的运动兴趣,才能使学生自觉、积极地进行体育锻炼。因此,在体育教学中,学生的运动兴趣是实现体育与健康课程目标和价值的有效保证。
(4)激发学生的参与意识
运动参与是学生掌握体育知识、技能和方法,锻炼身体和提高健康水平,形成积极的体育行为和乐观开朗人生态度的重要途径。在体育教学中,教师应通过丰富多彩的内容、形式多样的方法,引导学生体验运动乐趣,激发学生的参与意识。可根据学生好胜心强、热衷于比赛的心理特点,组织他们开展多样化的竞赛活动,如足球、篮球、跑步、拔河等。
(5)转变学生传统的思想观念
作为体育教师,既要关注学生当前的身体健康状况,又要使其逐步形成健康的安全意识以及良好的生活方式,掌握基本的运动技能,促进他们身心协调、全面发展。而要培养学生良好的体育锻炼习惯,教师应坚持“健康第一”的指导思想,要设法转变学生传统的思想观念,让他们明确体育锻炼的意义,使体育练习与锻炼成为学生的自觉行为,促进学生身心健康发展。