第1章
SPSS在电商行业中的应用
1.1 研究背景及意义
近年来,随着互联网的发展,网络购物的方式越来越流行,尤其是对于广大年轻人,预计未来网购群体在整体网民中的比例会更高,逐渐成为人们的生活消费习惯。
根据艾瑞咨询数据显示,2016年中国网络购物市场交易规模为5.0万亿元,较2015年增长30.7%,预计2017年市场交易规模为6.2万亿元、2018年将达到7.5万亿元,如图1-1所示。
图1-1 2011-2018年中国网络购物市场规模
根据艾瑞咨询数据,2011-2016年我国网络购物人均消费额持续增长,2016年网络购物人均消费额为10830.2元,同比2015年增长17.6%,预计2017年为12539.9元、2018年将达到14240.7元,如图1-2所示。
图1-2 2011-2018年网络购物人均消费额
以前由于受到利益驱使、信用障碍、意识淡薄和缺乏管理等方面因素的影响,导致电子商务市场缺失诚信。《网络购买商品七日无理由退货暂行办法》自2017年3月15日正式施行后,根据办法网络购买商品可以在七日内无理由退货,只有消费者定做的商品、鲜活易腐的商品、在线下载或者消费者拆封的音像制品以及计算机软件等数字化商品、交付的报纸期刊等4类商品不适用。
虽然各交易平台推出卖家信用度来显示商家的一些交易特性,在一定程度上消除卖方信用不确定、商家商品质量等问题,但是卖家信用度的计算简单,不能全面反映卖家的真实信息,而且消费者的交易行为不仅仅由卖家信用度决定,因此了解消费者网络交易行为的影响因素、影响方式,以及影响程度对于规范电子商务活动和促进电子商务的健康发展具有重要意义。
1.2 数据建模思路
本实例通过设计问卷,调查消费者网络购买行为的主要影响因素及其影响程度,问卷涉及被调查者的性别与学历、了解电子商务网站的渠道、上电子商务网站购物的原因、浏览网站但是没有购物的原因和购物时主要考虑的因素等,其中除了被调查者的性别是单选外,其他均为多选。
对于多选问题最有效的分析方法就是利用SPSS进行多重响应分析,因此本文首先采用多重响应的方法对问卷数据进行分析,然后对SPSS的分析结果进行详细介绍,同时还对模型的效果进行评估,具体数据建模过程的流程图如图1-3所示。
图1-3 建模过程流程图
1.3 调查内容与方法
为了分析电子商务诚信情况以及消费者购买行为影响因素,我们采用问卷调查的形式收集相关数据。经过两周的实地调查,共计发放230份调查问卷,其中回收200份,回收率为86.96%。根据英国著名社会学家莫泽(C. A. Moser)标准,如果问卷的回收率达不到50%,那么问卷调查就应该终止,问卷的回收率达不到70%,问卷调查的结果就不足以可信,由于本次问卷调查的有效率大于该指标,因此视为有效调查。
《电子商务诚信情况以及消费者购买行为影响因素的调查问卷》
第1题 您的性别?[单选题]
A.男
B.女
第2题 您是通过什么渠道了解电子商务网站的?[多选题]
A.网上广告
B.网上论坛
C.电视广告
D.户外广告
E.亲朋推荐
第3题 吸引您去上电子商务网站购物的原因?[多选题]
A.商品齐全
B.价格便宜
C.比较方便
D.买到二手货E.交朋友
第4题 您浏览电子商务网站没有购物的原因?[多选题]
A.随便看看
B.没有尝试过
C.网络安全隐患
D.卖家信誉E.其他
第5题 您在电子商务网站购物时主要考虑的因素有哪些?[多选题]
A.网站安全性
B.网站知名度
C.卖家信用度
D.产品质量与服务
E.配送是否及时
1.4 问卷调查数据处理
对于没有接触过SPSS的数据分析人员,第一步面临的就是问卷数据的编码问题。下面将通过举例的方式进行详细讲解。
1.4.1 问卷编码录入
SPSS中的一份问卷就是一个个案,首先要根据问卷中的问题定义变量。定义变量需要注意两点:一是区分变量的度量,有标度、有序和名义三类;二是定义变量的数据类型。
问卷可以分为单选、多选、排序和开放题四种类型,它们的定义和处理方法不同。
(1)单选题:答案只能有一个选项。
例一:您的性别?
A.男
B.女
编码:只定义一个变量,值1、0分别代表男、女两个选项。
录入:录入选项对应值,若选1则录入男,若选0则录入女。
(2)多选题:答案可以有多个选项,其中又有项数不定多选和项数定多选。
①方法一(二分法)。
例二:您是通过什么渠道了解C2C网站的?
A.网上广告
B.网上论坛
C.电视广告
D.户外广告E.亲朋推荐
编码:把每一个选项定义为一个变量,每一个变量的值用0和1表示(“0”未选,“1”选)。
录入:被调查者选了的选项录入1,没选录入0。例如,选择被调查者选A、C,那么五个变量就分别录入为1、0、1、0、0。
②方法二。
例三:您认为开展保持党员先进性教育活动的最重要的目标是哪三项?
1( ) 2( ) 3( )
A.提高党员素质
B.加强基层组织
C.坚持发扬民主
D.激发创业热情
E.服务人民群众
F.促进各项工作
编码:定义三个变量,分别代表题目中的1、2、3三个括号。三个变量的值均以对应的选项定义,即“1”A、“2”B、“3”C,“4”D,“5”E,“6”F。
录入:录入的数值1、2、3、4、5、6分别代表选项A、B、C、D、E、F,相应录入到每个括号对应的变量下。若被调查者三个括号分别选A、C、F,则在三个变量下分别录入1、3、6。
注:能用方法二编码的多选题也能用方法一编码,但是项数不定的多选只能用二分法,即方法一是多选题一般的处理方法。
(3)排序题:对选项重要性进行排序。
例四:您购买商品时,在①品牌、②流行、③质量、④实用、⑤价格中对它们的关注程度先后顺序是(请填代号重新排列)什么?
第一位( ) 第二位( ) 第三位( ) 第四位( ) 第五位( )
编码:定义五个变量,分别可以代表第一位至第五位,每个变量的都做如下定义:“1”品牌,“2”流行,“3”质量,“4”实用,“5”价格。
录入:录入的数字1、2、3、4、5分别代表五个选项,如被调查者把质量排在第一位就在代表第一位的变量下输入“3”。
(4)选择排序题。
例五:把例三中的问题改为“您认为开展保持党员先进性教育活动的最重要的目标是哪三项,并按重要性从高到低排序”,选项不变。
编码:以“ABCDEF”六个选项分别对应定义六个变量,每个变量都做同样的定义,即“0”未选、“1”排第一、“2”排第二、“3”排第三。
录入:以变量的值录入。比如三个括号里分别选的是E、C、F,则该题的六个变量的值应该分别录入0(代表A选项未选)、0(代表B选项未选)、2(代表C选项排在第二位)、0(代表D选项未选)、1(代表E选项排在第一位)、3(代表F选项排在第三位)。
(5)开放性数值题和量表题:这类题目要求被调查者自己填入数值,或者打分。
例六:您的年龄是______。
编码:一个变量,不定义变量的值。
录入:录入被调查者实际填入的数值。
(6)开放性文字题。
如果可能的话可以按照含义相似的答案进行编码,转换成为封闭式选项进行分析。如果答案内容较为丰富、不容易归类,应对这类问题直接做定性分析。
1.4.2 问卷一般性分析
下面具体介绍SPSS中问卷的一般处理方法,操作以版本SPSS 24.0为例,以下提到的菜单项均在“分析”主菜单下。
(1)频数分析:可以做单变量的频数分布表,显示数据文件中由用户指定的变量的特定值发生的频数,获得某些描述统计量和描述数值范围的统计量。
适用范围:单选题(例一),排序题(例四),多选题的方法二(例三)。
频数分析也是问卷分析中最常用的方法。
实现:分析——描述统计——频率
(2)描述分析:可以计算单变量的描述统计量。这些统计量有平均值、算术和、标准差、最大值、最小值、方差、范围和平均数标准误等。
适用范围:选择并排序题(例五)、开放性数值题(例六)。
实现:分析——描述统计——描述。
(3)多重反应下的频次分析。
适用范围:多选题的二分法(例二)。
实现:第一步在分析——多重响应——定义数据集——把一道多选题中定义的所有变量集合在一起,给新的集合变量取名,在“二分法计数值”中输入1。第二步在分析——多重响应——频率中做频数分析。
(4)多重反应下的交叉分析。
适用范围:多选题的二分法(例二)。
实现:第一步在分析——多重响应——定义数据集中把一道多选题中定义的所有变量集合在一起,给新的集合变量取名,在“二分法计数值”中输入1。第二步在分析——多重响应——交叉表中做交叉分析。
(5)交叉频数分析:解决对多变量的各水平组合的频数分析的问题。
适用范围:适用于由两个或两个以上变量进行交叉分类形成的列联表,对变量之间的关联性进行分析。比如要知道不同工作性质的人上班使用交通工具的情况,可以通过交叉分析得到一个二维频数表。
实现:第一步根据分析的目的来确定交叉分析的选项,确定控制变量和解释变量。第二步选择分析——描述统计——交叉表。
1.5 SPSS操作步骤——多重响应分析
下面我们将以第二题“您是通过什么渠道了解电子商务网站的?”为例介绍多重响应分析的具体步骤,其他分析与此类似。
1.5.1 为变量定义数据集
1.定义变量集
从菜单中选择“分析>多重响应>定义变量集”,如图1-4所示。变量集是把一道多选问题中定义了的所有变量集合在一起。
图1-4 定义变量集
2.设置变量集
选择两个或多个变量进入“集合中的变量”列表框,由于我们采用二分法进行编码,因此在“二分法计数值”中输入1。如果变量编码为分类变量,还需要定义类别的范围。为每个多响应集输入名称“Q2”。输入多响应集的标签“您是通过什么渠道了解电子商务网站的?”,如图1-5所示。
图1-5 定义多重响应集
3.添加变量集
单击“添加”按钮,将多响应集添加到定义的集列表中,此过程在指定的名称前加上美元符号($),“多重响应集”栏会出现“$Q2”,如图1-6所示。
图1-6 定义多重响应集
1.5.2 多重响应下的频率分析
对于多重响应频率过程生成多响应集的频率表,必须先定义一个或多个响应集,实现步骤如下:在定义数据集的基础上,在分析——多重响应——频率中做频数分析。从菜单中选择“分析>多重响应>频率”,如图1-7所示。
图1-7 多重响应的频率分析
选择“$Q2”多重响应集进入“表”中,勾选“在二分集内成列排除个案”和“在类别内成列排除个案”,如图1-8所示。
在二分集内成列排除个案。从多二分集的制表中排除具有任何变量的缺失值的个案。该项仅应用于定义为二分变量的多响应集。默认的情况下,如果多二分集中的某个个案的成分变量没有一个包含计数的值,就认为该个案缺失。只要至少一个变量包含计数值,那么即使个案中有一些(但不是全部)变量的值缺失,这些个案也包括在组的制表中。
在类别内成列排除个案。从多类别集的制表中排除具有任何变量的缺失值的个案,这仅应用于定义为类别集的多响应集。默认的情况下,对于多类别集,仅当某个个案的成分没有一个包含定义范围内的有效值时才认为该个案缺失。
图1-8 多重响应频率
1.5.3 多重响应下的交叉分析
“多重响应交叉表”对定义的多响应集进行交叉制表,必须先定义一个或多个响应集,实现步骤是:在定义数据集的基础上,在菜单中选择“分析>多重响应>交叉表”,如图1-9所示。
图1-9 多重响应的交叉分析
1.多重响应交叉表设置
为每个交叉制表的维度选择一个或多个数值变量或多响应集,选择“$Q2”多重响应集进入“行”中,选择“性别”进入“列”中,如图1-10所示。
图1-10 多重响应交叉表
2.多重响应交叉表:定义范围
单击“定义范围”按钮,输入与变量的最低和最高类别相对应的最小和最大整数值。对每个变量重复这一过程。必须定义交叉制表中的任何基本变量的值范围。输入要制表的最小和最大类别整数值,该范围外的类别将不包括在分析中,如图1-11所示。
3.多重响应交叉表:选项
在“多重响应交叉表”对话框中,单击“选项”按钮,如图1-12所示。
图1-11 定义范围
图1-12 交叉表“选项”
- 单元格百分比。始终显示单元格计数。可以选择显示行百分比、列百分比和总计百分比。
- 百分比基于。单元格百分比可基于个案(或响应者)。如果选择跨响应集匹配变量,那么该选项不可以用。单元格百分比也可以基于响应,对于多二分集,响应的数量等于个案中已计算的值。对于多类别集,响应的数量等于位于所定义范围内的值的数量。
- 在响应集之间匹配变量。将第一组中的第一个变量与第二组中的第一个变量配对,依此类推。如果选择该选项,过程将单元格百分比基于响应而不是响应者。对于多二分集或基本变量,配对操作不可以用。
- 缺失值。分为“在二分集内成列排除个案”和“在类别内成列排除个案”。默认的情况下,在将两个多类别集进行交叉制表时,此过程对第一组中的每个变量与第二组中的每个变量进行制表,并计算每个单元格的计数总和。因此,有些响应在表中可能会多次出现。
1.6 SPSS结果介绍
1.6.1 了解电商网站的渠道
频率表显示计数、响应百分比、个案百分比、有效个案数目和缺失个案的数量,Q2的频率分析结果如图1-13所示。其中个案总数为200,有效个案数为196。
图1-13 个案摘要
对于Q2的问卷调查结果,通过亲朋推荐的为111人,网上论坛的为107人,电视广告的为98人,网上广告的为94人,户外广告的为92人,如图1-14所示。
图1-14 Q2频率分析
交叉分析将单元格、行、列和总计数与单元格、行、列和总百分比进行交叉制表,单元格百分比可以基于个案,Q2(您是通过什么渠道了解电子商务网站的?)与性别的个案摘要如图1-15所示。
图1-15 个案摘要
另外,对于Q2的问卷调查结果,通过亲朋推荐的为111人,其中男性57人、女性54人;网上论坛的为107人,其中男性54人、女性53人,具体如图1-16所示。
图1-16 Q2交叉分析
1.6.2 上电商网站购物的原因
Q3的频率分析结果如图1-17所示,其中个案总数为200,有效个案为191。
图1-17 个案摘要
对于Q3的问卷调查结果,认为商品齐全的为113人,价格便宜的为99人,交朋友的为96人,比较方便的为92人,买到二手货的为89人,如图1-18所示。
图1-18 Q3频率分析
Q3(吸引您去上电子商务网站购物的原因?)与性别的个案摘要如图1-19所示。
图1-19 个案摘要
另外,对于Q3的问卷调查结果,认为商品齐全的为113人,其中男性56人、女性57人;价格便宜的为99人,其中男性48人、女性51人,具体如图1-20所示。
图1-20 Q3交叉表分析
1.6.3 浏览网站没有购物的原因
Q4的频率分析结果如图1-21所示,其中个案总数为200,有效个案为198。
图1-21 个案摘要
对于Q4的问卷调查结果,原因为网络安全隐患和没有尝试过的均为104人,卖家信誉的为100人,随便看看的为97人,其他原因为106人,如图1-22所示。
图1-22 Q4频率分析
Q4(您浏览电子商务网站没有购物的原因?)与性别的个案摘要如图1-23所示。
图1-23 个案摘要
对于Q4的问卷调查结果,认为网络安全隐患和没有尝试过的均为104人,其中男性48人、女性56人;卖家信誉的为100人,其中男性54人、女性46人,具体如图1-24所示。
图1-24 Q4交叉表分析
1.6.4 购物时主要考虑的因素
Q5的频率分析结果如图1-25所示,其中个案总数为200,有效个案为192。
图1-25 个案摘要
对于Q5的问卷调查结果,因素为产品质量与服务的为105人,配送是否及时的为101人,网站知名度的为96人,卖家信用度的为93人,网站安全性为84人,如图1-26所示。
图1-26 Q5频率分析
Q5(您在电子商务网站购物时主要考虑的因素有哪些?)与性别的个案摘要如图1-27所示。
图1-27 个案摘要
对于Q5的问卷调查结果,认为产品质量与服务的为105人,其中男性47人、女性58人;配送是否及时的为101人,其中男性51人、女性50人,具体如图1-28所示。
图1-28 Q5交叉表分析
1.7 模型效果评估
《电子商务诚信情况以及消费者购买行为影响因素的调查问卷》,由于受到能力水平和调研条件的限制,可能还存在以下不足。
(1)选项没有覆盖所有情况
仔细地看了这份调查问卷,发现问题的选项也不是很好,不能覆盖所有范围,也就是还有很多情况没有考虑到,很多问题的选项都是一个多项选择。这样既不利于统计,也不利于把握真实的情况。选项与选项之间的过渡太大,也就是中间减少了很多可能性。同时那些问题与选项都比较浅,没有深入到比较本质的问题上,这样就给人一种根本没有必要调查的感觉。一些很肤浅简单的问题要尽量少些,多设计一些存在争议的问题。其实我们设计调查问卷的目的也就是把那些存在争议的地方了解清楚。
(2)没有给受访者自由发挥的空间
我们知道一个人的知识能力是有限的,每个人都有很多自己不了解的东西,所以我们在设计问卷时不能把所有的选项都设计死了,而不留给作答者一定自由发挥的空间,如果不这样我们的调查也不会是与事实很吻合的。这种情况一定会发生的,不同的人对同一个问题的看法见解是不太一样的,我们在设计问卷时要注意不能让别人完全按照自己设计的思路走,要给他们自由表达自己观点的空间,好让他们表达出自己的真实情况,这样我们的调查问卷才更有代表性和真实性。那种完全按照自己的思路作答的问卷,必然是设计者个人思想和意图的反应,缺少真实性和代表性。
(3)调查数据不太便于统计分析
最后的调查问卷都要进行统计,由于我们事先没有分好类,因此统计起来就要花费不少工夫了。正如上面所说的那样,我们进行调查问卷的目的是对每种情况进行统计分析,事先没分好类就必须分类,确定不同的选项及情况的不同代表。同时最后反映的结果缺少分类的具体细化,也会使结果表现得不那么具有真实性和代表性,造成调查问卷的质量不高,对我们分析解决问题的帮助不大。
1.8 电商政策建议
电子商务是国民经济和社会信息化的重要组成部分,正在成为推动国民经济发展的新动力。发展电子商务是以信息化带动工业化,促进我国产业结构调整,推动经济增长方式由粗放型向集约型转变,提高国民经济运行质量和效率,走新型工业化道路的重大举措,对实现全面建设小康社会的宏伟目标具有十分重要的意义。
(1)诚信建设,和谐发展
建立健全社会信用体系,努力增强全社会的信用意识,形成以道德为支撑、产权为基础、法律为保障的社会信用制度,按照完善法规、特许经营、商业运作、专业服务的方向,加快建设企业和个人信用服务体系,为电子商务发展创造良好的市场环境。
(2)行业管理,规范发展
政府在电子商务中扮演一个裁决者的角色,因此,一个完善的诚信体系可以让很多人受益。开发电子商务行业管理平台,借助管理平台实现对电子商务资源的整合与优化,集中优势资源,产生规模效应,形成发展合力。通过协会,积极研究出台电子商务发展的规范标准,加强电子商务市场统计与监测,实现行业自律管理与规范发展。
(3)提高意识,加强防范
消费者在网上购物时需要认真核实该网站是否具有经营证书,不在可疑网站上购物,不轻易泄露自己的个人信息、身份证号码、手机号以及银行卡号。购物成功时保留购物记录,下载官方认证的购物保障软件等。
(4)城乡统筹,全面发展
要从实际出发,把电子商务纳入企业、行业和地区的发展战略之中,因地制宜,应用为先,循序渐进,城乡统筹,促进电子商务的全面发展。在城市,大型的商场、连锁超市、购物中心要建立基于互联网、具有决策支持与ERP功能的管理信息系统。在城市大力发展电子商务的同时,推动农村电子商务市场的不断发展。