第五章
可用性测试:通过观察获得信息
可用性测试是什么
可用性测试(也称用户测试)是一种常用的方法,研究人员通过观察用户使用产品或服务的过程,从而识别其中的问题。可用性测试可以通过不同的方式开展,可以采用定性的,也可以采用非定性的;可以采用干预性的,也可以采用非干预性的。
干预性
远程方式:研究者和用户处于不同的地点,但是通过使用屏幕共享技术进行互动。面对面方式:研究者与用户在某一时间在同一地点进行互动。
非干预性
远程方式:由用户自行选择时间和地点完成研究任务,研究者不加干预。面对面方式:研究者与用户在某一时间在同一地点开展互动,但在用户完成任务之前,研究者不会进行干预,也不会与用户交谈(这是一种最不常见的方法)。
在第二章(规划部分)中,我们需要考虑到各环节开展期间的支持条件。纯粹主义者们可能会告诉你,你唯一需要考虑的是如何最好地彻底解决研究问题。但在现实世界中,这可能不是(唯一的)决定因素,要记住我们要成为一名实用主义者。例如,你可能需要在某一特定日期与一定人数的参与者进行面谈。有些情况下,你的预算会决定你与参与者的会面时间。例如,预算只能支付得起“高价”参与者30分钟的会面时间,这些人包括律师或医生。这就意味着你可能需要调整研究方案以适应当前的条件。最好是对你的研究进行小规模试验,以确保能够在既定的时间内达成最优效果。
干预性的可用性测试的基本原理
干预性的可用性测试有什么好处
干预性的可用性测试给了你更多的权益。如果合适的话,主持人可以回答参与者提出的问题,或者标记出参与者遇到的问题,这对于了解正在发生的事情是非常有帮助的。此外,你还可以与参与者进行深入的交谈。通过询问一些跟进问题可以让你了解他们说了什么,做了什么,以及他们是怎么想的。
这可以培养你根据发现结果优化用户研究的能力。此种研究方法可以让你挖掘到许多先前没有考虑过的问题。干预性的环节有时可能会让你突然改变想法。如果有必要,你可以对后续的研究环节进行调整,与其他参与者重新讨论新的话题。这应该谨慎操作:不建议在每次会议结束后更改任务和研究问题,因为这样一来,你的记录将缺乏一致性,但是如果发现有必要修改的话,是可以作出修改的。
此种方式成本较低。此种方式不需要其他特殊设备,你可以坐在用户旁边,在他们说话的时候做笔记。收集位数不多的用户数据大约需要一天的时间,这是获得重要见解的一种方式(尼尔森, 2012)。
结果可靠。只要你避免提出带有偏见的问题,你会得到合理的反馈;而且,结果也令人信服。来自客户的反馈可能比你向团队提供反馈的效果更好。让你的团队(以及管理层)的其他成员坐下来一起参与思考环节,这可能不会占用他们太多的时间,但是一种鼓励他们关注可用性的非常有效的方式(尼尔森, 2012)。
此方式可以将辅助技术用户加入到可访问性可用性测试过程中。这应该是任何数字开发或改进项目的一部分,并且随着开发的进展迭代完成。如果你要求辅助技术的用户造访你的工作场所或用户研究工作室,你应该明白,你所拥有工具的参数与参与者的设置不同。这意味着你需要给他们留出一定时间,让他们按照自己的需求设置和选择工具。如果条件允许,可以到辅助技术用户熟悉的环境中开展用户研究(可以参考第十三章的情景调查)。
干预性的可用性研究的弊端
这是一种耗时的研究方法。与参与者一起开展用户研究,限定他们在何时何地进行研究有很大难度。因此,如果你的时间日程紧张,而且提前计划对你来说有难度,此种研究方式可能不是你的首要选择。
干预性测试使用的是小样本,所以在统计学上是没有多大意义的。开展用户研究的新手们有时会因为不了解行为和观点之间的差异,而去质疑那些“只来自5个人的样本数据”。对于利益相关者来说,基于5个人的意见就同意进行资金投入是十分不明智的(我们将在第三部分分析和展示你的数据章节中详细讨论此问题)。此种方式有助于我们了解背景和情境。让利益相关者亲自参与观察是非常有用的。有时还需要额外开展一系列研究(如定量研究)来说服从事用户研究的新手们。
如果你想观察“自然”的行为,这种方法不是首选。大多数人不会整日坐在那里自言自语:不断地谈论在做什么和在想什么。参与者通常愿意尽自己最大的努力,很快投入到这项任务中。我要补充的是,大多数人很快就会习惯自言自语,在完成任务期间你可以给出一定的合理的提示帮助他们保持这种状态。
开展此种研究所需的准备工作
可用性测试是最容易实践和学习的一种方法。学习基础知识相对容易,如果你掌握了实践的基本原理,你可以立即开展可用性测试。但要成为一名熟练的实践者确实需要花费一些时间和精力。
结果是会受到方法的影响的,这就是所谓的“观察者效应”。这是物理学中众所周知的现象:观察会改变正在被观察与衡量的行为。你无法回避这样一个事实:对参与者进行观察及与之进行的交谈会改变他们的行为,他们会表现得与你不在场时不同。要意识到,观察者在用户研究干预性方面的经验越少,他或她对用户的影响就可能会越大。随着实践经验的积累,这种影响也会越来越少。但是,它将永远是影响用户研究的一个重要因素,所以不要让缺乏经验成为你顺利完成可用性测试的绊脚石。
案例分析 可用性测试示例
可用性测试是我在做博士研究时自学的第一个用户研究方法。我测试了一些高度互动的软件,这些软件整合了多个地理数据集,以帮助研究生们了解英格兰湖区的特定区域正在发生的环境变化。
因为我已经掌握了关于最佳实践的基础知识,所以我不仅能够使用这种方法来识别软件的可用性问题,还可以找到不同用户组识别得出的各类不同的问题,这是研究生和博士生所要学习的学术知识。这也向大家证实了将相关的用户纳入到研究中是至关重要的。
何时开展干预性的可用性测试
在开发生命周期的任何阶段,包括从最初的纸质原型到最终的运行系统、服务和体验的完全实现,都可以使用可用性测试。如果有条件的话,使用面对面的可用性测试(此种类型永远是我的首选),因为观察面部表情和肢体语言可以帮助你了解真实情况。如果你的参与者来自天南地北,或者是你没有条件去现场拜访他们,他们也没有条件拜访你,远程的适度可用性测试也不失为一个很好的选择。
如何开展干预性的可用性测试
我们在前文中已经讨论过了“可用性测试”的含义。现在让我们概述一下其他相关词的内涵:
- ● 干预性的:在整个环节开展过程中,你一直与参与者交谈。他们一边和你交谈,一边完成你向他们提供的各项任务。
- ● 面对面:同一时间,同一个地点发生。
- ● 远程:你与参与者处于不同的地方。
- ● 定性研究:这意味着你收集到的信息没有太大的统计学意义。这也意味着你不用计算参与者完成一项任务所需的点击量,也不用计算完成任务所需的时间。
我们已经考虑了做用户测试(或者其他研究)的一些准备工作,比如选定你所要研究(或其他研究)的问题或事项,以及确定参与者人选(以及你将如何激励他们)。你还需要设定用户研究的日期、时间和位置,然后起草体验协议,最后,展开研究!
创建协议或脚本
协议或脚本列出了你想对参与者说明的所有事情,你想要提出的问题,你想让他们做的任务,以及你想要观察的某些事项。各种资源对于这类文档的描述各有不同。这可能只是语义上的差异,但是从术语解析层面来说,也是有细微的差异的。接下来我将向大家分享我的理解。这些理解来自我在Bunnyfoot (www.bunnyfoot.com) 经纪公司工作的亲身体会。
“用户测试脚本”是你需要严格遵循并按照所编写的顺序对所有内容进行说明和操作的一种文档。然而,令人困惑的是,“用户测试协议”看起来与脚本完全相同,但使用方式不同。你不需要把事情都按照一定的顺序标记出来,并且按照此顺序来完成每一件事情。在研究过程中,你可能会发现某些问题或任务与某名特定的参与者无关,因此你可能会把它们剔除掉。有时你可能会打乱顺序来完成这些任务,只要效果更好即可。采用此种方式使用此类文档的最大的好处是参与者可以一次性完成两项任务,这样你完成接下来的任务时就更从容了。
是选择使用脚本还是协议完全取决于你,无论使用哪一种方式都是合法的。我个人更倾向于协议这种方式,但是如果你是刚刚涉足可用性测试领域,你可能会对脚本的方式更为青睐,因为脚本的方式可以涵盖你需要的所有东西。如果你选择使用协议的方式,那么在第一页的底部注明免责声明是非常有必要的,这样可以与其他和你一起共事或者一起观察研究的人员共享协议内容。为简单起见,我将统一用协议来代指所有的可用性测试文件。
协议应该包含的内容
1. 简介以及第二章中谈论的道德和法律问题(5分钟)。
2. 简短的任务前的面谈问题(5分钟)。
3. 用户研究任务。
4. 简短的任务后的面谈问题(5分钟)。
正如这个列表中所建议的那样,你应该留出大约5分钟的时间来进行介绍、任务前和任务后的面谈内容。如果有必要,你可以适当延长时间,但是我一般不会超过10分钟,因为我们还是需要把主要精力放在研究任务方面。
1. 简介以及第二章中谈论的道德和法律问题(5分钟)
在第二章关于道德和法律问题的讨论中,我曾经列举了一个示例,向大家展示了应该如何开展研究环节,如何向参与者解释研究内容,接下来会发生什么事情,一旦这些事情发生后如何进行记录,以及你将如何使用这些数据。向用户提供一系列的背景知识是研究环节开篇的一个重要方法。如果你想撰写面试问题以及研究任务,你可以参考第三章的内容,关于如何提出合适的问题等相关章节。
2. 简短的任务前面谈问题(5分钟)
仅从筛选问卷中你获得的关于参与者的信息是非常有限的(详见第三章关于谁应该参与你的研究等内容)。提出一些简单初级的问题是一个非常好的用以了解参与者并让他们自然放松的好方法,之后可以深入开展任务。这些简单的问题可以聚焦在了解参与者对你所研究的任务或领域方面的相关体验。这将有助于你进一步理解你在接下来访谈过程中所需要做的一些观察:参与者表现出的某种行为方式以及此种表现的原因,他们完成任务的方式,是否出现某些问题,他们又是如何解决这些问题的,等等。
如果你对所在的行业或者你正在研究的领域了解甚少,那么在定夺需要提出哪些问题时是有一定难度的。以下的这些数字化体验问题可以帮助你解决这一问题:
a. 你在家里使用什么设备(台式机、笔记本电脑、平板电脑、智能手机、智能手表、智能电视、游戏机等)?
b. 你在工作过程中使用什么设备(台式机、笔记本电脑、平板电脑、智能手机等)?
c. 以下任务中,你会倾向于通过在线的方式完成哪些任务:开展研究、订票和旅行、打游戏、社交媒体、办理银行业务、购物、通信、阅读、听音乐、看电视、看电影、玩视频博客,或者观看其他视频等?
d. 以下任务中,你不会通过在线的方式完成哪些任务:开展研究、订票和旅行、打游戏、社交媒体、办理银行业务、购物、通信、阅读、听音乐、看电视、看电影、玩视频博客,或者观看其他视频等?
提示c和提示d:你能告诉我为什么你喜欢/不喜欢通过在线的方式来完成这些事情呢?
3. 用户研究任务
根据你的研究目标,你可以在用户测试期间设置两种不同类型的研究任务:具体任务和开放式任务。如果你想让你的研究集中在某个具体的问题上,你可以使用特定的任务和问题。例如,为什么遗弃购物车的人的比率会如此高?或者为什么用户会在某一个节点放弃旅行。采用具体任务可以让用户清楚地知道接下来要做什么以及交谈过程的要点。采用具体任务的方式有诸多方便:
- ● 你可能想要测试某一项特定的特性或者特征,也许是一个新的特征,也许是一个不是那么重要的特征。
- ● 如果你想知道用户在某个体验中的中途退出点,你可以让用户身临其境,全心体验,然后了解他们中途退出的原因。
- ● 如果你的产品较为复杂,并且你希望用户学会了初级操作后按照学习曲线展开学习,那么此种情况下,你希望用具体任务来指导用户,并通过这种方式向用户解释场景(例如投资银行、股票等应用程序等)。
你还要注意确保在提出问题时,避免给出具体的反馈或是给出确切的指示。应该让用户研究参与者自己去探索问题的答案。
开放式任务要求你尽可能少地向参与者提供关于如何执行任务的信息和解释,让他们自己找到问题答案或解决方案。如果你正在开发一种新的产品并且正在检测原型,那么你对用户测试的关注点就会较为宽泛,让你感兴趣的是人们如何使用和体验它。此种情况下,你没有必要对参与者的行为作出过于具体的规定。
你还可以使用开放式任务来挖掘大家感兴趣的话题。你在研究刚开始时可能会无从下手,但在随后的测试中就可以不断缩小关注范围。开放式的任务和问题有助于开展探索性研究,因为你可以观察人们如何使用你的产品或接受服务,而不是由你来制定使用方法以及告知他们可能会遇到的问题。你可能会找到问题所在以及产品或服务给使用者带来的不便和麻烦。然而,放手让用户自己探索,可能会让你发现之前从未意识到的问题。
请记住,开放式任务和探索性研究也需要明确的目标,这在第一部分已经讨论过。开放式任务和具体任务都需要从两个渠道进行设置:(1)预先设定的任务:这些任务你事先已经选定,以确保在研究环节中能够涵盖所有的主题和问题;(2)用户设置的任务:参与者自己选择或者在你的协助下进行选择。在最初的面试阶段,你提出的问题可以帮助你选择任务。例如,你可以询问参与者他们是否曾经使用竞争对手的产品/服务完成过类似的任务。
你可以在一个研究中应用所有的这些任务类型,或者根据研究的重点只使用一种特定类型的任务。协议的主要内容就是任务列表,你需要告知参与者这些任务(如果这些任务是预先设置好的),以便他们能够完成这些任务。如果没有预先设置好任务,还需要在参与者完成任务期间,对任务做记录。
在干预性的可用性测试中使用“自言自语”
自言自语是开展干预性测试时所采用的主要的研究方法。自言自语是指让参与者在完成由你或他们设置的任务时,说出他们在做什么,在想什么,以及他们的感受。
自言自语对于深入了解参与者在完成任务时的心理过程是非常有用的。从积极方面来讲,他们喜欢什么,什么能给他们带来欣喜和惊奇,哪些任务他们不费吹灰之力就可以完成。从消极方面来讲,你可以发现是什么让他们感到困惑,他们不喜欢什么,是什么给他们带来挫败感,以及他们的种种误解。这种方式对识别参与者在哪些方面与你的初衷有较大出入,是非常有效的。了解哪些部分有效,哪些部分无效,对确定在内容、设计和流程中应该作出哪些更改是非常重要的。
你需要记住的是要试着把自言自语和观察结合起来,这在第三章中也已经讨论过。虽然在大多数情况下,人们是诚实可信的,但事实并非总是如此。例如,人们不会总是真实地承认自己的痛点或遇到的难点,或者即使是承认,也会倾向于对之轻描淡写。
当你首次在可用性测试中使用自言自语时,你可能会在参与者停止说话的间歇期间提出一些探索性的问题。但是,一旦这样做,你就有可能会偏离研究的主题,也有可能提出一些有引导性的、带有偏见的问题。这样一来,参与者本来打算告诉你某件事情,他们可能会闭口不谈了。偶尔出现让人尴尬的沉默也是允许的,大多数参与者一般会努力发表一些评论和见解来打破僵局。你也要学会多用“嗯嗯”、“是的”等词来予以肯定,以鼓励参与者继续说下去,而不会误导他们。随着经验的不断积累,你就会掌握说话的时机和火候,因为参与者在表达自己的想法时,也是需要鼓励的,当然你也清楚什么时候该保持缄默。
参与者在遇到困难的时候会向你提出一些问题,这会让你陷入两难的境地:一方面想要减轻参与者的沮丧/焦虑/压力,但另一方面又不想代入个人偏见。如下是一些处理此类情况的技巧,以供大家参考:
- ● 立即记录下他们的问题,以及他们在任务中所提的问题。
- ● 在回答问题之前,询问他们如果让他们自己选择,他们会如何去做。这对于观察他们是否能自己解决问题,或者掌握如果你不在场的情况下,他们会何时放弃,是非常有用的。
- ● 如果这些问题对研究不重要,可以选择不回答这些问题。只是告诉他们继续完成下一步就可以。你可以告诉他们你会在研究结束环节回答这些问题。
- ● 如果这些问题对研究至关重要,你应该提供帮助。但是请一定记下你提供帮助的内容,以及他们自己无法完成的任务,因为这就是一个严重的可用性问题。
4. 简短的任务后的面谈问题(5分钟)
一旦你完成了既定的任务,或者在时间允许的情况下尽可能多地完成任务,请在研究结束前留出5分钟时间让参与者来回答一些简单的面试问题,这是非常有用的。从中立和开发的角度来说,提出问题时仍继续遵循一直秉承的中立和开放的原则。你可以向他们提出任何问题,但是记住,相较之前提问过的问题,也有一些问题是非常有用的,例如我在下文中建议大家提出的问题。你可以根据你在研究环节中观察到的和听到的内容对这些问题进行调整、添加或删除。只要与研究环节相关就好。
我们需要时刻牢记的一点是参与者在最后环节所发表的意见并不总能准确地反映他们刚刚的体验过程。有时,他们在评论的时候会显得过于积极或消极(这件事本身就非常有意思)。以下是一些任务完成后可以提出的访谈问题,以供大家参考:
- ● 请你对今天的网站体验做出总体评价。
- ● 这与你的预期相符吗?有什么让你出乎意料的事情吗?
- ● 操作起来容易吗?
- ● 整体来说容易让人理解吗?
- ● 在浏览了网站上现有的内容之后,您还想了解其他内容吗?或者这些内容涵盖得全不全?
- ● 如果让你改变一个项目,这个项目是什么?
- ● 你还有其他的补充吗?
建议以感谢致辞结束研究过程,例如“非常感谢您的参与。这将对我们改进×有很大的帮助,会大大提高它的可用性”。如果还有跟进环节,现在是时候提醒他们进入下一个环节,当然也应该向参与者支付报酬了(如果有报酬的话)。
远程测试注意事项
干预性的远程测试与面对面的可用性测试的开展方式在起草协议方面是大体一致的。远程和面对面的可用性测试的主要区别在于是否使用让处于不同地点的人相互交流的技术,所以在远程测试中你需要设置更多的提示和问题,因为你无法像在面对面测试中那样观察到参与者的肢体语言和面部表情。应记住在远程测试中,因为你和参与者都需要设置和登录使用的在线工具,所以在设置研究时长时要比面对面测试长一些。其他的规则对于远程测试和面对面测试均适用。如果在研究过程中,还有其他人参与观察,你需要把这一点告知参与者。
干预性的可用性测试所需工具
设备清单
- ● 协议(一份或者向每位参与者发放一份)。
- ● 能够做笔记的本、纸等。
- ● 具有数字功能的设备(台式机或笔记本电脑,平板电脑,智能手机等)。如果是移动设备,为参与者多预备几个设备是非常有必要的,因为移动设备的操作系统有时会完全不同(例如,苹果系统和安卓系统)。让参与者选择他们熟悉的设备是非常有必要的,以防得不到真实的结果。
注意:我倾向于将我的笔记标注在协议上相关的任务或问题旁边,这样我会为每一位参与者分别准备一份协议,做记录,留作己用。给其他人复印一份协议,以便他们在纸上或者手提电脑上做记录。
可选项
- ● 额外增加一个同步屏幕,可以查看参与者使用的设备情况,这样你就不用时不时地盯着参与者的屏幕看了。
- ● 记录会话的设备(如果不是在传统计算机上记录的话,可以用录像设备)。如果你在台式机或笔记本电脑上操作,你可以使用录屏软件,也可以使用专门用来记录和编辑可用性测试会话的软件,如来自TechSmith (https://www.techsmith.com)的专业软件Morae和Camtasia。
- ● 如果在移动设备上进行测试,则需要具备各种可供使用的网络摄像机。
眼动追踪设备相对来说造价较高,但是一般情况下,专业实验室都会配备此设备。它可能对你的用户研究有用,但这并不是必要的。眼动追踪设备对于观察很有用,因为它能让你看到参与者在看什么,他们关注什么,他们忽略了什么。如果你有机会使用这个设备,是非常值得好好研究一下的。
远程测试工具
截至落笔时,视频会议和屏幕共享等工具尚是免费的,且使用起来也非常方便。你的组织可能有专门用于远程测试的工具,但是在使用时,应考虑到你的参与者是否能够轻松使用这些工具以及这些工具是否存在技术局限性。
根据你要测试的产品/服务的特性,使用这些工具的方法也各有不同。例如,如果你要测试的是一个实时网站,那就可以邀请参与者访问该网站并与你共享屏幕。这是远程测试中最快速、最简单的一种方式。如果测试的对象是服务器上的原型,那么你需要先登录电脑上的原型,然后让参与者操作你的屏幕,这样就可以实现互动。有时参与者在操作时可能会有一些延迟,但一般情况下这是可以允许的。在这种情况下,你可能要与IT部门商讨访问权限。
接下来为大家介绍一些免费(或可以免费试用)的视频会议和屏幕共享工具,分别为:https://www.join.me/, www.gotomeeting.com, http://www.screenleap.com/和www.skype.com。这些工具可供大家选择,并且这些工具一直在升级。找到一款可以让你和参与者共享屏幕控制的工具,这样你和他们可以通过屏幕进行互动(如果条件允许的话)。
非干预性的可用性测试的基本原理
什么是非干预性的可用性测试
非干预性的可用性测试是指参与者在协调人不在场或非干预的情况下,完成特定的、既定的任务,此种测试的对象主要是数字化项目。与干预性测试一样,非干预性的测试既可以采用面对面的方式,也可以用远程方式完成。
非干预性的可用性测试的优点是什么
在远程非干预性的可用性测试中,参与者可以在任意时间、任意地点,在任意设备上完成研究任务,从而使你和参与者都有较大的灵活性。有些人认为这种测试方式比干预性的可用性测试更真实、更公正(左巴, 2017)。虽说自言自语及提出问题确实会对完成任务的方式产生一定的影响,但是与可以获得更深入的定量数据相比,这些影响也就微不足道了。当然,选择采用哪种方式,还要依据研究目的而定。
仅通过观察的方式,非干预性的可用性测试在理解参与者如何真实地完成任务方面是非常有效的。你在参与者执行任务过程中,不得与之交谈或者询问他们关于他们在做什么或为什么这么做等问题。这在如下的情形中的确是一种非常有用的方式:
- ● 你需要大样本数据。从设计的角度来看,面对面可用性测试收集到的小样本数据足以了解用户行为。但是,让利益相关者依此做决策,难免会让许多人颇有微词。提供大样本研究数据可能比试图说服其他人相信小样本数据得到的结论要来得简单(我们将在后文中讨论如何增强利益相关者的信任)。
- ● 难以找到参与者。他们可能地处五湖四海或者因为时间紧张,或者是其他原因,参与者难以与你进行会面。采用此种方式,一方面研究得以正常进行,另一方面花费成本也不高。
- ● 时间紧张的情况。例如,若你是在敏捷环境中工作,我们都知道在时间紧迫或进度落后的项目中工作是什么样子的——快速完成研究可能是唯一的选择,而一项非干预性的研究恰恰可以在几天内完成。然而,不应该将非干预性研究作为迭代测试的唯一方法,在工作计划中还可以使用多种不同类型的研究。
- ● 有些研究需要在特定的场景下完成。有些产品/服务的使用环境是无法在实验室/办公室中复制的。例如,用于户外定向训练的应用程序或急救医务人员提供的服务。
- ● 预算有限的情况下。远程非干预性测试不需要预定地点,使用的工具所花费的成本也是可控的,所以在资金筹备方面也非常灵活。
非干预性的可用性测试的缺点
与其他所有的方法一样,非干预性的可用性测试有一定的局限性:
- ● 你能招募到合适的人选吗?既然选择了非干预性的可用性测试,就意味着你将那些不擅长使用电脑和互联网,或者不熟悉数码设备的参与者排除在外。在选择测试方式时,需要考虑到参与者的范围。此外,非干预性测试中不可避免地会混入一些只看重报酬的参与者。
- ● 缺乏更深层次的交谈。虽然你可以向用户提供开放式问题列表,但你无法从协调人和参与者之间的对话中获得深入的见解。
- ● 你很难控制局面。因为什么时候完成任务完全由用户研究参与者自主决定,所以参与者可能会不遵照你的计划行事,提前进入下一个任务。
开展此类研究需要做的准备工作
与干预性的可用性测试一样,你可以非常快地掌握非干预性测试的基本理论知识。最重要的是要记住实践才能出真知,要不然,开展大部分类型的非干预性测试是轻而易举的事情了。如果你采用的是远程测试的方式,根据你测试的内容以及选择的工具,你还需要一些技术支持,以保证研究的顺利开展。提前将此告知技术人员是一个好主意(如果你个人不是技术人员的话)。
何时使用非干预性的可用性测试
在定量数据至关重要,需要大量参与者参与研究的情况下,使用远程非干预性的可用性测试是再好不过的了。无论是在远程还是面对面的可用性测试中,参与者的行为都应以某种方式跟踪/记录下来,以便日后开展分析。
如何开展非干预性的可用性测试
开展高质量的非干预性的可用性测试需要从最初的设置开始,首先应该考虑的是形式,形式既可能是低性能的,也可能是高性能的:
- ● 数字/纸质原型:你画在纸上的设计图或者是没有内置功能的简单线框图(数字草图)。
- ● 低性能原型:只是带有一些简单功能的黑白线框图(例如,一些按钮是可点击的,当你按下它们时,会发生一些操作)。
- ● 高性能原型:交互式的线框图,图中进行了视觉设计。它们看起来像极了一个美化过的网站。
- ● 现场测试环境:一个网站的工作版本,可能还没有完工或者尚未公开发行使用。
- ● 现场公开网站。
- ● 其他相关事物,包括在面对面非干预性测试中使用的实物。
根据需要选择非干预性测试类型
决定好你想要记录的观察结果。对于远程测试来说,这可能会影响你选择的工具类型(例如,是否允许参与者添加定性注释的工具)。在面对面的测试中,这将会帮助你向各位观察员作出说明。你还需要确定做记录的各项指标:
- ● 任务完成率;
- ● 完成任务的时长;
- ● 页面停留的时长;
- ● 每项任务的点击数;
- ● 网站分析数据(如浏览器、操作系统、屏幕分辨率、设备)。
撰写非干预性测试协议
开场白:在参与者开始做任务之前,先让他们阅读协议并同意协议内容。协议会向他们说明接下来开展的任务(任务内容及时长)、任务主题、获得的数据以及处理数据的方式、数据保存的时长。你还可以在开场白之后向参与者提出一些问题,但是一定要在正式任务开始之前提问。
设置任务。你应该事先好好设计任务。因为没有协调人,所以设计的任务应力求简洁,易于执行。避免在一个问题中设置两项任务,这可能会给参与者带来困惑。让参与者每次完成一项任务是非常重要的。
进行先导测试。这样可以获得研究者完成你事先设计的任务需要花费的平均时长。我认为对非干预性的测试来说,将测试时长控制在较短时间(30分钟以内)内完成,效果会更好,因为此种测试结果依赖于参与者的自制力。
任务/测试后问题:当所有任务或测试都完成后,你可以在每个任务之后或者每一段会话结束后向参与者提出一些问题。在完成每一项任务后,你可以询问参与者他们对任务完成的满意度。有多种方法可以用来测量这些指标,例如净推荐值(Net promote Score),这是一种付费的跟踪客户体验的解决方案(Satmetrix系统, 2017)。还有系统可用性量表(系统可用性量表SUS;Usability.gov, 2017)。系统可用性量表要求参与者对以下10个项目打分(参见托马斯, 2015),当然你还可以使用任何相关问题:
1. 我认为我会经常使用这个系统。
2. 我觉得这个系统没必要这么复杂。
3. 我认为这个系统使用起来非常方便。
4. 我得在技术人员的帮助下才能使用此系统。
5. 我发现这个系统把各种功能集成得非常好。
6. 我认为这个系统有太多的前后不一致的地方。
7. 我猜想大多数人会很快学会使用这个系统。
8. 我发现这个系统使用起来相当麻烦。
9. 我觉得这个系统使用起来非常方便。
10. 在开始使用这个系统之前,我需要学习很多东西。
我建议使用一个明确的量表来进行测度,例如:
强烈同意
同意
既不同意也不反对
反对
强烈反对
当参与者完成任务时,向他们提出一些封闭性的问题,让他们从中选择相关的答案,而不是要求他们输入答案回答一个开放式的问题(这对参与者和你来说难度会更大,也需要花费更长的时间来分析结果)。有时候可以破例:如果你想获知参与者对某事的理解,你可能需要提出开放式问题,留出空白文本框,以便参与者填写他们所理解的内容。
你可以让参与者在事后完成一项调查,但研究表明,人们很难准确地回忆起过去的行为。一些远程的非干预性的测试工具的确可以实现让参与者在完成任务时做笔记和注释的功能。这与主持人向参与者提出问题(观察者效应)一样,参与者一边完成任务一边做笔记,在一定程度上会干扰自然过程。采取什么样的方式来完成你的研究取决于你的目标,每一种方法都各有利弊。你需要在以下两个方面做出取舍:是想要精确的观察结果(允许参与者在完成任务的同时做笔记或者录下他们自言自语的声音),还是想要真实自然的任务完成过程(如果你想了解参与者的想法,可以在任务结束后进行调查)。
感谢致辞
这可以作为远程研究结束前的最后一个页面,也可以作为后续电子邮件的内容,这取决于你使用的研究工具。如果是面对面测试,你可以在研究结束时直接向参与者发表感谢致辞。你可以写一份简短的感谢致辞来表达你对他们参与研究的感激之情,就接下来发生的事情向他们提供友情提示,并告诉他们你的联系方式。
面对面的非干预性可用性测试注意事项
在面对面非干预性研究中,参与者被单独留在研究实验室(或者你开展测试的地方),完成一系列的任务。你可以选择在别处或者坐在参与者旁边进行观察。是否要求参与者自言自语,还是取决于你的研究目标。此种方式不寻常,使用的频次也少,但是还是值得考虑,因为参与者在与你的产品或服务发生互动时,与干预性测试相比,这种方式下参与者的行为更为自然。尽管如果测试场所不是在参与者家里或者其工作场所中,这也不能算作是最为自然的场景。
如果你的测试地点是在一个研究实验室中,你可以使用眼动追踪技术来帮助你完成观察过程。非干预性测试下使用眼动追踪技术可以帮助你解决如下问题:
- ● 参与者注意到××了吗?
- ● 参与者能够使用××吗?
- ● 页面上有××对参与者的认知负荷是多少?××给参与者的导航体验增加了难度还是减轻了负担?(理查森, 2014)
由于你可以与参与者直接接触,所以在任务完成后,你有机会询问他们的体验情况。如下几种方法可以帮助你做到这一点:
- ● 在线调查或纸质调查:在每项任务之后,参与者回答几个问题。这不会对任务的完成造成太大的干扰,但同时你也不会获得更深刻的答案。
- ● 简短的面试:向参与者提出几个问题/让参与者对其体验情况做简短的讨论。所得到的结果是否准确依赖于参与者是否能够准确地回忆起他们的行为以及对体验的感受。
- ● 后体验眼动跟踪协议(PEEP):在这种情况下,你和参与者一起观看参与者完成任务的视频。你可以在某个时间点暂停视频,询问他们在那个特定点上正在做什么或者正在想什么。这种方法可谓是一种劳动密集型的方法,因为观察者/协调人需要精确地记录他们想要询问参与者的内容。你在多项任务中都采用此方式,如果研究环节中的任务量不多时,会对研究环节的开展产生不利的影响。这种方法的主要好处是你摆脱了对参与者回忆和记忆的依赖,能够对他们的体验情况展开更为准确和深入的探讨(鲍尔等, 2006)。
用于非干预性的远程可用性测试的工具
根据你现有的资源进行你想要开展的测试,需要找到一个工具。根据你的要求,大多数工具都可以进行现场演示,或者在你决定此工具是否适合你之前能够免费试用。如下这些工具可供选择:
Loop1:http://www.loop11. com/
Usertesting.com:http://:www.usertest.com
UserZoom: http://www.userzoom.com/
WhatUsersDo: http://whatusersdo.com/
Zurb: http://zurb.com/
Lookback: https://lookback.io/
可用性测试总结
干预性与非干预性并不是对立的
干预性和非干预性测试是可以互补的:你可以同时使用这两种类型的研究。例如,你在对原型进行测试时可以采用干预性测试,用于解决主要的可用性问题;在开发周期中,可以采用非干预性测试对现场的运行进行评估。如果条件允许,这两种类型的研究都可以开展,以确保结果的真实性。
增强小样本数据说服力
如果你已经做过研究或者积累了一些用户研究的经验,那么你对于利益相关者对小样本数据抵制或不信任的情况就见怪不怪了,他们相信的是非干预性的用户测试和用户研究中用的大样本数据。加强利益相关者对定性用户测试的理解有助于增强他们对研究结果的信任,也能够增强对接下来所做的决策的信心。
莱伊竭尔特(2014)主张,如果你采用的是定性设计研究,就不应该对样本量或统计意义进行质疑。唯一重要的事情是你的团队成员们对其作出的决策是否有信心。
莱伊竭尔特(2014)建议,所有参与决策的人员都应该定期观察用户研究。这对于公务缠身的利益相关者们来说,是非常困难的,但可以采用视频回放的方式来弥补。一旦你开始做用户研究,你就会忙于处理你所学到的所有东西,你就没有时间去担心统计数据了。你会知道哪些是没有用的,哪些是有用的,你也会明白哪些内容你需要花费更多的时间去学习。