本文帶大家梳理一下可用性測試的概念和研究方法,幫助大家做好可用性測試。
拓展閱讀:
1. 什么是可用性?
可用性是衡量交互產品/系統質量的重要指標。指的是產品為特定用戶用于特定目的時所具有的有效性、效率和主觀滿意度。
2. 什么是可用性測試?
通過觀察有代表性的用戶,完成產品中的各項任務,以洞察用戶行為,界定出可用性問題。這是一種啟發式的測試,顧名思義我們可以從中獲得啟發:用戶可能怎么用我們的產品?有什么問題和不足?某個問題有多嚴重?都可通過這種小規模的測試給我們指明方向,一定會比自己空想要更加有效和客觀。
3. 什么時候做可用性測試?
- 診斷問題:找到產品存在哪些問題,為什么存在這些問題。
- 驗證設計目標是否達到:設計是否滿足用戶需求,用戶是否以預設的方式來使用產品。
- 測試競品的設計:與競品相比,我們的產品有哪些優勢和不足?
4. 測試需要多少名用戶?
答:只需 5 名
根據尼爾森的數據模型,測試 5 個人可以發現 85%的問題。每次測試 5 名用戶是效益最大化的做法,這也是行業建議的數量。
可能會有同學會問:
“用戶樣本這么少,結果靠譜嗎,能具有代表性嗎?”
答:要知道無論是哪一種調研方式,都存在一定的優劣和局限性。
可用性測試最大的優點就是高效和相對客觀。只要通過嚴謹的調研方法,我們就能夠用最少的時間成本獲得具有一定可信度的用戶數據。因此對于調研方式的選擇,是取決于當下所面臨的情況。可用性測試在產品快節奏的迭代中不失為一種優秀的解決方案~
1. 測試人員構成
選出 2 名成員做測試員,一名負責提問和引導用戶,另一名負責記錄和補充提問。
2. 用戶招募
每次招募 5 名用戶,對用戶單獨進行面對面測試。測試可通過線下或線上進行,但需要確保測試期間能夠看到用戶的使用界面。在招募用戶前明確好測試目的,確保招募的用戶為目標用戶。
3. 測試提綱撰寫
測試提綱對應的是我們需要收集的測試數據,可分為以下三部分:測前問題、情景任務、測后訪談。
測前問題
用于了解用戶的使用習慣、偏好等背景信息。
提問范例
你多久使用一次[測試網站/類似網站]?
你最近一次使用[測試網站/類似網站],用來做了什么?為什么?
你覺得這個網站的體驗如何?
你是否使用其他類似的網站? 分別有哪些?
請描述一下你通常是如何使用[測試網站/類似網站]的?
能否教我你用什么技巧去[檢索/搜尋特定信息],例如:能告訴我你預訂假期/買車的方法嗎? 等等。
情景任務
這部分的問題是整個測試中最核心的問題,在撰寫時注意以下要點:
- 清晰描述這個任務的情景/前提。
- 描述一個用戶在真實生活中會發生的情況。
- 用大白話描述,切記不要使用專業術語/行話。
那如何寫出一個優秀的情景任務呢?來看看下面的例子:
范例一
「原 版」
打開中國領事館服務網,你能找到那個告訴你怎樣申請護照的鏈接嗎?
「優化后」
你的護照丟了,現在你需要辦一個新的 — 去領事館官網看看如何重辦護照。
范例二
「原 版」
到京東買一個小豬佩琪玩具作為你女兒下周二的生日禮物。
「優化后」
下周二是你女兒的生日,你想送一個和她喜歡的卡通人物相關的禮物 — 看看京東網上有沒有合適的。
測后訪談
對于測試中發現的問題、用戶的使用感受與動機進行補充提問。
提問范例
有哪 2-3 點是你最喜歡的?
有哪 2-3 點最需要改進的?
你把這個產品推薦給朋友/同事的可能性有多大?[1 非常不可能 10 非??赡躚。
你角色這個任務的難易程度如何? [1 非常困難 5 非常容易]。
你會怎么評價你使用這個產品的體驗 [1 差評 5 好評]。
請用 3 個關鍵詞形容這個網站。
1. 測試準備
測試開始前,請提前設置好相機,以記錄用戶使用產品的過程,以便后期回看。
切記測試中的記錄也是非常重要的,因為從頭回看視頻是很浪費時間的,可以在記錄時標記視頻錄制的時間點,以提高數據整理的效率。
2. 破冰環節
在測試開始之前,向用戶介紹測試目的,并與用戶交流,鼓勵他們說出內心想法。你可以用到以下話術:
“這個測試是用來測我們產品的問題的,請你放心大膽提意見”
“你思考的時候可以直接把你的想法說出來”
“任務過程中我不會干涉你,但你如果遇到問題可以向我求助”
3. 測試期間
根據測試提綱進行提問,當發現用戶在任務中出現問題時,可對用戶進行引導或追問:
“你是怎么理解這個頁面上的信息的?”
“你現在想做什么?”
“現在發生了什么?”
“你是怎么想的?”
“期望接下來發生什么?”
但切記不要說太多話打斷用戶,這部分主要是觀察而不是訪談
測試中可以參考關注以下緯度的數據,以便在后續的報告中做量化的總結。
1. 效率
完成時間 (* 感知時間有時候比實際時間更重要)
點擊次數
2. 效能
完成率
求助次數
錯誤次數
3. 滿意度
測試后訪談
皺眉、嘆氣等身體語言的次數
不由自主發出的消極/積極評論
1. 任務完成率
可記錄完成任務的用戶數,從而得出任務完成率。
一般性任務的完成條件比較明晰,但也可以給部分任務定義成功標準,比如增加事件限制等。
2. 任務完成時間
任務時間即用戶花費在一個任務上的時間,以往我們一般以均值的方式報告??梢耘浜先蝿胀瓿陕室黄鹩脋
對于小樣本量(樣本量小于 25),計算均值使用幾何平均值最佳,比中位數和平均值有更少的錯誤和偏差。
3. 其他評估指標
評估有效性
任務完成率
錯誤數
需要幫助的次數
評估效率
任務完成時間
點擊次數
評估滿意度
皺眉,身體語言等
表達積極性/消極評價的頻次
滿意度量表(如:SUS 量表)
使用標準化問卷測量用戶的主觀滿意度,推薦使用 (SUS System Usability Scale)軟件可用性量表,適用于小樣本量的場景。量表內容如下:
1. SUS 分數計算方法
分值轉化:
奇數項(正面描述題),分值轉化=原始分-1
偶數項(反面描述題),分值轉化=5-原始分
SUS 量表總分=所有轉化后的得分相加 X2.5(乘 2.5 之后變為百分值)
2. 注意事項:
- 在使用產品之后填寫。
- 如果用戶因為某些原因無法完成某個題目,那就視為用戶在該題上選擇了中間值。
- 不要更改用詞,但‘系統’這個詞除外,“系統”替換成“網站、產品”或產品自身的名字等,對最后的分值沒有影響。
- 不收費,但任何公開出版的報告要對這個方法的來源致謝。
- 10 為易學性,信度系數 0.7;1、2、3、5、6、7、8、9 為可用性,信度系數 0.91。 所以也可以變為簡版,去掉 4,10。
3. SUS 分數可以用來做什么?
用于評級
對應下圖,可得出字母等級評級、描述性評級和可接受范圍與 SUS 分數之間的關系,可助于向非專業人士解釋 SUS 分數的結果。
① 字母等級:A級: ≥90分 ; B級: ≥80分;C級: ≥70分;D級: ≥60分;F級: <60分
② 描述性評級:完美(Best Imaginable): 100分; 優秀(Excellent): 85-99分; 良好(Good): 73-84分;合格(OK):52-72分; 差勁(Poor): 39-51分; 糟糕透了(Worst Imaginable):39分以下
③ 可接受范圍:可以接受(Acceptable): 70分以上; 中立(Marginal): 50-70分;不可以接受(Not Acceptable):50分以下
百分制等級
除此之外,也可以將 SUS 分數換算成百分等級來解釋,百分等級的意思是指測量的產品或系統相對于總數據庫里其他產品或系統的可用性程度。比如 SUS 得分是 73 分,其百分等級大約為 67,意味著比大約 66%的產品可用性更好。
*這個表格是 Jeff Sauro(2011)通過 446 個研究,超過 5000 個用戶的 SUS 反饋的數據庫。這個基準數據也可以由內部團隊制定。
量化過程可分為三步:
- 問題嚴重性評定
- 問題發生頻率評定
- 計算優先級
1. 問題嚴重性評定:
列出測試中出現的問題,并分別打分——4分制,評定標準見下表(例:用戶在某頁找不到某功能的入口,這個問題導致了一個嚴重的挫折,嚴重性分值為3分)
*當多個用戶表現得不一致時,若程度分最高的比例大于等于 25%則按最高分計算,小于 25%則按低級的分數計算。(例:某問題在 2/5 用戶上體現為 4 分,在 2/5 用戶上體現為 2 分,那就按 4 分算;如果在 1/5 用戶上體現為 4 分,在 2/5 用戶上體現為 2 分,那就按 2 分算)
2. 問題發生頻率評定:
評估每個問題在總樣本中發生了幾次——4分制,評定標準見下表
統計表格格式參考:
3. 優先級評分計算:
優先級分數=嚴重程度分+頻率程度分
故最高 8 分,最低 2 分
當然,文中介紹的是一種處理思路,大家可適當調整測試標準,使其更適用于實際情況。如進行加權處理,或是增加新的評定指標~
通過這些方法,可以將我們觀察到的用戶表現,轉成量化的數據,使測試結果更加直觀、具有說服力??靵碓囋嚢?/p>
歡迎關注作者微信公眾號:「ASAK設計」
復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。
發評論!每天贏獎品
點擊 登錄 后,在評論區留言,系統會隨機派送獎品
2012年成立至今,是國內備受歡迎的設計師平臺,提供獎品贊助 聯系我們
AI輔助海報設計101例
已累計誕生 737 位幸運星
發表評論 為下方 2 條評論點贊,解鎖好運彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓