5400字干貨!無障礙語音控制設計指南

在生活中,你有遇到過因手部受傷而無法方便地使用手機的經(jīng)歷嗎?全世界有大約 10 億殘障人士,其中有 3-4 億人存在肢體活動方面的限制。你了解過他們在日常生活中是如何使用手機等智能設備的嗎?

對于肢體活動不便的人來說,通過語音控制操作智能設備至關重要。例如,在無法使用上肢的情況下,語音控制能讓殘障人士通過說話替代手操作智能設備,實現(xiàn)普通人所能完成的所有功能。

為有肢體活動障礙的人們設計無障礙語音控制體驗有兩點意義:

  1. 以人為本:一個好的產(chǎn)品應該具備包容性,做到人人適用,讓每個人都能享受科技帶來的便利。無障礙語音控制不僅讓殘障群體也能使用微信等日常應用,也為普通人提供更便捷的操作體驗。
  2. 推動創(chuàng)新:語音控制設計推動了產(chǎn)品向多模態(tài)交互的方向發(fā)展,使用戶能夠通過語音、觸控、手勢等多種方式與產(chǎn)品互動,實現(xiàn)更加自然和靈活的交互體驗。

一、什么是無障礙語音控制

語音控制是一種輔助技術,可讓人們僅通過語音與設備進行交互。人們可以通過語音命令來執(zhí)行手勢、與屏幕元素互動、聽寫和編輯文本等。
Voice Control is an assistive technology that lets people interact with their devices using only their voice. People speak commands to perform gestures, interact with screen elements, dictate and edit text, and more.
——蘋果開發(fā)者文檔 ( Apple Developer Documentation )

在所有輔助功能中,無障礙語音控制屬于「活動能力」類別。它是一種為肢體活動能力受限的群體設計的,用嘴說替代用手操作的交互方式。只需通過語音命令,例如說出「向下滑動」或「輕點發(fā)送」等命令,就能操作智能設備,達到與手指操作接近的效果。

語音控制是單次執(zhí)行的——用戶看到一個界面元素,說出一句命令,即可完成一步操作。人們第一次聽說「語音控制」時,往往會將它理解為一種智能語音助手。但實際上語音控制無法理解你的語義和需求,也不能提供智能的對話式交互體驗。它只能忠實地響應用戶具體的操作命令。

5400字干貨!無障礙語音控制設計指南

1. 主流操作系統(tǒng)中的語音控制功能

目前,市面上主要有以下三套語音控制功能,他們的設計思路和功能是類似的,文章中主要以 iOS 的語音控制功能作為參考標準。

5400字干貨!無障礙語音控制設計指南

5400字干貨!無障礙語音控制設計指南

2. 基礎概念

① 語音命令的構成

一般情況下,一句語音命令由三個元素構成:動作、目標和修飾。

  1. 動作:包括「輕點」、「打開」、「輕掃」、「滾動」、「前往」等命令。
  2. 目標:包括「發(fā)送」、「音量」、「W(鍵盤字母)」、「9(編號)」、「你好(文本)」等對象。
  3. 修飾:包括「兩次」、「向上」、「到底部」、「三個」、「粗體」、「雙指」等描述。

② 語音命令的類型

iOS 的語音控制命令可以分為四種類型:

  1. 設備相關。使用「靜音」、「拍攝屏幕快照」、「鎖定屏幕」等命令進行設備層級的操作;
  2. 系統(tǒng)相關。使用「打開控制中心」、「前往主屏幕」、「打開微信」等命令進行系統(tǒng)層級的導航;也可以使用「關閉語音控制」、「打開輔助觸控」、「旁白選擇<編號>」等命令聯(lián)動其它系統(tǒng)級無障礙功能;
  3. 應用相關。使用「點擊<按鈕名>」、「滑動<編號>」、「將<標簽 4>增大<4 檔>」等命令進行應用層級的操作;
  4. 文本相關。使用「在<短語>兩邊添加雙引號」、「剪切全文」、「將該內(nèi)容設置為粗體」等命令進行文本層級的操作

5400字干貨!無障礙語音控制設計指南

響應模式

對用戶語音指令的響應分為兩種模式:作為命令執(zhí)行、轉為文本輸入。

  1. 命令模式。用戶的語音輸入將作為操作命令響應。
  2. 聽寫模式。用戶的語音輸入將轉化為文本輸入。在英文系統(tǒng)環(huán)境中,還有「拼寫模式」,讓用戶可以逐字符地輸入。

在輸入文字時,為了避免系統(tǒng)將用戶想要輸入的文字識別為命令,可以用語音開啟「聽寫模式」,用戶說出的所有話都會轉換成文字輸入。說出「命令模式」可以回到普通狀態(tài)。

在部分特殊場景下,比如嘈雜環(huán)境中,為了避免系統(tǒng)誤響應用戶的語音命令,用戶可以說「進入睡眠狀態(tài)」,臨時關閉語音識別。再通過說「喚醒」,來激活語音控制。

屏幕疊層

為了幫助用戶更輕松、更準確地識別并選擇屏幕上的界面元素,iOS 的語音控制提供了三類屏幕疊層:名稱、編號和網(wǎng)格。

5400字干貨!無障礙語音控制設計指南

名稱:將顯示屏幕中可點擊元素的名稱。適用于控制圖標和按鈕。

命令:「顯示名稱( Show names )」

編號:將為當前屏幕內(nèi)所有可點擊元素加上數(shù)字標注。適用于選擇朋友圈中的照片和名稱冗長的元素。

命令:「顯示編號( Show numbers )」

網(wǎng)格:將當前屏幕劃分為網(wǎng)格,每一個網(wǎng)格有特定的數(shù)字編號。網(wǎng)格的數(shù)量和尺寸可以通過語音自定義,且每一個網(wǎng)格可以再分裂為更小的網(wǎng)格,以實現(xiàn)高精度的控制。適用于查看地圖,甚至游戲等場景。

命令:「顯示網(wǎng)格( Show grid )」

5400字干貨!無障礙語音控制設計指南

對于難以描述的元素(如沒有文字的圖標按鈕、圖片等)和需要更高精度操作的場景(如地圖),可以借助屏幕疊層來快速找到想要操作的對象,并且可以通過說出編號或標簽來進行精準操作。

屏幕疊層只是一種提示操作元素的輔助手段。在一種屏幕疊層開啟的時候,用戶也可以通過其它疊層的語音命令來進行控制。比如,在「編號」疊層開啟時,用戶也可以直接說出按鈕的名稱來操作。

在用戶的語音命令無響應時,語音控制功能也會為用戶自動切換更合適的屏幕疊層。例如,在相冊頁面中,用戶說「輕點圖片」,但有大量相同類型的元素名稱都是「圖片」。此時系統(tǒng)會切換至編號屏幕疊層,讓用戶再次確認操作對象。

反饋、提示和建議

在用戶說出語音命令后,語音控制會通過屏幕頂部的 Toast 顯示用戶剛才說出的命令,通過視覺反饋讓用戶確認系統(tǒng)執(zhí)行的命令準確。而在系統(tǒng)識別到了用戶的語音命令,但卻無法響應時,系統(tǒng)會用頂部 Toast 提示當前頁面建議使用的語音命令。

5400字干貨!無障礙語音控制設計指南

自定義命令

對于部分高頻或重復性場景,用戶可以通過自定義命令來保存這些操作。例如,可以記錄輸入密碼的手勢,在鎖屏界面時通過特定的語音喚起詞來執(zhí)行該手勢,解鎖屏幕。也可以記錄自己的地址,通過特定命令去快速粘貼地址。甚至可以和快捷指令( Shortcuts )搭配,實現(xiàn)語音激活付款碼、語音啟動錄音等。用戶創(chuàng)建的自定義命令不僅方便個人使用,還可以導出并分享給無障礙社區(qū)中的其他人。

③ 語音控制和旁白( VoiceOver )的異同點

由于名字中都帶有「語音( Voice )」,它們常被混淆。但其實語音控制和旁白是為不同群體設計的。語音控制主要服務于肢體活動障礙人士,而旁白則是為視覺障礙人士提供支持。

但兩者在適配時存在一些相似之處。例如,開發(fā)時都需要為界面元素添加無障礙標簽( Label )。在旁白中,系統(tǒng)會朗讀這個標簽,幫助用戶理解按鈕的功能。而在語音控制中,用戶看到標簽后,可以通過語音說出標簽名稱來操作對應元素。

此外,界面元素的無障礙屬性——值( Value )、特性( Trait )和提示( Hint )——則適用于兩者。例如,在旁白中,系統(tǒng)會朗讀音量滑塊的名稱(標簽)及其當前音量(值),而在語音控制中,用戶可以通過語音命令調(diào)節(jié)具體的音量設置。

二、語音控制設計指南

1. 設計原則

根據(jù) WCAG 2.2 無障礙指導,我們可以基于四個基本原則設計無障礙語音控制體驗。

  1. 可感知的( Perceivable ):內(nèi)容必須能被用戶通過各種感官感知。
  2. 可理解的( Understandable ):信息和界面操作應清晰直觀,便于用戶理解和使用。
  3. 可操作的 ( Operable ):用戶界面的所有功能必須能夠被操作,包括通過鍵盤等輔助工具。
  4. 穩(wěn)健的( Robust ):內(nèi)容應配合各種設備和技術可靠地工作,包括輔助技術。

2. 通用設計建議

舒適的界面密度。在顯示屏幕疊層時,過大的界面密度會讓名稱和數(shù)字標簽互相重疊,導致操作效率下降。

簡潔、通用、符合直覺的元素名稱。在適配語音控制時,我們需要為界面元素添加無障礙標簽( accessibilityLabel ),也就是他們的名稱。簡潔的名稱方便用戶去朗讀,而通用、符合直覺的名稱能讓用戶不開啟屏幕疊層就猜出它的名稱。

避免界面元素與語音指令反饋條沖突。在系統(tǒng)執(zhí)行語音命令后,屏幕頂部會短暫顯示指令的具體內(nèi)容。在設計時需要確保界面內(nèi)的重要內(nèi)容不會被它遮擋。

5400字干貨!無障礙語音控制設計指南

提供基礎交互路徑。為部分需要拖拽等高級手勢才能完成的功能提供基礎的交互替代。例如,在微信內(nèi)將一篇文章加入浮窗,用戶需要從屏幕左邊緣滑動至屏幕右下角。這樣的操作在語音控制中難以實現(xiàn),因此,我們可以在設計時考慮補充一條更加基礎的交互路徑,輕點幾步即可完成。

5400字干貨!無障礙語音控制設計指南

3. 設計屏幕疊層

① 名稱疊層

在用戶不清楚某個界面元素的名稱時,會開啟該疊層。名稱疊層的設計思路和旁白( VoiceOver )的播報設計思路非常相似。

  1. 定義顯示范圍。不需要讓界面中的所有元素都在疊層中顯示。例如,分割線、蒙層和不可點擊的頁面標題等元素不需要在屏幕疊層中顯示。
  2. 確保元素分組。將關系緊密的元素合并為組,這樣能減少非必要元素的顯示數(shù)量,降低信息閱讀壓力。
  3. 用頁面內(nèi)容作為名稱。對于沒有明確標題的界面元素,我們可以提取它的部分內(nèi)容信息作為標題。例如,在郵件中,我們可以將郵件內(nèi)容開頭的前十個字作為名稱。

5400字干貨!無障礙語音控制設計指南

② 數(shù)字疊層

一般情況下,數(shù)字疊層會將屏幕內(nèi)所有可交互元素按照從上到下、從左到右的順序標注。但在有連續(xù)數(shù)字排序的場景,例如日歷、排行榜和撥號盤,數(shù)字標簽會優(yōu)先按照這些界面中的已有排序來排列。我們在設計時需要考慮,在這類場景下單獨定義數(shù)字標簽的排列順序。

5400字干貨!無障礙語音控制設計指南

③ 兼容虛擬手勢

語音控制默認的手勢命令(向上輕掃、向下平移等)在實際應用中存在部分限制。

  1. 手勢響應。虛擬手勢模擬的是一個起始點位于屏幕正中央,48pt 大小的圓形接觸面,它會向上下左右四個方向移動。在設計時需要注意,界面的滑動區(qū)域至少要包含屏幕中心 48pt 的范圍,否則可能導致手勢無法響應。
  2. 手勢范圍。虛擬手勢運動的范圍有限,它僅僅會運動 96pt 的距離。在設計時我們需要確保 96pt 的滑動距離能夠順利觸發(fā)界面中的功能。典型場景是短視頻中的「滑動查看下一條視頻」、和社交媒體中的「下拉刷新」,它們往往要求滑動一段距離才能成功觸發(fā)。如果不能成功觸發(fā),則需要開啟網(wǎng)格疊層,使用更為復雜的「<編號>拖移到<編號>」命令。
  3. 手勢速度。虛擬手勢大致以 140pt/s 的速度運動,比普通人的滑動手勢更慢。如果界面的響應對手勢速度有要求,則需要額外注意。此外,手勢也模擬了松手后的慣性運動。

5400字干貨!無障礙語音控制設計指南

三、語音控制的過去和未來

語音控制和輔助觸控 ( AssistiveTouch ) 、切換控制( Switch Control )、眼動追蹤( Eye Tracking )等功能共同構成了為肢體殘障人士設計的無障礙生態(tài),已幫助了成千上萬的殘障群體享受科技發(fā)展的成果。

在過去,殘障人士依賴外接控制按鈕和切換控制功能配合完成對界面元素的操作。屏幕上會循環(huán)逐個高亮界面元素。當掃描框移動到了用戶想要的目標上時,按下按鈕,即可對目標進行進一步的操作,例如點擊、滾動等。

5400字干貨!無障礙語音控制設計指南

圖片來源: https://www.youtube.com/watch?v=HBo2BZ-Zzwg

語音控制則徹底解放對肢體的依賴,僅靠語音便可以控制整個屏幕中的內(nèi)容。如今,我們的設備還支持了頭部和眼部的跟蹤,大幅提升了定位目標元素的效率。用戶通過輕微移動頭部或轉動眼睛,便可以定位界面中的元素。再通過特定的面部動作(如張嘴、眨眼等)或是注視停留幾秒鐘便可完成點擊等操作。

1. 依然存在的挑戰(zhàn)

為肢體殘障人士設計的輔助功能正在向著操作更輕松、執(zhí)行更精準、入門更簡單的方向發(fā)展。但現(xiàn)有的語音控制功能還面臨著許多挑戰(zhàn)。

  1. 兼容性弱。語音控制難以兼容不同口音、不同語速的用戶。且在嘈雜環(huán)境中,系統(tǒng)無法準確捕捉用戶的語音命令。
  2. 學習成本高。語音控制要求用戶使用特定預設的命令去操作。用戶需要提前學習大量的指令。
  3. 操作繁瑣。語音控制只能一步步地操作,對于長流程的場景,體驗會較為繁瑣。

2. 未來的發(fā)展趨勢

近年來,在人工智能的幫助下,用戶能夠通過自然語言和多模態(tài)輸入與機器進行交互。機器也能以前所未有的準確程度去理解用戶的意圖,甚至是非常模糊的需求。我們在未來有希望看到以下趨勢。

  1. 自然語言控制。用戶不需要記住任何命令,可以用自然的語言去表達命令。例如,用戶只需說出「點擊屏幕下方那個綠色的按鈕」或「幫我編輯一條朋友圈,說今天天氣真好,順便把剛剛拍的幾張照片加上」,系統(tǒng)即可響應。
  2. 多模態(tài)輸入。混合多種輸入方式(如語音、視線、頭部運動等)去操控設備。語音控制也可以搭配其它類型的無障礙功能使用。

3. 對普通人的意義

為情景式殘障 ( Situational Disabilities ) 設計:在日常生活中,我們常常會遇到暫時的殘障。手臂受傷時,操作設備會產(chǎn)生疼痛。下廚時,濕漉漉的雙手會弄臟屏幕。駕駛時,伸手點擊屏幕可能產(chǎn)生危險。這些場景下,我們也希望擺脫對肢體的依賴,用語音去控制設備。為殘障群體設計,也是為普通人設計。

總結

語音控制是肢體殘障群體的日常生活中不可或缺的一部分,是他們與智能設備交互的基石。通過設計優(yōu)良的語音控制體驗,肢體殘障人士能夠獲得與他人同等的使用權利和機會,我們也能深入了解他們的習慣和需求。我們希望有更多設計師關注并積極參與到無障礙技術的設計中,共同打造完善的輔助功能生態(tài),讓科技進步惠及各類殘障群體,實現(xiàn)科技向善。

收藏 16
點贊 29

復制本文鏈接 文章為作者獨立觀點不代表優(yōu)設網(wǎng)立場,未經(jīng)允許不得轉載。