隨著多模態(tài)大模型 GPT-4 的發(fā)布,“多模態(tài)”這個詞語走進了大家視野中。然而多模態(tài)并不是新興概念,近年來它已作為一種人機交互的方式運用在了智能汽車中。車機交互是怎樣發(fā)展至今的?多模態(tài)到底是什么?又如何合理的進行多模態(tài)設計?
本文將通過介紹汽車與車載系統(tǒng)發(fā)展和多模態(tài)背景,淺述多模態(tài)交互在智能車機發(fā)展的原因,并將總結車內的多模態(tài)設計應用現(xiàn)狀,最后嘗試為多模態(tài)設計提供可供參考的建議。
1886 年,卡爾·本茨發(fā)明了世界上第一輛獲得“汽車制造專利”的三輪汽車。同年 7 月,戴姆勒發(fā)明了第一輛四輪汽車。至今一百多年,隨著技術、社會和人文環(huán)境的發(fā)展,汽車已從傳統(tǒng)的單一代步工具發(fā)展為當下具有多種功能的智慧座艙——可以幫助我們在路上掌握實時交通和新聞,提供音樂和電影流,甚至具有自動駕駛和自動泊車功能。而未來也將進一步朝著人機交互、情感交互的移動載體方向發(fā)展。
車載界面與系統(tǒng)也在隨之變化,1923 年的福特 T 型車——最早的批量生產的汽車之一,有一個用于監(jiān)控充電系統(tǒng)的單儀表。1986 年,別克為第七代 Riviera 配備了觸摸感應屏幕,這也是第一輛配備觸摸屏顯示器的量產車。該屏幕可以控制音量、無線電臺或調整溫度和風扇速度,但這種概念僅在幾年后就又被機械按鍵所取代。
1986 年的別克 Riviera
直到 2010 年初,觸摸屏顯示器成為一種常見的車內配件。2014 年,蘋果推出了集成 iPhone 和汽車儀表屏幕的智能車載系統(tǒng) CarPlay,Google 也相繼推出對標產品 Android Auto,以上兩種系統(tǒng)核心都是將手機系統(tǒng)平移到車載屏幕上,讓駕駛員可以使用車載屏幕來與手機上的應用互動,以此拓寬系統(tǒng)使用場景、豐富汽車駕駛體驗。如今,汽車廠商紛紛在車內嵌入越來越大的電子屏幕,越來越多地取代傳統(tǒng)的機械按鈕布局,以此來凸顯車輛的科技與高端。
2023 年的奔馳 EQS
隨著車內集成的功能模塊越來越多,智能化提升也給駕駛員帶來了更多的操作負擔。逐漸增加的信息內容會帶來認知過載、分心等問題,駕駛員也從僅需操縱機械按鍵轉變到現(xiàn)在的屏幕觸控、語音交流、手勢交互……人車之間的交互途徑增加并且更加多樣化,智能汽車交互不再僅是手機系統(tǒng)在另一個界面的延展,如何在車內實現(xiàn)高效、安全、易用的人機交互是設計師們需要針對性思考的。
“模態(tài)”(modality)一詞是由德國物理與生理學家赫爾姆霍茲提出的生物學概念,即生物憑借感知器官與經驗來接收信息的通道,例如人類通過五感來獲取外界信息。模態(tài)的概念一開始在人文學科領域運用,后來被引申到計算機科學領域,指計算機與物理世界聯(lián)系的通道。
多模態(tài)就是多種通道的結合。即人通過多種感官、綜合使用手勢、眼動、圖文、音視頻等不同信息載體與機器進行交流的形式。
例如十幾年前的音樂播放器,人們只能通過單一的物理按鍵來操縱。而現(xiàn)在市面上流行的智能音箱,人們可以通過觸摸屏、語音、甚至是手勢來與其互動。
左:sony 磁帶機 右:小度 x8 智能音箱
近期 OpenAI 發(fā)布的多模態(tài)大模型 GPT-4 之所以被稱為多模態(tài)模型,也是因為比起 Chat GPT 只支持單一文字模態(tài)輸入輸出外,GPT-4 可以接受圖像和文本這兩種模態(tài)輸入。
人類生來具有多種感官,因此與事物的互動本質上是多模態(tài)的,多模態(tài)的交互使人可以用最自然的各種行為和通道與機器互動,也是人機交互追求的自然交互的一種。
多模態(tài)交互為何會在車載場景愈演愈烈?除了硬件發(fā)展以及非駕駛類任務的引入勢必會帶來模態(tài)拓寬外,多模態(tài)交互在駕駛場景有著獨特的優(yōu)點。隨著技術進步,人們可以在車內做越來越多的事情,比如聽歌、看視頻、回復信息等。而這些多樣的車內任務一定程度上會影響駕駛員的駕駛狀態(tài)。研究表明,多模態(tài)可以降低駕駛員在執(zhí)行多種任務時的認知負荷,以及減弱駕駛者在多種信息處理中的分心,從而提升駕駛的安全性。
1. 降低認知負荷:高效處理并行任務
多重資源理論(Multiple Resource Theory,MRT)表明,每個通道能處理的信息是有上限的,當信息過載時,會導致人的認知負荷,從而降低效率。比如當你聚精會神看視頻時,視覺通道就被極大的占用,更難用余光注意到界面外發(fā)生的一切。
主要駕駛任務(比如觀察路面、后視鏡、車內信息等)大部分需要視覺支持,隨后是因控制方向盤和操作輔助功能而產生的肢體操作。
假設,你在開車時想要完成導航這一任務,如果通過在屏幕「手動輸入」導航目的地來完成,視覺和肢體通道除了要支持駕駛任務外,還要額外承受導航帶來的負荷。如果使用「語音」進行導航,就可以保持視覺與肢體資源不被額外占用,語音通道的引入有效降低了負荷,使駕駛員可以在駕駛時更快更安全的并行處理多個任務。
2. 高效引起注意力:及時提醒司機從分心狀態(tài)恢復接管輔助駕駛
研究證實,人對于多模態(tài)信息的處理速度更快,例如視覺+聽覺或視覺+聽覺+觸覺警告比單一模態(tài)的警告更能迅速獲得注意,因此更適合對用戶反應速度要求較高的駕駛場景。
在手機端的很多界面中,設計師會使用紅點、彈窗等方式作為提醒引起用戶注意,但是在駕駛場景中,用戶的注意力主要集中在路面,依然使用單一的視覺方式提醒,可能會影響反應效率。現(xiàn)在多個車廠輔助巡航的接管提醒已運用多模態(tài)信息,如蔚來的輔助巡航需要司機接管時,儀表盤會有視覺彈窗提示,同時配合聽覺通道的語音提醒,方向盤和駕駛座椅會有觸覺通道的震動提醒。這樣的多模態(tài)提醒可以使司機快速理解當前狀態(tài),并迅速接管駕駛。
如今,多模態(tài)交互越來越多的被運用在量產車上。佐思汽研出具的《2022 年中國汽車多模態(tài)交互發(fā)展研究報告》將現(xiàn)有車內多模態(tài)交互趨勢分為五點:
1. 隨著大屏、多屏、智能面材的趨勢,觸控交互應用范圍逐漸擴大
中控臺大屏讓觸控成為主流交互方式。例如奔馳 EQS 和小鵬 P7 幾乎取消了中控臺上的實體按鍵,使用觸控操作替代。
座艙多屏化,使觸控的控制范圍從前排擴展到車門、車窗、座椅等部件。例如理想 L9 使用 touchbar 取代儀表盤,此通過副駕屏、后排影音屏等實現(xiàn)五屏交互。
理想 L9 的大屏多屏車機
2. 語音交互由被動向主動進化,個性化、情感化需求將得到滿足
可見即可說、連續(xù)對話、音源定位、免喚醒等語音技術已在 2022 年上市新車上廣泛搭載,語音交互方式更加趨向自然。
目前語音功能重點是打造個性化體驗,例如蔚來、小鵬、理想等智能化 EV 品牌主要從聲音、形象、技能自定義等方面入手進行打造。
小鵬車內語音可同時服務多人
蔚來的智能語音助手 nomi
3. 人臉識別算法的成熟使個性化進一步落地
用戶可通過面部識別登陸 ID,實現(xiàn)車輛間的個人信息流轉。目前蔚來 ET7/ET5、小鵬 P7/G9、嵐圖夢想家等車型已搭載相關功能。
小鵬的人臉識別設置界面
4. 手勢識別功能作為交互方式的補充
目前手勢識別主要應用在多媒體切換、音量控制、電話接聽、燈光控制等方面,主要作為交互方式的補充。
福特 EVOS 手勢交互
5. 指紋、虹膜、靜脈、心率等車內生物識別應用尚處于探索階段
虹膜/眼球追蹤可增強駕駛員檢測的精度,通過車內攝像頭可實時檢測駕駛員在行車過程中的疲勞行為特征(打呵欠、長時間閉眼等),在發(fā)生疲勞行為時及時做出預警。
凱迪拉克 Super Cruise 眼球追蹤
多模態(tài)交互雖然可以使人機交互更自然,在駕駛場景更具優(yōu)勢,但在引入設計時也有需要注意的地方。
前文提到,一個通道接受的信息是有上限的,過多就容易造成認知負荷。然而,每為用戶增加一種感官通道實際上也是在引入復雜。不同的任務所消耗的通道資源有所不同,因此適當管理可用的通道資源是非常重要的。針對這些任務,設計師選用哪種模態(tài)會更適合?不同模態(tài)的增加究竟會降低負荷還是帶來負荷?可以通過 VACP 模型,結合“場景-模態(tài)-任務”三個維度,把不同感官的資源占用進行量化,從而來探索具體場景與任務下的多模態(tài)設計。
VACP 模型( Visual , Auditory , Cognitive , Psychomotor ) 每一個字母都代表不同的感官通道,V 是視覺、A 是聽覺、C 是認知、P 是運動。每一個任務所占用的資源都可以被拆解為這 4 類,視覺和聽覺是指任務中關注的外部信息,認知是指任務所需的信息處理能力,運動是指完成任務時的身體行為。從 0-7 進行打分,分數(shù)越高即該通道資源被占用的程度越高。
VACP 標準打分量表
以下結合 VACP 模型和“場景-任務-模態(tài)”舉例多模態(tài)設計設計流程:
1. 拆解場景
以駕駛場景為例,用戶作為駕駛員,在駕駛過程中可拆解為行車、輔助巡航、人工接管、駐車等場景。這里我們選取行車場景。
2. 定義任務
在行車場景下,駕駛員的主要駕駛任務有觀察路面情況和車內信息、操縱方向盤和手剎、踩踏油門或剎車等。駕駛員需要通過視覺 V 觀察當前路況,通過聽覺 A 判斷車周是否有鳴笛,通過認知 C 分析前方路況和交通信號,最后通過動作 P 進行相應操作。
3. 分析模態(tài)資源占用
將以上任務分別使用 VACP 量表打分,可以匯總得出行車場景下用戶的模態(tài)資源占用特征。假設 VACP 量表打分分別為:視覺 V5.4;聽覺 A2;認知 C4.6;運動 P5.8,即在行車場景中,聽覺被占用的程度最低。
4. 對應設計
得到場景下的模態(tài)資源占用特征后,可以使用得分較低的模態(tài)來作為主要交互模態(tài),以此分擔高得分模態(tài)的認知負荷。因此我們可以多結合聽覺來支持其他任務或接受提醒,例如可以在開車時使用語音對話來完成一些車內設置、音樂播放或進行導航。
綜上,多模態(tài)設計就是設計師基于場景和任務,善加利用資源較高的通道,對通道資源再分配以達到用戶認知平衡的過程。
隨著汽車的不斷智能化,設計師的挑戰(zhàn)是需要將逐漸復雜的車機系統(tǒng)用簡單便捷的自然交互設計傳遞給用戶,而多模態(tài)交互則是這一挑戰(zhàn)的解題方法。多模態(tài)交互是人機自然交互的發(fā)展趨勢,如何平衡多模態(tài)間的關系、合理的結合多模態(tài)進行設計是值得我們反復思考的。
參考文獻:
- 《Engineering psychology and human performance》by Wickens, C. D.
- 《Attention: From Theory to Practice》by Arthur F. Kramer, Douglas A. Wiegmann, Alex Kirlik
- 《Visualizing natural language interaction for conversational in-vehicle information systems to minimize driver distraction》by Michael Braun
- 《2022年中國汽車多模態(tài)交互發(fā)展市場報告》by 佐思汽研
- 《Human performance modeling for discrete-event simulation: workload》by Keller, J
歡迎關注作者微信公眾號:「We-Design」
復制本文鏈接 文章為作者獨立觀點不代表優(yōu)設網立場,未經允許不得轉載。
發(fā)評論!每天贏獎品
點擊 登錄 后,在評論區(qū)留言,系統(tǒng)會隨機派送獎品
2012年成立至今,是國內備受歡迎的設計師平臺,提供獎品贊助 聯(lián)系我們
AI輔助海報設計101例
已累計誕生 737 位幸運星
發(fā)表評論
↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓