4500字干貨!5個章節(jié)幫你掌握智能汽車上的多模態(tài)設計

隨著多模態(tài)大模型 GPT-4 的發(fā)布,“多模態(tài)”這個詞語走進了大家視野中。然而多模態(tài)并不是新興概念,近年來它已作為一種人機交互的方式運用在了智能汽車中。車機交互是怎樣發(fā)展至今的?多模態(tài)到底是什么?又如何合理的進行多模態(tài)設計?

本文將通過介紹汽車與車載系統(tǒng)發(fā)展和多模態(tài)背景,淺述多模態(tài)交互在智能車機發(fā)展的原因,并將總結車內的多模態(tài)設計應用現(xiàn)狀,最后嘗試為多模態(tài)設計提供可供參考的建議。

一、汽車與車載系統(tǒng)的發(fā)展

1886 年,卡爾·本茨發(fā)明了世界上第一輛獲得“汽車制造專利”的三輪汽車。同年 7 月,戴姆勒發(fā)明了第一輛四輪汽車。至今一百多年,隨著技術、社會和人文環(huán)境的發(fā)展,汽車已從傳統(tǒng)的單一代步工具發(fā)展為當下具有多種功能的智慧座艙——可以幫助我們在路上掌握實時交通和新聞,提供音樂和電影流,甚至具有自動駕駛和自動泊車功能。而未來也將進一步朝著人機交互、情感交互的移動載體方向發(fā)展。

車載界面與系統(tǒng)也在隨之變化,1923 年的福特 T 型車——最早的批量生產的汽車之一,有一個用于監(jiān)控充電系統(tǒng)的單儀表。1986 年,別克為第七代 Riviera 配備了觸摸感應屏幕,這也是第一輛配備觸摸屏顯示器的量產車。該屏幕可以控制音量、無線電臺或調整溫度和風扇速度,但這種概念僅在幾年后就又被機械按鍵所取代。

4500字干貨!5個章節(jié)幫你掌握智能汽車上的多模態(tài)設計

1986 年的別克 Riviera

直到 2010 年初,觸摸屏顯示器成為一種常見的車內配件。2014 年,蘋果推出了集成 iPhone 和汽車儀表屏幕的智能車載系統(tǒng) CarPlay,Google 也相繼推出對標產品 Android Auto,以上兩種系統(tǒng)核心都是將手機系統(tǒng)平移到車載屏幕上,讓駕駛員可以使用車載屏幕來與手機上的應用互動,以此拓寬系統(tǒng)使用場景、豐富汽車駕駛體驗。如今,汽車廠商紛紛在車內嵌入越來越大的電子屏幕,越來越多地取代傳統(tǒng)的機械按鈕布局,以此來凸顯車輛的科技與高端。

4500字干貨!5個章節(jié)幫你掌握智能汽車上的多模態(tài)設計

2023 年的奔馳 EQS

隨著車內集成的功能模塊越來越多,智能化提升也給駕駛員帶來了更多的操作負擔。逐漸增加的信息內容會帶來認知過載、分心等問題,駕駛員也從僅需操縱機械按鍵轉變到現(xiàn)在的屏幕觸控、語音交流、手勢交互……人車之間的交互途徑增加并且更加多樣化,智能汽車交互不再僅是手機系統(tǒng)在另一個界面的延展,如何在車內實現(xiàn)高效、安全、易用的人機交互是設計師們需要針對性思考的。

二、多模態(tài)是什么

“模態(tài)”(modality)一詞是由德國物理與生理學家赫爾姆霍茲提出的生物學概念,即生物憑借感知器官與經驗來接收信息的通道,例如人類通過五感來獲取外界信息。模態(tài)的概念一開始在人文學科領域運用,后來被引申到計算機科學領域,指計算機與物理世界聯(lián)系的通道。

多模態(tài)就是多種通道的結合。即人通過多種感官、綜合使用手勢、眼動、圖文、音視頻等不同信息載體與機器進行交流的形式。

例如十幾年前的音樂播放器,人們只能通過單一的物理按鍵來操縱。而現(xiàn)在市面上流行的智能音箱,人們可以通過觸摸屏、語音、甚至是手勢來與其互動。

4500字干貨!5個章節(jié)幫你掌握智能汽車上的多模態(tài)設計

左:sony 磁帶機 右:小度 x8 智能音箱

近期 OpenAI 發(fā)布的多模態(tài)大模型 GPT-4 之所以被稱為多模態(tài)模型,也是因為比起 Chat GPT 只支持單一文字模態(tài)輸入輸出外,GPT-4 可以接受圖像和文本這兩種模態(tài)輸入。

人類生來具有多種感官,因此與事物的互動本質上是多模態(tài)的,多模態(tài)的交互使人可以用最自然的各種行為和通道與機器互動,也是人機交互追求的自然交互的一種。

三、多模態(tài)交互設計可以解決駕駛中哪些問題

多模態(tài)交互為何會在車載場景愈演愈烈?除了硬件發(fā)展以及非駕駛類任務的引入勢必會帶來模態(tài)拓寬外,多模態(tài)交互在駕駛場景有著獨特的優(yōu)點。隨著技術進步,人們可以在車內做越來越多的事情,比如聽歌、看視頻、回復信息等。而這些多樣的車內任務一定程度上會影響駕駛員的駕駛狀態(tài)。研究表明,多模態(tài)可以降低駕駛員在執(zhí)行多種任務時的認知負荷,以及減弱駕駛者在多種信息處理中的分心,從而提升駕駛的安全性。

1. 降低認知負荷:高效處理并行任務

多重資源理論(Multiple Resource Theory,MRT)表明,每個通道能處理的信息是有上限的,當信息過載時,會導致人的認知負荷,從而降低效率。比如當你聚精會神看視頻時,視覺通道就被極大的占用,更難用余光注意到界面外發(fā)生的一切。

主要駕駛任務(比如觀察路面、后視鏡、車內信息等)大部分需要視覺支持,隨后是因控制方向盤和操作輔助功能而產生的肢體操作。

假設,你在開車時想要完成導航這一任務,如果通過在屏幕「手動輸入」導航目的地來完成,視覺和肢體通道除了要支持駕駛任務外,還要額外承受導航帶來的負荷。如果使用「語音」進行導航,就可以保持視覺與肢體資源不被額外占用,語音通道的引入有效降低了負荷,使駕駛員可以在駕駛時更快更安全的并行處理多個任務。

2. 高效引起注意力:及時提醒司機從分心狀態(tài)恢復接管輔助駕駛

研究證實,人對于多模態(tài)信息的處理速度更快,例如視覺+聽覺或視覺+聽覺+觸覺警告比單一模態(tài)的警告更能迅速獲得注意,因此更適合對用戶反應速度要求較高的駕駛場景。

在手機端的很多界面中,設計師會使用紅點、彈窗等方式作為提醒引起用戶注意,但是在駕駛場景中,用戶的注意力主要集中在路面,依然使用單一的視覺方式提醒,可能會影響反應效率。現(xiàn)在多個車廠輔助巡航的接管提醒已運用多模態(tài)信息,如蔚來的輔助巡航需要司機接管時,儀表盤會有視覺彈窗提示,同時配合聽覺通道的語音提醒,方向盤和駕駛座椅會有觸覺通道的震動提醒。這樣的多模態(tài)提醒可以使司機快速理解當前狀態(tài),并迅速接管駕駛。

四、車內的多模態(tài)應用現(xiàn)狀

如今,多模態(tài)交互越來越多的被運用在量產車上。佐思汽研出具的《2022 年中國汽車多模態(tài)交互發(fā)展研究報告》將現(xiàn)有車內多模態(tài)交互趨勢分為五點:

1. 隨著大屏、多屏、智能面材的趨勢,觸控交互應用范圍逐漸擴大

中控臺大屏讓觸控成為主流交互方式。例如奔馳 EQS 和小鵬 P7 幾乎取消了中控臺上的實體按鍵,使用觸控操作替代。

座艙多屏化,使觸控的控制范圍從前排擴展到車門、車窗、座椅等部件。例如理想 L9 使用 touchbar 取代儀表盤,此通過副駕屏、后排影音屏等實現(xiàn)五屏交互。

4500字干貨!5個章節(jié)幫你掌握智能汽車上的多模態(tài)設計

理想 L9 的大屏多屏車機

2. 語音交互由被動向主動進化,個性化、情感化需求將得到滿足

可見即可說、連續(xù)對話、音源定位、免喚醒等語音技術已在 2022 年上市新車上廣泛搭載,語音交互方式更加趨向自然。

目前語音功能重點是打造個性化體驗,例如蔚來、小鵬、理想等智能化 EV 品牌主要從聲音、形象、技能自定義等方面入手進行打造。

4500字干貨!5個章節(jié)幫你掌握智能汽車上的多模態(tài)設計

小鵬車內語音可同時服務多人

4500字干貨!5個章節(jié)幫你掌握智能汽車上的多模態(tài)設計

蔚來的智能語音助手 nomi

3. 人臉識別算法的成熟使個性化進一步落地

用戶可通過面部識別登陸 ID,實現(xiàn)車輛間的個人信息流轉。目前蔚來 ET7/ET5、小鵬 P7/G9、嵐圖夢想家等車型已搭載相關功能。

4500字干貨!5個章節(jié)幫你掌握智能汽車上的多模態(tài)設計

小鵬的人臉識別設置界面

4. 手勢識別功能作為交互方式的補充

目前手勢識別主要應用在多媒體切換、音量控制、電話接聽、燈光控制等方面,主要作為交互方式的補充。

4500字干貨!5個章節(jié)幫你掌握智能汽車上的多模態(tài)設計

福特 EVOS 手勢交互

5. 指紋、虹膜、靜脈、心率等車內生物識別應用尚處于探索階段

虹膜/眼球追蹤可增強駕駛員檢測的精度,通過車內攝像頭可實時檢測駕駛員在行車過程中的疲勞行為特征(打呵欠、長時間閉眼等),在發(fā)生疲勞行為時及時做出預警。

4500字干貨!5個章節(jié)幫你掌握智能汽車上的多模態(tài)設計

凱迪拉克 Super Cruise 眼球追蹤

五、如何進行多模態(tài)設計

多模態(tài)交互雖然可以使人機交互更自然,在駕駛場景更具優(yōu)勢,但在引入設計時也有需要注意的地方。

前文提到,一個通道接受的信息是有上限的,過多就容易造成認知負荷。然而,每為用戶增加一種感官通道實際上也是在引入復雜。不同的任務所消耗的通道資源有所不同,因此適當管理可用的通道資源是非常重要的。針對這些任務,設計師選用哪種模態(tài)會更適合?不同模態(tài)的增加究竟會降低負荷還是帶來負荷?可以通過 VACP 模型,結合“場景-模態(tài)-任務”三個維度,把不同感官的資源占用進行量化,從而來探索具體場景與任務下的多模態(tài)設計。

VACP 模型( Visual , Auditory , Cognitive , Psychomotor ) 每一個字母都代表不同的感官通道,V 是視覺、A 是聽覺、C 是認知、P 是運動。每一個任務所占用的資源都可以被拆解為這 4 類,視覺和聽覺是指任務中關注的外部信息,認知是指任務所需的信息處理能力,運動是指完成任務時的身體行為。從 0-7 進行打分,分數(shù)越高即該通道資源被占用的程度越高。

4500字干貨!5個章節(jié)幫你掌握智能汽車上的多模態(tài)設計

VACP 標準打分量表

以下結合 VACP 模型和“場景-任務-模態(tài)”舉例多模態(tài)設計設計流程:

1. 拆解場景

以駕駛場景為例,用戶作為駕駛員,在駕駛過程中可拆解為行車、輔助巡航、人工接管、駐車等場景。這里我們選取行車場景。

2. 定義任務

在行車場景下,駕駛員的主要駕駛任務有觀察路面情況和車內信息、操縱方向盤和手剎、踩踏油門或剎車等。駕駛員需要通過視覺 V 觀察當前路況,通過聽覺 A 判斷車周是否有鳴笛,通過認知 C 分析前方路況和交通信號,最后通過動作 P 進行相應操作。

3. 分析模態(tài)資源占用

將以上任務分別使用 VACP 量表打分,可以匯總得出行車場景下用戶的模態(tài)資源占用特征。假設 VACP 量表打分分別為:視覺 V5.4;聽覺 A2;認知 C4.6;運動 P5.8,即在行車場景中,聽覺被占用的程度最低。

4. 對應設計

得到場景下的模態(tài)資源占用特征后,可以使用得分較低的模態(tài)來作為主要交互模態(tài),以此分擔高得分模態(tài)的認知負荷。因此我們可以多結合聽覺來支持其他任務或接受提醒,例如可以在開車時使用語音對話來完成一些車內設置、音樂播放或進行導航。

綜上,多模態(tài)設計就是設計師基于場景和任務,善加利用資源較高的通道,對通道資源再分配以達到用戶認知平衡的過程。

結語

隨著汽車的不斷智能化,設計師的挑戰(zhàn)是需要將逐漸復雜的車機系統(tǒng)用簡單便捷的自然交互設計傳遞給用戶,而多模態(tài)交互則是這一挑戰(zhàn)的解題方法。多模態(tài)交互是人機自然交互的發(fā)展趨勢,如何平衡多模態(tài)間的關系、合理的結合多模態(tài)進行設計是值得我們反復思考的。

參考文獻:

  1. 《Engineering psychology and human performance》by Wickens, C. D.
  2. 《Attention: From Theory to Practice》by Arthur F. Kramer, Douglas A. Wiegmann, Alex Kirlik
  3. 《Visualizing natural language interaction for conversational in-vehicle information systems to minimize driver distraction》by Michael Braun
  4. 《2022年中國汽車多模態(tài)交互發(fā)展市場報告》by 佐思汽研
  5. 《Human performance modeling for discrete-event simulation: workload》by Keller, J

歡迎關注作者微信公眾號:「We-Design」

4500字干貨!5個章節(jié)幫你掌握智能汽車上的多模態(tài)設計

收藏 31
點贊 40

復制本文鏈接 文章為作者獨立觀點不代表優(yōu)設網立場,未經允許不得轉載。