阿里巴巴國際UED – 婉語:2018年初,我從新加坡國立大學博士畢業,加入阿里巴巴國際UED,從語言學研究領域跨界到語音交互設計領域,我將自己的阿里花名取為「婉語」——「婉」來自我的本名,意為美好,「語」是語言,亦是語音。我期待自己為用戶創造美好的語音交互體驗。
入職以來,我參與設計的項目包括公共服務領域的大屏語音設備以及家庭私域場景的智能音箱,這些產品幾乎涵蓋了人機對話的全部主要類型。基于各種對話類型的設計經驗,我進行了一些整理與總結,希望這些尚為粗淺的專業沉淀,以及我的語言學專業背景,能為同類型設計師、跨界設計師、UXD設計師帶來一些不同的靈感。
文章目錄
- 為何我們如此關注語音交互?
- 在語音交互中,體驗設計師扮演著什么角色?
- 在語音交互中,如何分析用戶的意圖?
- 如何設計符合用戶思維習慣的對話劇本?
- 語音交互需要怎樣的體驗設計師?
- 寫在最后的一點感想
為何我們如此關注語音交互?
自從計算機誕生以來,人機的交互手段,經歷了鍵盤、鼠標、觸屏等階段。交互方式的每一次演化都向著更便捷、更自然、更趨近于人類本能的方向前進。新一次的交互革命已經開始,結合人類「五感」的多模態手段,成為未來產品的新趨勢。
在聽覺、視覺、觸覺、嗅覺、味覺5個通道中,聽覺通道無疑最為重要。首先,語言是人類傳遞信息、交流溝通的最主要手段,對于用戶來說,語音交互的學習成本最低,也最為自然。同時,在很多場合中,語音可以解放我們的雙手,允許用戶同時處理多個任務。語言還是人類智能的象征,在人類的幻想中,一旦某種生物獲得了人性,首先它就會「開口說話」。因此,用戶對于人工智能直觀感知就是語言能力。可見,要想在自然交互、情感交互的體驗上取得突破,語音能力必須先行。
在語音交互中,體驗設計師扮演著什么角色?
產品的本質是滿足用戶需求,「以用戶為中心」的視角永遠不會改變。因此,在人機交互發展的任何階段,都需要體驗設計師。技術只是一種手段,如何讓技能能力服務于用戶、如何讓用戶在交互過程中獲得良好的體驗,這是設計師的天職。設計師搭建起了技術與用戶之間的橋梁。
從技術層面來看,語音交互過程就是將用戶的語音信號轉化為文本,再對文本進行語義理解,觸發不同領域的服務、內容、信息等,并以合成的人聲反饋給用戶,形成對話式的交互。
對應技術框架,設計師的主要職責圍繞兩條主線展開,即分析用戶需求、設計對話體驗劇本。
1. 分析用戶需求
語音識別技術能夠將人的語音轉化為文本,計算機通過分詞、parsing(句法分析)等方式理解文本中詞與詞的關系。但是,在真實世界中,用戶語言和用戶意圖之間的關聯卻是很復雜。在語言學上,我們稱之為「會話隱含意(conversational implicature)」。這種語義高度依賴語境,具有不確定性,無法通過分析語法和詞匯而得出。這樣的用戶需求無法完全依靠計算機的能力進行解析。以最簡單的天氣問詢為例,「今天出門要帶傘么?」對男性用戶來說,關注點可能是天氣的降雨情況;對女性用戶來說,關注點可能是天氣的日曬情況;如果當下的天氣狀況是烏云密布,用戶意圖大概率上又是詢問降雨。這時,就需要設計師構建細致的判斷邏輯,輔助計算機進行語義理解。
2. 設計對話體驗劇本
正如前文所說,只有得到符合預期的反饋,用戶才會認為計算機理解了自己的意思。用戶對于對話式交互的預期來源于生活經驗,因此,計算機的反饋話術則需要具備「人格化(impersonated)」的特征。所謂「人格化」的話術需要具備三點特征:
- 符合統一的人格設定和語言特征;
- 符合自然語言的會話結構和邏輯;
- 符合對話場景中的交際習慣。
首先,語言是人類智能的象征,用戶對語音產品會產生「移情」效應,不可避免地認為語音產品具有擬人的屬性。因此,設計一個語音產品之前,也應該為語音系統設定一個固定的人格類型,并設計具有一致性的語言體系,避免給用戶造成人格的「分裂感」。
其次,自然語言中存在固有的會話結構。如,一個完整的對話結構必須具備「開始模塊」和「結束模塊」,跳轉話題時需要一個「話題樞紐」。「話輪樞紐」可以用一個簡單的詞語來承上啟下,如「對了……」、「其實……」等,也可以是一個或多個句子來過渡話題,但少了這個部分,對話就會顯得生硬。不論是什么類型的對話設計,都需要按照這樣的模塊細化展開。
最后,人在不同場景中,具有不同的語言行為特征。如在公域中,更偏重效率和隱私性,因此公域的服務場景話題延展性較低,設計重心圍繞核心需求展開;而在私域中,則更偏重情感體驗,話題的延展性較高,設計還需考慮更多的交互細節。
在語音交互中,如何分析用戶的意圖?
刺激語言表達的來源有兩種,一種是說話人的內在感受,一種是客觀環境的外部語境。那么,要想知道用戶在語音交互場景中會「說什么」,首先需要分析用戶是誰,即分析用戶畫像;其次要分析交互場景,除了空間時間場景外,多模態的交互界面也是場景語境的一種。除此之外,我們也能夠運用一些語言學上的方法來幫助我們在前期進行用戶意圖的挖掘。
1. 語言的替換組合原理
首先,語言是一個可以替換組合的裝置。那么,我們從一個典型意圖開始擴散,通過概念拆解,運用有規律的替換,可以發散出多種用戶需求,并為之設計具有針對性的回復模式。如在「問天氣」這個簡單的場景中,最典型的用戶意圖是「今天杭州天氣怎么樣?」,但在現實中,用戶的需求遠不會這么簡單。當我們對這個意圖進行拆解,將其中的三個組成部分「今天」「杭州」「天氣怎么樣」進行有規律的替換和組合時,就會生成出復雜而眾多的用戶需求。
2. 真實口語中的語用規則
其次,中文口語常常是凌亂的,語法不嚴密的,口語的規則常常超出句子范圍,我們還需要考慮篇章結構的規則,這是語言學中的「語用規則(Pragmatic Rules)」。例如,一般認為中文語法的名詞中心語是后置的,修飾語在中心語前面不斷疊加,如「美麗的風景」、「旋轉的風車」,這稱之為「向心結構」。以點咖啡的場景為例,理想的語法狀況為「我要打包一杯大杯香草口味的熱拿鐵」。但這類結構的句子在實際生活出現的可能性極低。在口語中,通常以「主題+描述性成分」展開,如「一杯拿鐵,大杯,熱的,加香草,打包,啊……還是冰的吧,那個……去冰」,呈現出「離心結構」的傾向。
口語中,語言是伴隨思考進行的,還受到思維邏輯結構的影響,這是跨句子范圍的「語用規則」。人在提出需求時,通常遵循「提出 - 補充 - 修改 - 澄清」的邏輯。因此,最核心的需求往往最先提出,隨后對需求進行細化描述。我們在語音點單機項目中,運用這種邏輯對何時截斷用戶的語音、何時執行指令、在遇到用戶停頓時應該如何處理,這些前端操作進行輔助優化后,用戶意圖的識別率和執行的正確率都有了較為明顯的提升。
如何設計符合用戶思維習慣的對話劇本?
1. 模擬真實生活的對話場景
人和人之間的日常對話,通常不是直接的功能性問答,也不是單一話題的,而是在不同話題間不斷轉換。用戶對人機對話的預期也是如此,不是冷冰冰的一問一答,而是能夠更加自然真實。所謂的「自然真實」,其實就是與用戶固有的思維習慣類似。
我們模擬日常生活中的對話場景,為 AI人物建立「用戶生活參與者」的身份。以天氣問答場景為例,人和人之間關于天氣的對話,不僅是獲取資訊,還會基于天氣進行話題擴展。因此,我們在對傳統的天氣播報進行了「場景話術包」的升級方案,在基礎信息模塊的基礎上還增加了人格話術模塊,依據天氣類型和氣溫類型,選取了語義網絡中高關聯度的節點作為話術維度,在基本的信息模塊基礎上,建立人格話術模塊,根據 AI人物的性格設置編寫話術。這些維度包括,安全、出行、健康、心情等與用戶日常生活息息相關的方面。
這種場景話術包模擬人和人之間真實的交際場景,會給用戶帶來符合預期的對話體驗。同時,在每次與用戶交互時,人格話術庫都能夠根據當下場景提供不同的對話內容,用戶在每次對話中都能獲得一些新的體驗,從而引發用戶對再次交互產生好奇。更重要的是,我們基于場景對用戶表達主動的情感關懷,營造出「生活參與者」的角色形象,為用戶構建起虛擬的人際關系,滿足用戶更高層的社交需求。從這三個角度,立體地塑造出具有 EQ 的機器語言,讓用戶的對話體驗更加生動有溫度。
2. 有邊界的聊天邏輯
傳統的聊天機器人是無邊界的,依賴于積累語料、標注數據、搭建知識圖譜等方式。一般來說,這種回復內容的適用范圍很廣,不受語境的制約,在任何時候都能差不多兜住用戶的問題,給人一種似乎對,也似乎不對的感覺。但是這種交互沒有主題,也沒有記憶,完全基于用戶的上一句話術,這就很容易在對話過程中脫離語境,跳出用戶的預期。
而在自然語言的會話結構中,即使跳轉話題,也通常有話輪樞紐來承接上下文,整個對話始終是在雙方的預期中進行的。脫離語境會給用戶造成認知上的違和感。
以下是某聊天機器人與用戶的對話,這兩種情況都屬于用戶的預期外情況,當前話題就只能終結,用戶必須另起話題才能繼續。
于是,我們在小的垂直場景(詩歌領域)中做了試驗性的嘗試,采取另外一種「有邊界」的閑聊邏輯。
首先,這種交互是有始有終的,圍繞單一話題展開,通過機器的主動引導來完成整個流程,有獨立的開場模塊和結束模塊。
將詩歌能力結構化,變成獨立的技能模塊,進行主動輸出,例如猜詩人、猜詩名、詩歌對句、詩歌釋義、詩歌冷知識等,為每個技能模塊設置引導話術和對話模版。一個模塊作為一個技能進行主動輸出,并在主動結束前吸引用戶下一次再來進行交互。
用戶的每次交互都被記錄下來,作為下一次交互的話題,這樣,機器人和用戶之間就有了共同的經歷。
在這種有邊界的閑聊邏輯,具有上下文的強關聯性,同時場景明確、主題突出,當然也有相應的缺點,對場景強依賴、通用性低。從交互平均時長的絕對值來看,也許低于無邊界的聊天機器人。但是,在相對較窄的垂直應用場景中,如游戲和教育,這種思路的閑聊機器人也許會有更強的適用性。
這種閑聊模式是半封閉的,「開場——引導——技能——結束」是一個完整的 happy path,但是用戶的思維具有發散性,很可能由現有語境跳轉去其他話題,當用戶的意圖跳出話題時,使用百科知識和兜底話術應對,再通過話輪樞紐將重新引導回話題,盡量完成一個完整的對話流程。這種閑聊模式,我們稱之為「對話情感體驗地圖」。
我們之所以將詩歌作為閑聊主題,是因為技術團隊現有一個較具規模的詩歌知識庫。但用戶主動去獲取詩歌知識的場景并不多見,那么這些能力很大程度上是被「閑置」了。如何充分利用計算機現有技術能力和信息儲備,將其轉化為活的服務,主動觸達用戶,這是設計師需要思考的。在人工智能尚未達到「全知全能」的現階段,如何充分利用當前的已有資源,完成計算機能力向用戶需求的轉化,我認為這是設計的核心意義所在。
語音交互需要怎樣的體驗設計師?
語音交互的特殊性為體驗設計師提出了新的要求和挑戰。人類的語言能力是天生的,用戶的語言行為模式不會因為交互對象是計算機而發生改變。傳統的交互方式要求用戶學習計算機的規則,而在語音交互中,計算機必須完全順應用戶的邏輯。因此,設計師首先要理解「語言」的本質,理解用戶的「語言邏輯」,才有可能設計出流暢自然的語音交互體驗。其次,設計師還必須理解技術的實現機制,才能和技術配合,將技術能力最大化,并和技術攜手不斷拓寬彼此的邊界。
語音交互滲透人類生活場景的方方面面,這就對我們設計師提出了更高的綜合素質的要求。阿里常說「既要、又要、還要」,對語音交互的體驗設計師而言,既要具備語言學能力、技術背景、交互設計能力,又要有產品思維、營銷思維、結構化能力、可視化能力,甚至是編劇能力,還要有一定高度的哲學思考。在人工智能的時代中,產品的形式不斷突破人類的認知邊界,如何理解人、如何理解人的認知、如何為計算機構建世界觀,這都是值得我們思考的哲學命題。
寫在最后的一點感想
以上就是我作為語音交互領域中的一個「異類」設計師,在項目過程中的一些經驗之談。人工智能、機械智能是一個長期發展的過程。在「強人工智能」——機器自主學習和進化的階段到來之前,「人工」的因素仍然十分重要。通過模擬人類行為,為計算機搭建「世界觀」,為機器學習積累有效數據,不斷提高人工智能發展的起跑線,是一個必然且長期的階段。
所謂「妙語匠心」,人工智能在語音交互中所展現出的每一分「妙語」,不僅僅是強大技術能力的支撐,實際上也蘊含著設計師十分甚至一百分的「匠心」。同時,在設計上,我們也在不斷探索設計和技術的結合方式,在對話內容和對話劇本的自動生成、人格化語言體系的構建等方面,我們已經開始了一些探索。語音交互行業才剛剛嶄露頭角,我們在設計上還有很長的路要探索,設計和科技需要攜手不斷拓展邊界,我們共同的目標都是提供給用戶更好的服務、帶給用戶更好的體驗。不管技術如何發展,時代如何變遷,不變的是對人和人的需求的關注,UXD 時刻關注用戶視角、價值導向。
同時,感謝團隊中與我通力合作的小伙伴們,體驗設計師的視角和語言學者的視角碰撞出了很多火花,給了我不少設計靈感和有益的幫助,讓我在短短不到一年的工作中,沉淀出了這些心得。同時,我也十分希望能給同行業的設計師們一些不同視角的參考,期待語音交互這個新興的行業因為我們的探索而更加蓬勃地發展。
歡迎關注「AlibabaDesign」的微信公眾號:
「如何設計出優秀的語音交互」
復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。
發評論!每天贏獎品
點擊 登錄 后,在評論區留言,系統會隨機派送獎品
2012年成立至今,是國內備受歡迎的設計師平臺,提供獎品贊助 聯系我們
AI輔助海報設計101例
已累計誕生 737 位幸運星
發表評論 為下方 2 條評論點贊,解鎖好運彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓