大家好,這里是和你們一起探索 AI 的花生。
推薦閱讀
5 月 14 日凌晨 OpenAI 舉辦了首次「春季新品發布會」,會上 OpenAI 首席技術官 Mira Murati 從 3 方面介紹了此次更新升級的要點,并實時演示了 OpenAI 最新的旗艦模型 GPT-4o 相關功能,展示了其強大的實時多模態交互性能,今天我們就一起來看看此次發布會的具體內容。
OpenAI 首席技術官 Mira Murati 在主持 OpenAI 春季新品發布會
此次發布會最大的亮點就是新旗艦模型 GPT-4o 的推出,其中「o」是 “omni(全能)”的意思。GPT-4o 可以接受文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像的任意組合輸出,且這些內容的反饋都是實時的,因此使用 GPT-4o 就像和真人進行互動那樣輕松自然。
比如實時語音交互,之前 ChatGPT 的進行語音對話會有幾秒的延遲,中間的等待時間總讓人覺得不自然。而 GPT-4o 能在 232 毫秒內響應音頻輸入,平均響應時間為 320 毫秒,與人類在對話中的響應時間相近。并且即使是面對回答被突然中斷、多人同時談話等復雜的情況,GPT-4o 也能完美理解。
這樣的提升主要得益于新的模型訓練方式。之前 ChatGPT 的語音模式是由三個獨立模型組成的流水線:一個簡單模型將音頻轉錄為文本,GPT-3.5 或 GPT-4 接收文本并輸出文本,第三個簡單模型將文本轉換回音頻。這個過程意味著主要的智能源 GPT-4 會丟失很多信息--它不能直接觀察音調、多人講話或背景噪音,也不能輸出笑聲、歌聲或表達情感。
而 GPT-4o 使用的是在文本、視覺和音頻領域端到端訓練的新模型,這意味著它可以直接理解音頻或者視頻一切內容,比如通過你的語氣、語速判斷你的狀態,并做出相對于的反應。官方演示中工作人員特意做出了一個呼吸急促的行為,GPT-4o 能正確識別并理解這種行為對“深呼吸”來說是不對的,還給出的正確的建議。
基于 GPT-4o 的情緒感知能力、快速反應能力和強大的理解力,它能獨立處理的場景就豐富了。它可以是一個完美的情感伴侶,給你講故事、為你唱歌;也可以是一個專業的助理,可以在多人對話中扮演翻譯,實時將一種語言翻譯成另一種方便你們溝通;或者是作為客服為用戶提供專業、耐心的解答幫助。GPT-4o 它的回答方式、說話的語速語調也可以全憑你的喜好來設置、真實靈活的表現完全不會讓你覺得它是一個機器人。
這樣強大的實時交互能力同樣能在視覺上發揮作用。GPT-4o 可以根據你的面部表情判斷你的情緒,從而更好地和你交談;輔導你學習一門新語言或者一步步解開一個方程式;根據你將要去的場合對你的穿搭給出建議;甚至可以充當盲人的 “眼睛”,描述周圍發生的一切并為他的下一步動作給出建議,比如該什么時候招手叫停一輛出租車。由此可見 GPT-4o 將給我們的生活帶來多么巨大的改變。
除了語音和視覺交互功能,GPT-4o 在文本及圖像的生成處理上性能也有大幅提升。根據傳統基準測試,GPT-4o 在文本、推理和編碼智能方面達到了 GPT-4 Turbo 的級別。有網友測試后反映 GPT-4o 在長文本的處理上表現有明顯提升,可以快速地分析一篇 20 萬字的英文文稿,并對其內容進行總結、人物背景進行分析,這點是其他大模型無法做到的。
GPT-4o 的圖像處理功能更是令人驚喜,不但能識別/分析圖像內容、根據文本生成準確的英文文本內容,還能充當 “設計師” 完成一些高階的圖像編輯合成任務。比如根據指令對文本進行排版,將照片動漫化、生成創意字體、根據一個 logo 生成樣機模板或者周邊、根據圖像進行 3D 重建、設計一個角色并生成一系列能保持角色形象一致性的場景等等,之前大家說的 “用嘴做設計” 的夢想好像真的要實現了。
根據指令對文本進行排版
生成角色以及一系列連貫場景
根據圖像合成海報
根據圖像進行 3D 重建
此次發布會上的另一要點是 ChatGPT 將推出桌面端應用,目前已經有 Mac 原生應用可以安裝。客戶端體積 134 MB,需要有 ChatGPT 付費賬號以及一些網絡技術基礎才能順利用上,Windows 客戶端則預計會在晚些時候推出。
桌面端 ChatGPT 將幫助我們更便捷的使用它的 AI 服務。使用鍵盤快捷鍵 Option + Space 可以立即向 ChatGPT 提問,發送網頁截圖或者進行語音對話也更方便,更大地用處是用戶可以直接將整個屏幕分享給 ChatGPT,讓它根據屏幕內容實時處理人物,比如檢測你的代碼寫作過程;參加你的線上會議并記錄內容、總結要點;以及對中國家長來說非常需要的 "輔導孩子寫作業"。
一般來說越強大的性能往往意味著越高昂的獲取代價,但 GPT-4o 的獲取門檻并沒有提高。現在在 ChatGPT 網頁端,免費用戶也可以體驗 GPT-4o 的文本和圖像功能,不過額度有限,當達到限制后將自動切換到 GPT-3.5 以繼續和用戶對話;付費用戶的額度則是免費用戶的 5 倍。未來幾周內 OpenAI 還將在 ChatGPT Plus 中推出新版語音模式的 alpha 版。
開發人員現在還可以在 API 中訪問 GPT-4o 作為文本和視覺模型。與 GPT-4 Turbo 相比,GPT-4o 速度提高 2 倍,價格降低一半,速率限制提高 5 倍。官方還計劃在未來幾周內在 API 中向一小部分值得信賴的合作伙伴推出對 GPT-4o 新音頻和視頻功能的支持。
其實在此次發布會中,Mira Murati 最先提到的就是 OpenAI 的公司使命 —— To ensure that artificial general intelligence benefits all of humanity(確保人工智能造福全人類),OpenAI 首席執行官 Sam Altman 也在發布會后單獨發表了一篇博客,同樣強調 “我們使命的一個關鍵部分是將非常強大的人工智能工具免費(或以優惠的價格)提供給人們” 。而他們的團隊也一直致力于此,努力從各方面降低人們使用 AI 的困難。
比如目前用戶可以不用注冊就使用 ChatGPT;CHatGPT 的 WebUI 界面也有了優化,以提供給用戶更簡單友好的使用體驗; 還新增 “臨時聊天” 功能,允許用戶和 ChatGPT 進行一次性對話,該對話的聊天內容不會被保存到聊天記錄之中,可以幫助用戶避免隱私問題;而桌面端 ChatGPT 的推出則讓人與 AI 的交互變得更加簡單直接。
之前 GPT-3.5 已經免費提供給了所有用戶使用,GPT4o 因為在文字方面實現了成本降低,尤其是對于英文以外的語言來說減少了 token 的使用,使得服務更加經濟,所以 OpenAI 能夠將 GPT-4o 也免費帶給用戶,包括 GPTs 未來也將免費開放。所有人都能輕松用上 GPT-4 級別的人工智能,還沒有任何廣告或其他干擾,這是 OpenAI 踐行其“AI 普惠” 使命的有力證明。
GPT-4o 的出現不僅意味我們又多了一個強大可用的多模態模型,更是展示了未來人機交互的一種新范式。Sam Altman 稱 GPT-4o 的語音/視頻模式是他用過的最好的計算機界面,還用科幻電影 《Her》來指代 GPT-4o 給自己的感受(《Her》是一部講述人與人工智能相愛的科幻愛情電影,里面有一個人工智能 “薩曼莎”,是一個比人類更懂人類的 AI)。或許未來每個人都會有一個專屬 AI 助理,我們將把自己的雙手和眼睛從電子屏幕上解放出來,僅通過語音交互就完成大部分的工作和日常任務,而本是科幻電影里的場景也會成為真正的現實。
本期為大家介紹的 OpenAI 春季發布會的相關內容,喜歡的話記得點贊收藏支持一波,我會有更動力為大家推薦新的干貨內容~ 想了解更多 AI 新鮮資訊的話,歡迎關注 優設 AI 自學網 和優設微信視頻號,每天都會分享最新的 AIGC 資訊和神器,讓你輕松掌握 AI 發展動態。
另外我最新制作的課程《零基礎 AI 繪畫入門》已經上線,課程包含對 Midjourney 及 Stable Diffusion WebUI 的系統入門教學,并提供配套資源、各類實用工具和提示詞庫,能幫助初學者快速掌握這 2 款目前最熱門的 AI 工具,感興趣的小伙伴可以戳的鏈接了解詳情:夏花生的《零基礎 AI 繪畫錄播課》。
也歡迎大家掃描下方的二維碼加入“優設 AI 知識交流群”,和我及其他設計師一起交流學習 AI 知識~
推薦閱讀:
參考資料:
復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。
發評論!每天贏獎品
點擊 登錄 后,在評論區留言,系統會隨機派送獎品
2012年成立至今,是國內備受歡迎的設計師平臺,提供獎品贊助 聯系我們
AI輔助海報設計101例
已累計誕生 737 位幸運星
發表評論 為下方 2 條評論點贊,解鎖好運彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓