AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

前言

距離上次寫大模型應用的文章已經過去了大半年:?

這期間 AI 如火如荼,雖然我個人感知大模型應用生態并沒有太多變化,但還是想記錄下近期在大模型應用現象上的觀察和淺顯見解。

這篇文章會從 GPTs、大模型中間層(Dify、Coze)、大火的虛擬社交(Character.AI 等)聊到 AI Agent、大模型的多模態能力、產品推薦,涵蓋了 23 年下半年至今大模型應用領域的最新進展。

一、Chatbot 是自然衍生的產品形態

1. GPTs

2023 年 11 月的 OpenAI 開發者大會上,OpenAI 推出了 GPTs,其本質是鼓勵用戶對 ChatGPT 進行 Prompt、數據深度定制并分享給社區中的其他用戶使用(有些 Notion 社區創作者分享、售賣模板的意思),也減輕其他用戶定制成本。此外,GPTs 配置過程十分簡單,用戶無需擁有代碼能力,只需要定義好需求場景、定義好 Prompt 就可以完成初步定制。而想要 GPTs 更好用,則可以上傳一些知識庫數據,調用其他產品的 API。總體來說開發成本遠低于 APP 和網頁。

分享一個詳細的 GPTs 配置教程:GPTs 從入門、進階、實踐到防護的萬字教程

當視頻在手機上無法加載,可前往PC查看。

開放以來,GPTs 的創建和使用一直受到 GPT Plus 賬戶限制,近期開放的 GPT Store 和市場上的排行網站沒有太大區別。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

①GPTs 類型

結合了 GPTs 收錄網站的信息,目前的 GPTs 大概有如下幾類。在這些方面,某些 GPTs 確實被定制成了好用的小工具。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

不過,下面才是我想表達的核心觀點:

②面臨的挑戰

沒有創造新的場景,多是在做原有場景的改造

上述網站收錄了 8 萬多個 GPTs,很多需求小眾、場景低頻的,用戶使用可能只是一時圖個新鮮,缺乏持續使用動力。而真正有需求的場景(如數據分析、語言學習、圖像生成、PDF 閱讀等)則同質化嚴重(大家很容易想到一塊去)、競爭激烈。

此外,大多數 GPTs 解決的訴求離大眾消費場景較遠、天花板低,難以形成規模效應。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

③GPTs 的產品形態并不占據絕對優勢

GPTs 解決的問題和市面上已經在做的各類應用中 AI 助理形態有一定重合,而 GPTs 給用戶的心理預期則更像是 ChatGPT 中即用即走的「小程序」。若面向大眾消費端,創作者需要將能力進一層封裝,產品形態上無法和 App Store 中已經積累了更多用戶的應用、更易觸達用戶的應用去競爭。

打個比方,同樣是周報生成器,用戶是更愿意使用釘釘、飛書中集成的虛擬助手還是去 GPTs Store 中找到 GPTs 進行使用呢?而應用集成 GPTs 能力只是時間問題。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

圖片引用自 Appso

④很多創作者是去薅流量的

很難想象有多少會持續優化知識庫提供優質服務。

⑤GPTs 被復制抄襲的門檻太低

不知道這個問題官方何時會出來解決。

⑥OpenAI 不是唯一一家開放 API 的大模型廠商

除非擁有垂直領域的專業知識庫和獨家數據,否則 Bot 的制作并沒有門檻。真要說體驗上會有多大差異,普通大眾感知不會特別強烈,也就是說大部分用戶不會追求產品一定要模型達到 GPT-4 的能力。這就延伸出下面要說的中間層了。

2. 大模型中間層

目前國內比較明星的產品有兩個:Dify 于 23 年 5 月推出,字節 12 月上線了類似的產品 Coze。這類產品能夠接入多個大模型能力,并通過可視化編排,基于任何 LLM 部署自己版本的 Assistants API 和 GPT。這些產品提供的定制能力是遠遠強于 ChatGPT 的 GPTs 的,目前還有可免費白嫖的 GPT-4 推薦使用。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

①中間層產品價值

降低集成難度。

中間層提供了簡單的 API 接口,開發者可以通過這些接口輕松地將大模型能力集成到自己的產品中,不需要自己訓練搭建大模型,也不需要處理與大模型交互的復雜度。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

Coze 還支持發布到多個平臺作為 Bot 能力使用,這在開發者看來是非常有吸引力的一項功能

接入多個大模型,隔離大模型更新風險。

中間層可以對下游客戶屏蔽大模型版本更新帶來的影響,確保產品穩定性。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

提供更多輔助功能。

中間層還可以提供日志、監控、數據標注等輔助功能,為開發者提供更多價值。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

②Coze

在 Coze 中可以看到公開的 Bots 及 Bots 的詳細設置:

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

圖為一個僅靠 Prompt 和 Plugins 定制的推薦 B 站視頻的 Bot

③定制案例:AI 趨勢總結 Bot

參考 Bilibili Assistant,我想嘗試定制一個能為我總結 AI 領域最新趨勢的 Bot。構建前可以先閱讀 Coze 產品文檔,比如官方給出了 Prompt 的寫法建議:

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

首先,填寫創建 Bot 的簡單信息,頭像可以使用 Coze 內置的 AI 能力生成:

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

Coze 中有許多已經內置好的 Plugins,我在此選擇 Google 和 X 兩個 Plugins:

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

按照官方建議撰寫 Prompt,并且在右側對話框進行測試,我的 Prompt 經過了大概 4-5 版的迭代:

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

迭代記錄:

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

設置開場白、定時任務的功能:

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

④測試效果

經過我的測試,用 Coze 簡單定制的 Bot 回復效果已經比 Perplexity 的效果好,特別是在調用 Google 搜索的結果上給了我很大的驚喜:

測試一:詢問 24 年的 AI 產品更新

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

測試二:詢問 MJV6 版本更新的具體內容

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

測試三:檢索 X 推文

在 X 內容的總結上,回復時好時壞,只能達到 5 成可用狀態。出現了一些啼笑皆非的狀況,比如分不清 Adobe AI 和人工智能 AI,同樣的問題過幾天問返回的結果也一模一樣等。我猜測這些問題是由于 Coze 中沒法接入我的 X API Key 導致的,Prompt 的方式也讓我無法更準確的定義接口調用方式。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

定制這個 Bot 的初衷是當作 X 趨勢生成器使用的,結果無心插柳柳成蔭,做成了可以白嫖無限 GPT-4 額度的且比 Perplexity 更好用的 AI 搜索引擎,我已經在頻繁使用了。

總的來說,Coze 的能力很復雜也很強大,但在深度定制 Bot 的能力上缺乏詳細的指引,字節官方的文檔雖然詳細但對于多任務處理、Prompt 調試等沒有給出更多建議,Plugin 部分的文檔非技術人員看著還挺頭暈的。幫助用戶定制真正好用 Bot,大模型和中間層都還有挺長的路要走。

3. Character.AI 為首的虛擬社交

Chatbot 聊天機器人的賽道卷了多年,這一次在 LLM 的加持下再次爆發,Character.AI 為代表的虛擬陪伴 Chatbot 產品成為了熱門賽道之一。許多團隊在 GPT 出現之前就已經在籌備相關模型和產品了:Character.AI、Replika、國內團隊 Minimax 的 Talkie、星野,都是頭部選手,目前眾多大廠也已經下場推出競爭產品。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

該方向本質上也是「GPTs」,但是在立繪、對話沉浸感上都經過更多打磨。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

①用戶訴求

觀察頭部產品,大部分用戶的訴求圍繞在下圖這幾個方向。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

但當我翻看了小紅書、貼吧,又蹲了幾個國內內測產品的群后,基本上用戶主動曬的內容都和荷爾蒙訴求有關。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

內容來自 36kr,可輔助參考

②數據

目前虛擬陪伴產品的活躍和留存都很驚艷,但付費能力大多處于有待挖掘的狀態。結合各方公布的數據,基本上目前粗略估計的情況是:頭部產品日活在 100 萬+,C.AI 做到了 500 萬+;次留基本可以做到 50% 以上,7 留在 30% 上下,是非常可觀的。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

圖片出自白鯨出海,點點數據

但目前在商業化方面,Chatbot 類產品沒有做得特別好。星野、Talkie 模仿了乙女游戲的抽卡付費,但其付費數據的不理想可能是內容過薄導致的。和 Dating 產品相比,Chatbot 產品剛需付費的場景少了很多,更多深度玩法還有待探索。

③產品形態

Replika 做重虛擬角色定制過程,強調角色唯一性。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

Replika 的定制過程

而 Cai、Talike、星野、筑夢島等一眾產品則是提供眾多 Bot 供用戶選擇,并支持 UGC 創建 Bot 并分發。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

Aura 進入后雖然只有單個角色,但支持開啟多個劇本的角色扮演,并且劇本由 AI 生成(降低了重復性)可以體驗和較長文本的對話。唯一遺憾的是劇本中的人設、名稱上都沒有做到統一,讓用戶產生割裂感,在整體體驗上不如乙女游戲中的劇情解鎖豐富。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

Aura 的角色扮演

④多模態開始卷起來了

長期來看,模型能力是 Chatbot 類產品的核心,但圖片、語音等多模態內容的豐富可以在一定程度上彌補模型能力的不足。

形象

產品表現層上,除了 Replika 使用了 3D 捏人,其他產品還處在快速大批量 AI 圖片生產的階段。(不過就過去一年元宇宙的觀察,注重 3D 不一定是一個好方向,迭代速度慢、開發成本高,用戶手捏的效率不必切換一個 Bot 低,另外國外的 3D 人物畫風總讓我覺得怪怪的)畢竟是競爭激烈的 2C 賽道,用戶非常「看臉」。

值得一提的是,愛塔的部分 Bot 率先使用了動圖,讓用戶在刷 feeds 時的場景沉浸感更強。在 Pika、SVD 產品控制能力加強的趨勢下,未來 Chatbot 立繪的動態化應該很快會被廣泛采用。

當視頻在手機上無法加載,可前往PC查看。

語音

從表格中可以看到,最新推出的產品基本都配備了 TTS 能力,從數據和體驗上看,語音能力能強化有助于用戶留存。愛塔、星野在列表停留在某個人物時就會播放開場白,完全不需要看詳細的人設就可以對人物有一定帶入,美中不足的是對話時無法自動播放語音,否則體驗還會更上一層樓。

當視頻在手機上無法加載,可前往PC查看。

以下純屬個人淺薄觀點記錄,不一定嚴謹準確,歡迎后臺留言拍磚交流。

⑤長期使用趨勢

在保證模型記憶力的情況下,我認為情感陪伴類用戶會在長期的篩選中選擇 1-3 個心儀的 Agent 進行長期高頻的溝通對話,同時會存在階段性的替換需求(新鮮感過去了換個更好的聊)。但目前這類產品擦的傾向實在太高,未來國內監管的力度帶來的影響不可知。

⑥方向分析和預測

市場情況

總的來說,因為國內監管(對 NSFW 內容的限制)、國內外 2C 用戶付費能力的差異(與其他互聯網產品不同的是,大模型是有成本的,且短期內不會迅速降下來),大部分從業者應該都不太看好該方向在國內的發展。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

海外 App Store 中這樣的虛擬 18+ 產品已經一大把了,而國內畢竟擁有巨大的人口基數,且國內市場乙女向有《戀與制作人》《光與夜之戀》《橙光》等成功案例,加上情感陪伴底層訴求,Chatbot 的國內市場還是存在的。

此外,C.AI 形態的產品崛起讓一部分用戶涌向成本更低的 AI 虛擬人,極有可能會搶走一部分 IM、Dating APP 的活躍和時長(至于搶走多少可能還要看該賽道產品的未來發展)但倘若 IM、Dating 產品做這件事,又像是搬起石頭砸了自己的腳,降低了平臺上真實用戶的連接機會,也會對已有的產品調性社區文化產生反噬,這里我持長期觀望狀態。

不過也許未來有天當 AI 內容不再稀缺,用戶反而想要回歸和真人的社交關系也并非不可能。

產品規模

單純從國內市場而言,我認為這部分產品吃的是小眾垂直強訴求的用戶市場,用戶量天花板不會特別高(具公開資料顯示,Soul、探探巔峰期日活均在大百萬級別、戀與日活 18 年 200 萬,獨立 Chatbot 產品應該不會超過這個上限了),因此其不會是大公司眼里 Top 級別的好生意。

為什么我們會看到大廠全都往這個方向擠?

我猜想還是看中了 CharacterAI 為首的產品擁有可觀的留存與時長。今天的 2C 互聯網早已變成注意力的生意,除了抖音以外的頭部產品無不面臨數據下跌帶來的焦慮感,而 Chatbot 可能就是一劑短期止痛藥。另外一個原因就是競爭對手都在做,無論如何都要入局做主動性防御。不過大公司基本都看重已有用戶盤,因此比起做獨立 APP,內嵌在已有產品中是更合適的形態。不過說不好未來會不會面臨和 OS 系統廠商爭搶市場的局面(這些年 OS 廠商在語音助手上的功夫也不是白下的,以及 OS 發布會也需要新的 AI 故事),因此如果真的想做這個方向的產品,更早出發較好。

4. 大廠在 Chatbot 方向上的優勢是?

資源整合,輔助已有需求場景

前面提到過,對于已經擁有一定用戶量級的產品來說,可以將 Chatbot 能力融合到具體場景,用戶的使用會比較順滑自然。像釘釘這類辦公產品接入虛擬助手對話能力、GPTs 去為打工人提效是很有必要的。對于抖音這樣的平臺,Bot 定制能力適合開放給中小商家、視頻直播達人等。比如培訓機構、商家可以在 Coze 平臺上定制虛擬客服,通過上傳知識庫讓模型了解自家產品概況,在短視頻、直播評論區、群聊場景輔助創作者進行問答、評論區互動、私域引流等,提升用戶下單轉換,能進一步增強抖音電商和群聊的能力。

之前也 YY 過,頭部 KOL 適合用自己的 IP 做 ChatbotIP 定制,比如用戶可以對李佳琦的 Bot 咨詢護膚技巧、購買建議。至于陪伴類虛擬社交方向,估計乙女游戲已經看到了陪伴類虛擬社交產品的興起,作為防御應該會在游戲中加入對話能力,進一步保證留存和用戶時長。

更天然的交互場景還有待挖掘

在 PC 端,Raycast、Arc 均提供了快速向 ChatGPT 提問的能力。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

同樣的,在移動端如果能做到用戶在不用點擊加載應用就快速喚起大模型進行對話會更好,當然這個方向我目前想到的解法都更適合 OS 廠商去做。

拿 iOS 現有的交互簡單發散幾個可能的方案:

方案一激進派:用戶可以將桌面某一屏設置成智能助理,并可以直接對話。鎖屏頁面解鎖,智能助理已經將新信息歸納總結,也可以進入和智能助理對話的桌面查看并快捷處理信息。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

方案二保守派:桌面下滑搜索改成和智能助理對話的功能,需要了解什么直接詢問智能助理即可。相比于方案一沒有那么激進,更適合智能助理能力有突破但還沒那么接近 AGI 時的方案。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

如果有 OS 廠商看中了 idea 記得給我打錢 hhh

當然,這些都是理想情況的 YY 罷了,想要調動自身生態外的應用回傳數據,實現難度可想而知。另外,如果過于強調效率,移動設備繁榮的應用生態失去了用戶時長、廣告收益,帶來的種種的問題對 OS 廠商來說也是非常難解的。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

這也是我沒那么看好近期發布的集成了 LLM 的智能硬件 Rabbittech 的原因,此類產品大概率噱頭大于實際效果

二、AI Agent 應用仍處探索階段

1. AI Agent 定義

準確的來說,AIAgent 指的是一種智能代理系統,它接近人類的大腦,可形成記憶、達成行動規劃、自動交互、主動預測。

目前 AI Agent 的概念在市場上并沒有達成共識,存在被廣泛濫用的現象(很多 Chatbot 應用給 Bot 冠以「智能體」的名稱,準確地說也是對 Agent 的誤用)

①AI Agent 應用的特點

個性化:隨著用戶的使用越來越了解用戶習慣和想法,從而作出喜好預測。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

可自主完成任務:

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

AutoGPT:用戶輸入一個目標后,可自主執行任務、遞歸地開發和調試代碼

多 Agent 協作:

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

Fixie AI 在收到用戶請求后啟動多個負責不同模塊的 Agent 進行數據查詢和傳遞,最終生成郵件內容給客戶回復

當視頻在手機上無法加載,可前往PC查看。

博主 @林亦 LYi 的《AI 炒股?我開了一家員工全是 AI 的公司,自動幫我炒股》就在某種程度上實現了多 Agent 協作的能力

目前,AI Agent 應用大多集中在 2B 場景,面向個人消費者的產品少之又少。一方面是高度智能化的 Agent 能力需要打磨,概念落地還有較長一段距離;一方面是 AI 和娛樂消費訴求的結合還幾乎沒有,其主要帶來的是生產方式變革和效率變革。個人消費者方向,目前只看到「私人助理」場景。

2. 驚艷的 Dot APP

Dot 是目前看到的最接近理想 AI Agent 形態的 C 端私人助理。手機廠商、智能音箱炒了那么多年私人助手的概念,終于有像樣的產品出現。在公開的案例中,Dot 支持用戶發送文本和圖像、音頻信息并理解內容,它能夠為用戶制定計劃、進行文件管理、推薦咖啡店,幫助用戶訪問互聯網中的最新工具和服務,Dot 希望成為用戶個體意識的延伸。其設計師是前 Apple 設計師 Jason Yuan。

雖然 Dot 看起來和 ChatGPT 一樣也是將不同任務的對話進行分類,但在信息展示和動畫設計上,Dot 的確更加亮眼。目前該產品需要排隊較久的 waitlist,官方也較少更新動態。

當視頻在手機上無法加載,可前往PC查看。

三、大模型能力逐步向多模態擴展

23 年下半年,GPT、Gemini Pro 在發力多模態識別、多模態輸出上發力,不管是移動版 ChatGPT 的語音功能、Dall·E3 的使用體驗還是 Gemini Pro 的宣傳片都相當亮眼。此外語義理解能力極大增強未來會逐步影響到應用層,相信未來只要通過 Prompt 控制生成的視頻、音樂效果都會逐步得到改善。

1. Dall·E3

此前模型的訓練數據通常是由人類描寫的圖像文本和圖像訓練而成,而人類描寫的文本內容傾向于簡單描述,容易忽略圖像背景中的大量細節:

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

于是 OpenAI 建立了一個圖像標題生成器,通過建立擁有詳盡圖像文本描述的數據集進行模型訓練來強化模型對圖像的理解能力,下圖中可以看出,訓練的數據包含了從互聯網上抓取的選定圖像標題、SSC(合成的簡短標題)、DSC(合成的長標題),長標題中不僅描述了圖像的主題,還描述了它的周圍環境,背景,圖像中的文字,風格,顏色等。而這樣的數據將大量用于 Dall·E3 的圖像生成模型訓練。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

相信大家或多或少看過 Dall·E3 的使用案例,其在圖片生成時對語義和上下文理解達到了令人吃驚的程度。在這里分享好友瑤醬使用 Dall·E3、MJV5.2、SD 對《小鴨子》童話故事進行的測試,可以看出相同提示詞的情況下,Dall·E3 到底有多強:

當視頻在手機上無法加載,可前往PC查看。

2. GPT-5

據 Sam Altman 透露,GPT-5 將在推理能力、可靠性等方面遠超 GPT-4,X 上部分用戶透露的圖片可以看出 GPT-5 將在多模態方面會增加視頻、3D、GF capabilities 的支持 1。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

3. Gemini AI

Google 前段時間公布了 Gemini AI 模型,雖然官方承認宣傳片存在后期剪輯,視頻中的效果還是著實驚艷到了大家。從 Google 披露的視頻情況看,模型從對話到圖像、視頻理解、生成能力都有非常全面的提升,能夠像人一樣猜出地步藏著紙團的杯子是哪一個,和人類進行簡單的游戲模擬,還能根據看到的兩團毛線團生成針織品成品圖。

當視頻在手機上無法加載,可前往PC查看。

甚至,可以根據視頻內容寫出代碼:

當視頻在手機上無法加載,可前往PC查看。

目前,Google 披露 Gemini 將提供三種版本,Ultra、Pro 和 Nano,分別適應復雜任務、廣泛場景和不同設備。

Ultra 版本是功能最強大的模型,能夠在各種復雜任務中提供最先進的性能,包括推理和多模態任務(應該就是上述視頻中展示的版本);Pro 版本在成本和延遲方面進行了性能優化,提供了廣泛的任務上的顯著性能;Nano 版本是最高效的模型,設計用于在設備上運行。訓練了兩個版本的 Nano,分別具有 1.8B(Nano-1)和 3.25B(Nano-2)參數,針對低內存和高內存設備。通過從更大的 Gemini 模型中蒸餾來訓練,并且是 4 位量化以便于部署。

目前 Pro 版本開放了 API 供開發者集成。

四、大模型應用推薦

目前市場上的大模型產品比較普遍的形態是插件和網頁,這里選取這段時間我個人在使用同時在市場表現比較出眾的幾款產品分享。

1. 沉浸式翻譯

該產品主打在所有網頁雙語翻譯、PDF 文檔對照閱讀。因此前我用 OpenAITranslate 和瀏覽器自帶的翻譯能力比較多,沉浸式翻譯作為一個備選工具在使用。不過最近新發現的一個能力非常打動我,可以一鍵開啟網頁中 YouTube 視頻的雙語字幕,因為 YouTube 自帶的字幕翻譯能力點擊路徑實在是太長了(得先開啟字幕 -> 再在設置中找到字幕翻譯 -> 滾動到最下方選擇中文),這個功能會是今后我在 YouTube 視頻觀看場景的剛需(如果能接入 X 的視頻就更好了)。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

2. Kimi

KimiAI 是由月之暗面科技有限公司開發的一款產品,其最大的特點在于超長文本(支持最多 20 萬字的輸入和輸出)的處理和基于文件、鏈接內容對話的能力。用戶可以上傳 TXT、PDF、Word 文檔、PPT 幻燈片、Excel 電子表格等格式的文件,KimiAI 能夠閱讀并理解相關內容,為用戶提供基于文件內容的回復。該團隊從超長文本處理的角度,精準切入其他大模型產品都不具備的特征和使用場景。目前我最主要的使用場景是閱讀 AI 論文,偶爾會拿來提取信息量比較大的播客信息(不過這個場景被下方的通義聽悟給替代了):

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

3. Monica

該工具集成了非常多的功能,包括聊天對話、PDF 翻譯問答、YouTube 摘要、文生圖等能力。很像是 ChatGPT、沉浸式翻譯、Kimi 等多個產品能力集成到一起的工具箱。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

甚至還集成了一些辦公場景的實用工具:

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

值得一提的是,備忘功能(Memo)支持記錄用戶看過(總結過)的文章、視頻,支持剪藏圖片,作為個人知識庫進行沉淀,這部分的內容也可以在聊天模塊進行進行提問。

當視頻在手機上無法加載,可前往PC查看。

因功能全面,瀏覽器插件的形態使用方便,Monica 受到很多用戶喜歡,Chrome 插件商店數據顯示該插件一共有 100 萬安裝量。但由于我是在不太喜歡瀏覽器側邊常駐懸浮窗,在試用后就沒再繼續使用 Monica 了。

4. 通義聽悟

在對比了多個播客轉文字的產品(飛書妙計、BiliGPT、memoAI)后,阿里出品的通義聽悟無疑是體驗最好的一個。其首頁就突出了轉錄播客的功能,注冊贈送 10 小時免費轉錄。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

支持播客鏈接直接轉錄,準確率非常高。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

此外,還能夠在轉錄后自動生成問答回顧(很剛需,其實都免去了打開 Kimi 總結提問的那一步了)。選中文本,音頻內容會自動定位到對應位置,基本上滿足了我對播客內容轉文字的所有訴求。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

5. 心光

這是一款心情筆記 APP,是目前大模型應用中能夠較精準面向 2C 需求的產品。在已有筆記產品基礎之上,心光最大的特色在于記錄筆記之余提供了一系列 AI 能力。比如會通過 AI 為用戶的心情筆記進行主題聚類。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

首次使用心光時,用戶會自定義心光中一個非常重要的水晶球 AI 的角色(伴侶、朋友等)。在記錄日記的同時用戶可以通過個性化的水晶球 AI 抽取塔羅牌、求夸夸,獲得 AI 的反饋,不過實際體驗感覺部分回復還有些機械和模版化。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

另外,每周來信是個我非常喜歡的功能,在持續的記錄后,能有一個異步的總結反饋讓用戶感覺非常驚喜,也能激勵用戶持續使用下去。

AI 到底有多強?萬字干貨盤點最新大模型應用和動態!

心光搭載了部分本地化 AI 模型,為打消用戶對隱私問題的疑慮,采取了數據上傳 iCloud 的方式進行信息存儲。目前該產品在僅有兩人全職的情況下發布,功能完成度非常高,但 APP 在表現層 UI 層級上處理的沒有那么好,加上功能較多,有時會找不到功能、看起來裝飾性的圖標其實是可點擊的按鈕等等,使用時會一點點心理負擔。

小結

雖說大模型誕生后沒有帶來新的需求場景,而是在原有場景中做改造,還是誕生了許多好用的產品,為內容生產、消費節約大量時間。24 年,模型能力的進步應該會更快的滲透到具體應用中去,期待接下來的更多大模型能力的釋放。

收藏 50
點贊 35

復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。