熱評 程遠

由于B站視頻自動播放,建議大家提前將網頁靜音

2024 最全合集!13個AI視頻產品評測&實戰效果!

前言 - AI 視頻閉源產品近半年發展

Sora 之后,DiT 架構成為視頻生成產品的主流技術。這大半年里,橫空出世的 Luma AI、Kling 成為視頻生成領域最大黑馬,而老牌選手 Runway 也推出了實力強勁的 Gen3 模型。AI 視頻生成在畫面表現力、語義理解、清晰度、可控性方面有了大幅提升,同時多家產品在音畫同步、筆刷等工具上做了更新,提升了產品可控性。

這篇文章會帶大家了解 AI 視頻產品的最新能力,不同產品的優勢,以及展示各個產品的實測效果。

這個系列預計分為閉源、開源兩篇。以下是本文目錄:

2024 最全合集!13個AI視頻產品評測&實戰效果!

一、先說結論

1. 頭部產品能力測評

前兩個場景制作于 9 月初,主要針對 AI 視頻生成最火的 Runway(Gen-3)、Luma AI(Dream Machine1.5)、可靈 1.0 進行了測試。

① txt2vid(文生視頻)

測試了 5 個不同場景的表現,Runway、Luma 各有千秋,可靈 1.0 在清晰度、語義理解、畫面繪制上還有較大提升空間。

當視頻在手機上無法加載,可前往PC查看。

② img2vid(圖生視頻)

Runway 在光影效果中表現得不夠真實,但綜合下來對各場景的支持度都比較高。

Kling 1.0 綜合表現依然很差,但在人物特寫、光影上確實有著不俗的表現,Luma 則在人物特寫上顯得非常弱勢,處理抽象材質運動時表現不凡。

當視頻在手機上無法加載,可前往PC查看。

③ Kling1.0 vs 1.5

可靈 1.5 與 Luma、Runway Gen-3 的差距肉眼可見地在縮小(該案例測評于 9 月末)。

當視頻在手機上無法加載,可前往PC查看。

④ AI 視頻產品能力排名

以下均為個人多次測試的主觀感受,可能會存在測試數據不足、內容維度有限的問題,歡迎大家補充~

2024 最全合集!13個AI視頻產品評測&實戰效果!

2. AI 視頻產品特點分析

2024 最全合集!13個AI視頻產品評測&實戰效果!

3. AI 視頻生成難點小結

① 物理交互準確性還有很大進步空間

雖然視頻中動作的流暢度有大幅提升,但 AI 視頻大多還是存在運動合理性的問題。在實際測試中,有時視頻中會出現動作突變,不連貫,這個問題在平面圖像生視頻中更明顯。

這點也和現階段視頻生成時長不足有很大關系,如果提示詞、首尾幀要求模型需要在短時間內處理更大幅度的運動,這種現象會更明顯。

② 訓練數據的多樣性還需持續提升

在我的測試中,會發現同樣的場景相似能力的產品表現差異巨大。例如下文案例中,我用 txt2vid 中測試了一組藝術家在墻上噴繪的案例,Runway 的表現極其的好,而 Kling 1.5 依然乏善可陳。

因工作需要,我會更關注平面風格圖片生成的視頻效果,由于缺乏訓練數據、畫面中的深度信息很難被識別等綜合原因,拋開各家產品官方 Demo,目前在我自己的真實測試中,所有產品在平面方向的生成效果還不夠好。

通常我會先使用提示詞輔助 img2vid,并且在文生圖時就盡量在圖片中增加一些可運動的裝飾性元素(花、樹葉、光斑等),如果生成效果不滿意我會轉向 Runway Gen-2 筆刷工具進行精細調節來避免較大瑕疵。偶爾會出現二次元人物形象被處理成真人的情況,非常恐怖谷。

又例如在輸入一張卡通狗圖片時,模型無視了提示詞內容,自動生成狗狗叫的“刻板印象”畫面。

③ 大幅運動造成的模糊感依然沒有解決。

當視頻在手機上無法加載,可前往PC查看。

④ 可控性依然不足。

在實際生產場景,僅靠提示詞很難精細化描述我們需要對 AI 有更多的控制力來達到目標效果。各家在筆刷工具和運鏡控制上的支持還有細微差別,還有進一步提升的空間。

一些小經驗:

  1. 如果主體物在畫面中占比過小,AI 傾向于產出只有鏡頭位移的效果,想要達到目標效果就會增加抽卡次數。所以盡量選擇主體物占比大的圖片
  2. 生視頻時描述詞最好是畫面中有的,且易識別的內容,否則模型會自發生成新的事物,導致該內容和原本畫面的不匹配,造成畫面突變
  3. 首尾幀視頻制作時,盡量保證畫面中有相近、相同的元素,并保證一定相似比例,這樣才能在 5s 的過渡動畫中呈現完整、絲滑的過渡

二、熱門產品介紹

1. Luma AI

Luma AI 原本是一家 3D 生成公司,此前前官號推特上一直在發布 3D 模型相關信息,6 月突然推出了 AI 視頻生成產品 Dream Machine,在那個時間節點上,Runway、Pika 遲遲未發布新模型,Sora 遙不可及,Luma AI 可謂是橫空出世。

在海外獨角獸的采訪中,Luma 首席科學家表示團隊主要考慮兩種方案來實現 4D 生成:一種是圖像生成 3D,再將 3D 動畫轉為 4D;一種則是直接生成視頻內容,然后將其轉為 4D,而 Luma 認為后者更具備潛力,并且能一定程度避開 3D 數據集不足的問題,這是 Dream Machine 誕生的原因。

*4D=3D+時間,即在三維空間中隨時間變化的對象或環境

Luma 視頻生成時會關注一致性;深度信息(例如物體和鏡頭的距離、物體之間的遠近);光學(光的反射折射如何在不同介質中變化);動態的物理現象。

先看看 6 月我用 1.0 模型測試的效果,img2vid 的能力非常強,能保證大幅度運動的情況下只有較少瑕疵,原圖還原度也非常好。視頻中每一段都是一次性輸出的:

當視頻在手機上無法加載,可前往PC查看。

Dream Machine 1.0 時期測試

Dream Machine 支持通過文本指令和圖像創建高質量、逼真的鏡頭,與 Sora 看得見但摸不著的體驗相比,Luma AI 為每個賬號每月提供 30 次免費使用機會,但排隊時間非常久。

體驗地址: https://lumalabs.ai

① 主要功能

Dream Machine 目前功能很簡單,目前僅支持 txt2vid 文生視頻和 img2vid 圖生視頻兩種能力,除了相機運動,另外支持 Extend 延長 4s、循環動畫、首尾幀動畫能力。

2024 最全合集!13個AI視頻產品評測&實戰效果!

產品發布不久后也公布了后續規劃:將支持視頻場景修改,尺寸設置、調色等功能。

② txt2vid 文生視頻

8 月底最新發布的 Dream Machine 1.5 增強了提示詞理解能力和視頻生成能力,令我驚訝的是,Luma 對視頻內文字的表現也非常強,這是除 Runway Gen3、海螺 AI 以外的產品目前無法實現的效果。

當視頻在手機上無法加載,可前往PC查看。

③ img2vid 圖生視頻

前陣子我在對各個產品最新模型做測評,感慨于 Pika labs 效果很好但過于模糊,Runway 則總是生成詭異的運動… 這些產品的表現仿佛都和宣傳片有很大區別。

而這正是 Luma AI 本次更新中最驚艷的一趴,官網公布的視頻案例并沒有騙人。其 img2vid 生成效果在多方面遠超 Pika labs、Runway 等產品,是目前可公開體驗的 AI 視頻生成領域的王者之一,主要體現在以下方面:

1)生成時長較長(5s),24 幀/s,非常絲滑

2)運動幅度更大,能產生相機的多角度位移

當視頻在手機上無法加載,可前往PC查看。

提示詞中增加無人機控制的視角變化 By: edmondyang

3)運動過程中一致性保持的比較好,有時仿佛圖片變成了 3D 模型

當視頻在手機上無法加載,可前往PC查看。

By: monster_library

4)分辨率高,且有效改善了運動幅度大帶來的模糊感,這點是 Pika labs 一直以來困擾我的問題。

④ 相機運動

Luma 9 月初上線了類似 Animatediff V2 模型中的相機運動功能,我非常喜歡這個功能觸發地交互,比起增加一個操作按鈕,Luma 通過 Camera 提示詞觸發選項。視頻節奏非常輕松可愛,值得一看~

當視頻在手機上無法加載,可前往PC查看。

⑤ 首尾幀玩法

Luma、Kling 目前都支持輸入開始和結束關鍵幀生成視頻,用戶可以添加 Prompt 提示內容變化以控制視角和主體物運動。首尾幀功能帶來了很多新奇的玩法,例如:

1)多張首尾幀相連,可以連接起來成為一個更長的視頻,并且多個場景的切換有種奇幻感:很多意想不到的事情被聯系到了一起。

當視頻在手機上無法加載,可前往PC查看。

By Nick St. Pierre

2)可以通過季節、時間、環境、主體物生長變化呈現延時拍攝的效果

當視頻在手機上無法加載,可前往PC查看。

3)產生意想不到的銜接:

例如從微觀到宏觀的切換、場景之間的切換

當視頻在手機上無法加載,可前往PC查看。

4)制作過渡動畫

雖然沒有達到 Keynote 神奇移動的效果,現階段用 AI 制作 UI、PPT 動畫也確實有點大材小用。但能看出 AI 在處理首尾幀動畫時會對前后兩幀中的相同元素產生合理、良好的過渡效果,而只在尾幀中出現的文字元素“Design Odyssey”的動畫就更多由 AI 自主發揮了。

未來如果有產品能增加垂類數據訓練,設計師們也許能夠更輕松地制作 UI、PPT 動畫。

當視頻在手機上無法加載,可前往PC查看。

當前,Luma 也開放了 Dream Machine API 供開發者調用。

2. Runway

作為最先推出模型的 AI 視頻產品,Runway 目前仍維持著自己的王者地位,在 Luma 等新產品的追擊下,Runway 這半年不斷在模型、產品功能上快速迭代。

Runway 對產品定位會更偏向影視、藝術表達。在我的測試中,Runway 更擅長真實系、風景、空間視頻生成;二次元場景支持不佳(通病),非常容易出現將二次元人物生成真人動畫的現象。

比較特別的是,Runway 支持了綠幕場景生成、視頻綠幕摳像等,這將非常方便影視制作和影視后期對 AIVideo 進行二次處理。

這里可以看到 Runway 目前支持的場景和視頻案例: https://runwayml.com/product/use-cases

2024 最全合集!13個AI視頻產品評測&實戰效果!

① Gen-3

7 月更新的 Gen-3,支持 Alpha Turbo (更快速)和 Alpha(更強表現力)兩種模式,增強了對極度復雜提示詞描述的理解,對圖像運動元素的識別也有所提升。能夠實現富有想象力的過渡和場景中元素的精確關鍵幀。

此外還支持設置圖片作為動畫首幀/尾幀,Gen3 目前還不支持筆刷等高級調節能力。

2024 最全合集!13個AI視頻產品評測&實戰效果!

圖片作為尾幀輸入,更擅長從無到有地生成一些元素,下面的水墨畫是一個特別好的案例(考慮做成動圖)

當視頻在手機上無法加載,可前往PC查看。

By Halim Alrasihi

Runway 的單次生成視頻時長也達到了最長 10s,支持延長到 40s,達到當下 AI 視頻產品輸出的最大長度。

此外,Gen-3 Alpha Turbo 還支持了豎屏尺寸視頻生成、加大力度發力視頻到視頻(風格轉繪)能力,并表示即將推出更多控制能力。

② 特色功能

上半年,Runway 在 Gen2 模型上推出了較多細節控制能力,并且支持精細數值調節,是當下 AI 視頻生成產品中可控性最強的產品。

多筆刷控制局部運動

支持最多 5 個筆刷控制,包括物體運動方向、運動曲線調節。調高 Ambient,筆刷繪制區域物體的運動將和周邊環境產生更多關聯,并加大運動幅度。

2024 最全合集!13個AI視頻產品評測&實戰效果!

相機控制

支持水平/垂直平移,水平/垂直翻轉,鏡頭縮放/旋轉。

2024 最全合集!13個AI視頻產品評測&實戰效果!

最終生成的效果對比:

Gen3 確實在清晰度上有較大提升,畫面想象力更加豐富,無需復雜控制僅依靠提示詞就可以得到非常好的結果。但 Gen2 確實更適用于對運動范圍有精準控制訴求的場景。

當視頻在手機上無法加載,可前往PC查看。

Lip Sync Video

支持文本轉 TTS 音頻、音頻文件換音,還有上半年大火的 Lip sync video 對口型能力。

2024 最全合集!13個AI視頻產品評測&實戰效果!

還可以在已經生成的視頻下方選擇 Lip Sync 將對口型和 img2vid 能力結合起來,得到嘴形和視頻其他部分都在動的自然效果:

當視頻在手機上無法加載,可前往PC查看。

不論是工具欄中不斷豐富的音頻、視頻處理能力,還是 Runway Watch 欄目中的優秀合作案例,都能看出 Runway 一直堅定得在影視制作方向發展,未來若能打通 AI 生成和視頻剪輯能力,Runway 未來將對影視制作起到至關重要的作用,成為視頻領域必不可少的重要工具。

3. 快手可靈

今年 6 月,被譽為國產之光的 Kling 憑借“讓老照片動起來”、“讓照片中的人擁抱”等多個熱點在互聯網爆火。并憑借高質量視頻效果、極低的價格和良心的免費額度狠狠刷了一波好感。9 月更新了 1.5 模型能力,讓視頻的畫面表現力、提示詞理解能力、畫面清晰度直接上了一個臺階,位列視頻生成產品第一梯隊。

現階段免費用戶每日免費享 66 靈感值,1.0 模型生成一次視頻消耗 10 靈感值,1.5 模型則消耗 35 靈感值。付費用戶享有 1.5 模型、去水印、高清晰度視頻生成、視頻延長能力、大師運鏡、AI 生圖畫質增強能力。

移動端 APP:快影

網頁版訪問: https://klingai.kuaishou.com/

使用指南: https://docs.qingque.cn/d/home/eZQDKi7uTmtUr3iXnALzw6vxp#section=h.j6c40npi1fan

傳統 txt2vid、img2vid 以外,Kling 還支持首尾幀控制、延長視頻、對口型能力。

2024 最全合集!13個AI視頻產品評測&實戰效果!

txt2vid 模式下支持運鏡控制,普通用戶可使用水平/垂直運鏡、推進/拉遠、垂直/水平搖鏡;另有四種大師運鏡很有意思,僅付費用戶可用。

2024 最全合集!13個AI視頻產品評測&實戰效果!

9 月中,Kling 在 1.0 模型中增加了運動筆刷控制。

2024 最全合集!13個AI視頻產品評測&實戰效果!

此次更新的 1.5 模型能力在畫面表現力、提示詞理解能力上有大幅提升,改善了此前會將相機運動描述當作實物生成的問題。但視頻中文本內容生成還是做不到,具體案例可在下文中的視頻生成能力測評中查看。

在我的評測中,可靈的優勢在于運動幅度較大,能產生一些驚喜效果(這點類似 Luma,在 img2vid 中甚至優于 Runway)。但是在視頻清晰度、語義理解、畫面表現力上,Kling 1.0 都比 Runway、Luma 的最新模型弱很多。但 1.5 進步非常明顯,達到了我心中付費產品的水平。

4. 即夢 AI

9 月 24 日,字節發布了 PixelDance、Seaweed 兩款視頻 AI 模型,從官方 Demo 看,兩款模型對長提示詞,人物連續動作轉變、多鏡頭組合、人物一致性的支持非常好。將有望成為國產 AI 頭部核心競爭者。目前產品還在開放內測申請中。

網頁版訪問: https://jimeng.jianying.com/ai-tool/home/

內測申請: https://bit.ly/jimengai

5. 海螺 AI

MiniMax 出品,出場視頻演示非常驚艷,簡單測試下來發現畫面清晰度、畫面表現力等均好過可靈 1.0。在近期的 Vbench 排行榜中,海螺也獲得了 16 個維度綜合評分第一名。

目前僅支持 txt2vid 方案。網頁版訪問: https://hailuoai.com/video

當視頻在手機上無法加載,可前往PC查看。

6. 通義萬相

阿里云旗下產品,上半年有多個現象級案例刷屏,例如奶牛貓跳洗澡舞、全民跳科目三(這些功能在通義千問 APP 中可以找到)。9 月剛開放了視頻生成產品的預約,一次視頻生成需要 10min,測試了下生成效果一般般。

網頁版訪問: https://tongyi.aliyun.com/

移動端下載:通義 APP

7. Pika labs

23 年 Pika 一直是我心中 img 直出視頻的王者,在二次元平面畫風上的表現很好。24 年 2 月也在業內掀起了一波浪潮,率先推出了風格選擇、視頻尺寸裁切、Lip Sync、延長視頻等功能。但此后至今半年都不再有明顯的動作。在上半年 Luma、Runway 的頻繁更新后,Pika 清晰度差的問題愈發顯著了(Topaz AI 高清都很難拯救的那種),產出的視頻無法滿足工作場景的質量要求。

2024 最全合集!13個AI視頻產品評測&實戰效果!

8. Pika 工作臺

10 月初,Pika 更新了 1.5 模型,擁有更逼真的動作、更清晰的分辨率。主打 Pikaffects 效果,支持生成爆炸、融化、膨脹、擠壓、壓碎、蛋糕化效果,輸出非常穩定,也能符合基本物理規律。

當視頻在手機上無法加載,可前往PC查看。

Pika 目前處于落后態勢,下一步必須拿出一個更加炸裂的視頻模型出來,否則很難在眾多視頻生成產品中脫穎而出。

當視頻在手機上無法加載,可前往PC查看。

6 月制作的 Pika vs Luma 1.0 模型 差距太大

9. Pixverse

這是一款由中國公司開發的 AI 視頻產品,創始人是前字節跳動 AI Lab 視覺技術負責人,于今年 1 月推出了網頁版,8 月底更新了 2.5 模型。目前新用戶有 200 免費積分,可以生成 20 個視頻。

體驗地址: https://app.pixverse.ai/

① 特色功能

筆刷+運動方向控制

當視頻在手機上無法加載,可前往PC查看。

能自動識別畫面中的元素

img2vid 的整體能力和 Runway 差異不大,但 Pixverse 比較有特色的一個小功能是在筆刷涂抹運動區域后還可以控制運動方向。

2024 最全合集!13個AI視頻產品評測&實戰效果!

生成后的效果:

當視頻在手機上無法加載,可前往PC查看。

但比起 Luma,Pixverse 生成視頻的分辨率太低了,會在原圖片尺寸上做壓縮。

② 人物一致性

Pixverse 的另一個特色功能是 Character to video,只需要一張圖片就可以生成該形象的視頻,目前只支持真實風格,且視頻內容是 txt2vid 控制的。我猜測這大概率是基于 Comfyui 搭建的能力打包。

當視頻在手機上無法加載,可前往PC查看。

By:Proper

10. 動漫案例制作

現階段 AI 視頻產品在真實系視頻生成上的效果有了飛速進步,但在偏平面的漫畫風格上還缺乏訓練數據,畫面中的可運動元素也比較難被判斷,因此使用 img2vid 比較難產出合適的動畫,動畫幅度較大時很難保證前后一致性。

嘗試做了一個黑白漫畫畫風動畫,使用了 Luma AI 作為主力,Runway、Pixverse、SVD 等工具作為輔助產出。事實證明 Luma 在清晰度和運動幅度上都是目前可用的 AI 視頻工具中最好的。視頻 00:07 光的鏡頭,00:15 人物大幅度運球都是 Luma 生成的,雖有較大瑕疵,但也算意外之喜。

當視頻在手機上無法加載,可前往PC查看。

① 部分效果制作過程展示

其中有幾個鏡頭用到了首尾幀生成視頻能力。在圖片生成的過程中,我通過 MJ 局部繪畫、PS 進行圖片細節微調。

2024 最全合集!13個AI視頻產品評測&實戰效果!

Midjourney 局部重繪 + PS 簡單處理

接下來我對 Luma AI、可靈 1.0、Krea、Toon Crafter 的首尾幀動畫進行測試,在少量抽卡后選擇表現最好的效果進行對比:

Luma 更接近提示詞,Kling 1.0 運動幅度大。

Krea 的效果 著實不太行,很難保證一致性。Toon Crafter(ComfyUI)清晰度實在太差,運行時對設備要求也過高,也沒有繼續迭代維護,建議大家不要嘗試了。

當視頻在手機上無法加載,可前往PC查看。

另外在處理首尾幀動畫時,首尾兩幀之間可運動元素少、首尾間變化少,會導致可運動時長不夠,最后畫面中反而出現很多意料之外的動畫。最終這里我用了 Pixverse 的筆刷+運動方向控制實現效果。(當時 kling 還沒有更新筆刷能力)

當視頻在手機上無法加載,可前往PC查看。

SVD(ComfyUI)適合運動幅度較小的場景,可以通過后期放大、插幀得到不錯的效果,就是對平面風格動畫支持度一般,使用起來也有些門檻。

動漫算是視頻生成非常小眾的賽道,但這半年工作、個人興趣方向上都在這個方向持續探索,希望有一天一些產品模型能夠針對動漫場景訓練,有機會重制這個視頻。

三、其他值得關注的產品

除了致力于視頻生成模型的頭部產品,市場上還有一批產品致力于將類似 Animatediff 視頻轉繪制能力落地,因操作簡單,無需研究復雜工作流、效果穩定受到廣泛歡迎,這些產品還熱衷于打造對口型、等實用功能,支持的功能都曾在國內外掀起多次大規模傳播。

代表產品有:Krea AI、Viggle AI、Domo AI、Goenhance AI。

1. Krea AI

Krea 于 23 年 12 月上線,是目前開源社區方案產品化封裝做的非常好的產品。Krea 致力于將開源社區中流行的模型能力快速產品化,通過大幅降低工作流搭建成本、模型下載成本、硬件設備要求吸引用戶。

從 Krea 首頁可以看到主打功能有實時繪畫、圖片生成(最新上線了 Flux 模型,跟進速度非常快)、視頻生成、圖片視頻高清化四個方向,憑借快速反應市場熱點持續增長。

網頁版訪問: https://www.krea.ai/home

官方推特: https://x.com/krea_ai

2024 最全合集!13個AI視頻產品評測&實戰效果!

Krea 官網設計非常 Framer 社區的風格,值得一看

① 實時繪畫

支持拖入 shapes、images,提示詞輔助控制畫面,還能夠配合 Style 選擇、Style 權重、AI 權重等維度調整,整體交互都做的非常好。你也可以通過手繪更精確地控制畫面。

當視頻在手機上無法加載,可前往PC查看。

視頻經過加速處理

② 視頻生成

進入 Generate 模塊,可以在 Keyframes 軌道插入/生成任意圖片,也可以留空,通過 txt 控制視頻生成。除了首尾幀,用戶可以在任意秒數插入任意圖片,自由度很高。

2024 最全合集!13個AI視頻產品評測&實戰效果!

每張圖片還支持拖拽設置關鍵幀強度,只可惜視頻生成效果比較一般,很難保證風格一致性。

當視頻在手機上無法加載,可前往PC查看。

③ 視頻高清化

輸入視頻,Krea 會自動根據視頻內容反推 prompt,幾分鐘后便可以得到結果,效果還行(水波紋變得更明顯了),頁面提供了視頻前后對比(Krea 的交互做的是真好)

當視頻在手機上無法加載,可前往PC查看。

④ 超級慢動作

在 Enhance 模塊,還可以通過補幀、視頻變速來達到慢動作效果。比如上述動畫我們覺得水波紋運動得太快了,便可以繼續調整視頻效果。該效果還適用于花朵綻放、液體飛濺、動作細節展示等場景。

當視頻在手機上無法加載,可前往PC查看。

Krea 值得夸贊的除了極快的熱點功能跟進能力,其交互也非常值得反復玩味。區別于其他視頻生成產品采取的點擊選擇交互,Krea 保留了視頻軌道編輯器設計,用戶可以任意插入、控制素材,這將為 Krea 未來在視頻生成、視頻剪輯方向的能力擴展留下很大想象空間。

2. ViggleAI

Viggle 由一支 15 人團隊打造,創始人是一位在多家知名公司工作過的華人 AI 研究員。該產品核心能力是將視頻中的角色替換成其他形象,類似之前介紹過的 WonderDynamics 和阿里全民舞王。此前小丑模仿說唱歌手在夏季音樂節上蹦跳的視頻火出了圈,并有多個視頻在社媒傳播形成了新的 Meme Trend。

Viggle 的視頻工具背后依賴自家訓練的 3D 視頻模型「JST-1」,能夠根據一張角色圖片生成 360 度角色動畫,可以進行更可控的視頻生成。

目前 Viggle 支持 Discord 訪問和網頁版訪問,Discord 平臺已經積累了超 400w 用戶。

網頁版訪問: https://www.viggle.ai/

官方推特: https://x.com/ViggleAI

① Move:使圖像角色移動,原始圖像背景保持不變

和 Mix 的區別是,該模式更擅長將特定角色融入到某個動作場景中,大火的小丑視頻可以看出,Viggle 的視頻生成穩定性、角色前后一致性非常強。用用戶輸入的新角色覆蓋原有運動軌跡,并做到了動作、表情的高度還原。

當視頻在手機上無法加載,可前往PC查看。

By AIWarper

② Mix:將角色圖像混合到動態視頻中

只需上傳一個包含人物的動態視頻及一張需要替換的角色照片即可,類似的 Multi 功能還支持上傳多個角色圖片,同時將多個角色融入到一個視頻中,支持選擇綠幕、白色背景,后期空間更大。

2024 最全合集!13個AI視頻產品評測&實戰效果!

我非常喜歡的博主 enigmatic 通過將蜘蛛俠角色覆蓋到自行拍攝的視頻中,再進行綠幕摳像、背景畫面合成,最終制作出全新的動畫。

當視頻在手機上無法加載,可前往PC查看。

By:enigmatic_e

此外,Animate 功能則可以使用預設動作模板為靜態角色制作動畫,更全面功能在 Viggle 的 Discord 社區開放使用。

3. DomoAI

該產品主打風格轉繪,效果十分穩定,支持的風格基本都曾在互聯網上掀起浪潮,如動畫風、粘土風、折紙風、像素風。此外還支持根據參考圖切換視頻風格(和開源模型中 IPAdapter 的能力非常相似)。同類產品還有 Goenhance AI。

目前每個賬號僅有 15 個免費 credits,僅能生成 3s 視頻。

網頁版訪問: https://domoai.app/

官方推特: https://x.com/DomoAI_

當視頻在手機上無法加載,可前往PC查看。

輸入任意一張圖片和視頻,便可以實現人臉替換、視頻風格切換

當視頻在手機上無法加載,可前往PC查看。

博主 Framer 曾用 DomoAI 制作過多個 AI 動畫視頻,通過人物動作拍攝→ Runway 綠幕摳像 → DomoAI轉繪 → MJ繪制背景圖→ 分圖層動畫剪輯便能夠快速做出如下效果:

在 AI 技術還無法精確生成目標動作的情況下,實拍轉繪 + 簡單后期剪輯是更易產出效果的做法。

當視頻在手機上無法加載,可前往PC查看。

另外官方發的這個視頻我很喜歡,結合藝術風格,可以有很多更有想象力的探索和表達:

https://x.com/DomoAI_/status/1808819206403862758

上述產品以外, 在上一篇文章中提到的 HeyGen 和 Opus Clip 是我持續關注的產品。比起迎合更多用戶喜好,這兩個產品從真實需求出發,在垂直領域精細打磨,并持續獲取用戶增長。下面來看看這兩個產品近半年的一些情況吧。

4. Opus Clip

Opus 專注長視頻轉短視頻場景,通過自動識別長視頻中引人注目的精彩片段,將它們提取并重新排列成可傳播的短視頻。這是一款來自華人創業者的產品,創始人 Young Z. 22 年疫情期間創業做了直播相關產品創業,在嘗試了多個失敗的方向后,發現直播創作者的痛點是數小時的直播內容并不能被重復利用,于是 Young Z. 團隊提供了手動切片和 AI 剪輯切片能力,才逐漸形成了 Opus 的產品形態。

Opus 是我看到的視頻生成在具體需求場景落地的最好案例。23 年底,產品在推出 7 個月后便獲取了 500w 注冊用戶和 1000w ARR(年度經常性收入) 。

網頁版訪問: https://www.opus.pro/

官方推特: https://x.com/OpusClip

Opus 最新支持創作者通過 Prompt 輸入剪輯需求,模型會對視頻內容進行分析。例如輸入提示:“找到我的情緒反應”并剪輯

當視頻在手機上無法加載,可前往PC查看。

還支持了創作者作品發布日歷,能夠連接到每個社交平臺,同時查看您已發布、起草和計劃發布的所有內容。除了為創作的短視頻進行傳播性評分,Opus 還提供了視頻數據分析后臺全套創作者工具。

2024 最全合集!13個AI視頻產品評測&實戰效果!

Opus 在幫助創作者獲得爆發性增長后,還會持續在推特公布數據,通過案例背書吸引創作者用戶形成產品自增長。

2024 最全合集!13個AI視頻產品評測&實戰效果!

5. HeyGen

這依然是一款來自華人創業者的產品,在短短一年多的時間里,HeyGen 的 ARR 從 100 萬美元增長到 3500 多萬美元,這個由對口型起家的產品還在一路狂奔。

網頁版訪問: https://app.heygen.com/home

官方推特: https://x.com/HeyGen_Officialhttps://x.com/HeyGenLabs

從 Heygen 的功能方向來看,其并不滿足于一年前對 Avatar 教學視頻、知識新聞視頻生成方向的探索。HeyGen 近期支持了全身動態動作。能保持虛擬形象的面部表情和語音語調同時動態生成, 效果極其逼真。

通過 URL to Video 功能,你可以輸入一個 Amazon 商品鏈接,無需真人錄制,自動生成產品介紹視頻。 https://app.heygen.com/guest/url2ads

當視頻在手機上無法加載,可前往PC查看。

HeyGen 還開始探索更逼真的沉浸式對話如何改變實時聊天體驗。近期其和 Zoom 合作一個 Beta 功能,用戶在生成了個人 Avatar 后,可以輸入足夠多的個人知識庫,讓 Avatar 幫助自己完成面試。

當視頻在手機上無法加載,可前往PC查看。

在豐富的功能以外,HeyGen 也推出了類似 Opus 的視頻 Highlights 剪輯功能,非常積極得尋找新場景。

四、AI 視頻應用場景思考

這半年來,除傳統的文生視頻、圖生視頻能力迭代外,當前的主要技術發展還圍繞著通過轉繪改變畫風、視頻內人物識別和替換方向。

2024 最全合集!13個AI視頻產品評測&實戰效果!

五、AI 視頻 Prompt 撰寫參考

在測試 AI 視頻產品模型 txt2vid,img2vid 能力時,我通常會基于以下結構撰寫提示詞

2024 最全合集!13個AI視頻產品評測&實戰效果!

你也可以參考以下內容對提示詞進行豐富:

2024 最全合集!13個AI視頻產品評測&實戰效果!

當然,也可以讓 Claude 等大模型幫助我們撰寫提示詞,這里是輸入給語言模型的 Prompt,你可以基于此進行修改:

“我正在測試 Runway、Luma 等視頻生成產品對文本的語義理解能力和視頻生成效果,現在需要你幫我寫幾段提示詞。提示詞需要滿足:主體物 + 場景 + 運動內容 + 相機視角 + 氛圍描述的基本內容描寫,請分別給出中英文提示詞內容。”

結語

今年最大的感受是 AI 技術進步越來越快 ,幾乎每隔幾天都會刷新一次新模型、產品能力的認知。

目前圖像、視頻生成解決的主要問題還是素材生產,各家產品還在卷數據集、模型能力,卷生成的質量、速度。比起單一素材的生產、創意表達,我會更關注可以工業化的機會,因為這里蘊含的產品化可能性更高。上半年我將大部分業余精力都投入在了 ComfyUI 的學習上,6 月也小小實踐了一下將一批 AI 工業化生產的內容落地上線。但素材生產的需求不是每個 C 端產品都有,機會可遇不可求。想打磨好一個 AI 功能。每個具體 case 其實都需要團隊從模型到技術方案、生產流程、參數細節精心打磨,需要環境給予耐心,AI 并不像媒體每天喊的那樣顛覆顛覆,其滲透到用戶的日常使用消費中,還需要各個團隊沉下心來投入大量時間。

經過上半年的學習實踐,我也愈發感受到 AI 對使用者綜合能力的要求,能做出優秀作品的總是那些原本就在某個行業處于頭部的人。在技術還在快速刷新的時期,AI 產品的學習難度還在持續提升,隨著產品能力愈來愈強,行業出現了更多對技術能力綜合使用,去解決更復雜的問題的案例。

收藏 79
點贊 44

復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。