AI 視頻新王者誕生!一文盤點 Sora 模型  14 項功能特點!

大家好,我是花生~

2 月 16 日 OpenAI 發布了一個新的 AI 視頻生成模型 Sora,它可以根據文本生成 60s 的高質量視頻,完全突破了之前 AI 文生視頻存在的各種局限,所以一出現就引起廣泛關注和熱烈討論,大家應該對它都有所了解。今天就根據網上已公布的視頻,對 Sora 的功能特性進行一個盤點總結,其中包含與 Runway、Pika 等 AI 視頻工具的生成效果對比,讓大家對 Sora 的能力有一個更直觀全面的了解。

相關推薦:

一、60s 超長視頻

之前優設已經推薦過 AI 視頻工具,比如 Runway、Pika、MoonVally、Domo AI、AnimateDiff、Stable Video 等,它們文生視頻長度都在 3-7 秒之間(Aminatediff 和 Deforum 因形式不同,不列入此處的比較),而 Sora 直接將時長最高提升到 60s,是之前的 10 倍,這樣的長度是放在之前大家可能覺得要好幾年才能實現,但是 Sora 讓其一夜之間成為現實。

視頻來源:Twitter@ Gabor Cselle

二、超高的文生視頻質量

接觸過 AI 視頻生成的小伙伴肯定清楚,文本生成的視頻效果最難控制,很容易出現畫面扭曲、元素丟失情況,或者視頻根本看不出動態。所以不少 AI 視頻工具都轉向在圖生視頻或者視頻轉繪上發力,比如 Runway 的 Motion Brush 筆刷,通過在圖像上涂抹指定區域添加動效;以及 Domo AI,可以將真實視頻轉為多種不同的風格,這些方式讓 AI 視頻更可控,因此質量更好。

而 Sora 的出現則完全顛覆了人們對文生視頻的認知,不僅直接能通過文本生成各種風格的高清的視頻,還支持多樣化的視頻時長、分辨率和畫幅比,并且能始終保持畫面主體位于視頻中央,呈現出最佳構圖。

Sora 根據一組提示詞生成的三組不同畫幅的視頻

三、連貫一致的視頻內容

Sora 生成的視頻中,隨時長增加人物及場景元素依舊能保持自己原有原有的狀態,不會扭曲變形,所以視頻前后連貫性非常好。即使元素被遮擋或者短暫離開畫面,Sora 依舊能在后續準確呈現這一對象的相關特征。這就解決了之前大家一直很關心的視頻中人物一致性問題,也許之后我們就無需后期拼接,而是僅憑文本就生成一個劇情完整的短視頻了。

四、多視角穩定呈現

Sora 能針對一個場景或者一個主題進行多視角呈現,比如針對“下雪天的街道”主體,可以同時生成手部玩雪特寫、街道元素特寫、行人走動中景、街道全景等分鏡。

下面是從 Sora 視頻中截取一段,可以看到隨著鏡頭旋轉,新視角中無論是機器人還是背后環境的細節都能穩定呈現,如同 CG 建模一樣精準。之前為大家介紹過 Stable zero 123,一種可以生成多視角圖像的 AI 模型,但效果遠比不上在視頻中的呈現,也許 Sora 能為我們提供一種生成角色三視圖的新方法。

五、自然流暢的動態

推特網友 @Poonam Soni 制作的了幾組 Sora 與 Runway 的效果對比。無論是小狗打鬧、云朵的飄動還是袋鼠跳舞,Sora 的動態都非常自然,就像我們在現實中看到的那樣;相比之下 Runway 生成的動作總有一種 “慢放”的感覺,不夠自然。

六、逼真的鏡頭運動

在 Runway、Pika 等工具中,如果想實現鏡頭運動,需要使用額外的 --motion 參數,然后從平移、旋轉、縮放中等選項中選一種。而 Sora 中可以直接列理解文本提示詞中有關視頻的鏡頭運動,比如提示詞中是 “鏡頭跟在一輛白色復古越野車后面”,在長達 20s 的視頻內,無論道路如何彎曲,鏡頭真的能始終跟隨這汽車,讓其處于畫面中央。Sora 也能在一個視頻中使用多種鏡頭運動。

即使沒有鏡頭提示,Sora 也能主動地添加鏡頭動作,比如下面的視頻,花盛開到快超出屏幕時,鏡頭會自動上移時。以展現完整的主體;以及鏡頭有聚焦在老人面部時,帶著一種手持拍攝的抖動,這是用 motion 設置也無法得到的效果,讓人感覺這是真的視頻而非“會動的圖片”。
https://twitter.com/i/status/1758295719788822866

七、準確的提示詞理解

對于“船在咖啡杯里”、"用白熾燈做殼的寄居蟹" 這樣比較復雜的概念,Sora 能準確理解并呈現出正確的視頻,Runway、Pika、Morph 等目前則無法做到。在 Sora 的研究報告中,官方提到他們會利用 GPT 將用戶的簡短提示轉換成更長的詳細說明,然后發送給視頻模型,以得到更好的生成效果。

視頻來源:twitter@ @Poonam Soni

八、圖生視頻

Sora 雖然自稱是文生視頻模型,但它也可以將圖像轉為動態視頻,而且動態效果比其他 AI 視頻都好,還不會出現轉換后畫質下降的情況。Sora 的圖生視頻功能并不是簡單的為已有元素添加動態,還能生成新的內容(比如為云彩字添加了一個彈出的動效)。

視頻來源:twitter@ Anu Aakash

九、用文本編輯視頻

Sora 可以僅通過文本對視頻進行編輯,對一個寫畫風視頻加上 “rewrite the video in a pixel art style” 提示,可以將其變為像素飛哥,加上 ““make it go underwater”可以替換畫面元素,而且新元素與整體融合自然然。之前圖像進行局部重繪都是有些困難的事,Sora 這是直接做到了對視頻內容的完美局部重繪,模型的能力真的令人驚嘆。

十、生成完美循環動畫

Sora 支持在一個視頻的基礎上生成向前或向后延伸生成新內容,并且做到無縫銜接。下面 2 個視頻是由同一段視頻向前擴展得來的,所以結尾相同;而如果對一個視頻同時操作向前和向后延伸,就能好得到一個完美的循環動畫。這項功能目前還沒有其他能實現的 AI 工具,如果能落地對創意視頻生成肯定非常有幫助。

十一、無縫銜接視頻

Sora 可以在兩個視頻之間逐步插值,在主題和場景構圖完全不同的視頻之間創建無縫過渡,比如由真實的海島變為一個 3D 卡通風格的微縮雪地村莊,或者讓一只蜥蜴慢慢變成一只鳥。官方用的 “無縫過渡” 絕不是夸張,仔細看視頻你會發現 sora 真的會自己找角度讓視頻轉換更自然,這點在影視特效制作上應該也大有可為。

十二、文生圖

圖像就是單幀的視頻,Sora 既然能生成高質量的視頻,那生成高質量的圖像自然也不在話下,并且支持多種尺寸,最高分辨率到達 2048*2048 px。我用 Sora 官方給出的提示詞,在 Midjourney 的 V6 模型中重新生成一遍,下面的效果對比,你覺得哪一個更好?

AI 視頻新王者誕生!一文盤點 Sora 模型  14 項功能特點!

AI 視頻新王者誕生!一文盤點 Sora 模型  14 項功能特點!

十三、模擬真實世界的交互

Sora 可以模擬真實物理世界中物體的運作狀態,比如畫筆落下后畫布上有對應的痕跡留下,并且持續保留;被咬了一個口的漢堡上會有一個缺口等。不過這個功能并不穩定,處理復雜交互場景也會出錯,或者混淆空間細節。

十四、模擬虛擬世界

在 Sora 的提示詞中加上 Minecraft 后,除了視頻會變成體素風格,Sora 還能通過基礎策略控制玩家,并高保真地呈現世界及其動態,達到真假難辨的地步。這或許會改變視頻游戲的制作及玩法,對 AR、VR 的虛擬空間搭建應該也會有幫助。

那么以上就是本期為大家盤點的 AI 視頻生成模型 Sora 的相關功能,如果想了解為什么 Sora 能做到這么厲害,可以去閱讀 OpenAI 官方的研究報告,里面有相關介紹。

Sora 模型技術報告: https://openai.com/research/video-generation-models-as-world-simulators

想了解更多 AI 繪畫工具的話,歡迎關注 優設 AI 自學網,每天都有最新的 AI 神器及資訊推薦 ~ 也歡迎大家掃描下方的二維碼加入“優設 AI 繪畫交流群”,和我及其他設計師一起交流學習 AI 知識~

AI 視頻新王者誕生!一文盤點 Sora 模型  14 項功能特點!

推薦閱讀:

贊賞
收藏 62
點贊 43

復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。