Openai 發布了它的文生視頻大模型 Sora。
終于 Openai 也加入了 AI 視頻的戰爭,在此之前 Runway 和一眾 AI 視頻公司已經奮戰了一年多,SD 最近也發布了他們產品化的 AI 視頻工具,midjourney 也是即將要發布文生視頻功能。
但是這次 Openai 的 Sora 基本上對于之前的文生視頻模型都是碾壓級的,全球的 AI 視頻公司都要睡不著了。
Sora 并沒有公開對大家開放測試入口,只發布了一個官方給大家展示效果。
其中的關鍵信息是:最長生成 60s 視頻,視頻鏡頭一致性,理解物理世界,超逼真不變形。
讓我們一個個來拆解,因為無法真實體驗到 Sora,以下所有的推理都基于他們在官網發布的視頻。
更多AI視頻干貨:
1. 生成視頻時長 60s
官方只發布了一個 60s 時長的視頻,就是下面這個東京的街頭視頻。
提示詞:一位時尚女性走在充滿溫暖霓虹燈和動畫城市標牌的東京街道上。她穿著黑色皮夾克、紅色長裙和黑色靴子,拎著黑色錢包。她戴著太陽鏡,涂著紅色口紅。她走路自信又隨意。街道潮濕且反光,在彩色燈光的照射下形成鏡面效果。許多行人走來走去。
但是這個視頻并不是一鏡到底的,視頻在 37s 后切了一個特寫鏡頭。從 sora 官網上其他的 demo 時長來看,一次視頻的時長大概在 10s 左右。所以 60s 多半是視頻拓展和拼接的結果。并不是一次性生成的 60s。
但是即便是這樣,Sora 的效果也吊打了現有的所有的視頻生成模型。現有的文生視頻模型的時長大部分只有 4s。并且一旦生成運動幅度大一點的,就會變形。runway 也可以拓展 4s 視頻到 16s,但是基本上很少有人用這個功能,因為效果真的太差了。
而 Sora 這個 60s 的視頻基本上可以展示它解決了下面幾個 AI 視頻技術難點:
- 真實物理世界逼真模擬
- 角色的一致性
- 長鏡頭的穩定性
2. 理解真實物理世界的運動方式
Openai 的官方說法是:Sora 能夠生成具有多個角色、特定類型的運動以及主體和背景的準確細節的復雜場景。該模型不僅了解用戶在提示中提出的要求,還了解這些東西在物理世界中的存在方式。
之前的 AI 視頻工具也在運鏡和運動上做了一些努力,現在看來這些努力都有點像小孩子的游戲。生成的運動方式非常的生硬,并且運動幅度無法很大,一使勁就變形,導致很多現在的 AI 片子都有點像 PPT 電影。
但是這次的 Sora 視頻上的運動已經非常接近真實的運動了。
比如下面這個,無論是動作的連貫性,順暢度,還有眼睛部分的反光都處理的很好。
提示:“動畫場景的特寫是一個毛茸茸的小怪物跪在一根融化的紅色蠟燭旁邊。 藝術風格是 3D 和現實的,重點是燈光和紋理。 這幅畫的基調是驚奇和好奇,怪物睜大眼睛、張開嘴巴凝視著火焰。 它的姿勢和表情傳達出一種天真和俏皮的感覺,就好像它第一次探索周圍的世界一樣。 暖色調和戲劇性燈光的使用進一步增強了圖像的舒適氛圍。”
也能很好的理解各種形式的運鏡,runway 的運鏡是通過外部設置鏡頭運動來實現的,只能支持很有限的時長,但是 sora 的運動幅度和逼真程度都遠遠大 runway 的運鏡功能。清晰度也大大提升了,但是清晰度相比之下仿佛是一個不太顯眼的更新了。
提示:“美麗、白雪皚皚的東京城很繁華。 鏡頭穿過熙熙攘攘的城市街道,跟隨幾個人享受美麗的雪天并在附近的攤位購物。 美麗的櫻花花瓣隨著雪花在風中飛舞。”
3. 視頻一致性
Sora 還可以在單個生成的視頻中創建多個鏡頭,準確地保留角色和視覺風格。
現在的常見 AI 視頻工作流是用 AI 生成圖片,然后再用圖片生成視頻。還有之前 runway 出的多重筆刷功能:AI 視頻可控性里程碑更新:Runway 上線多重運動筆刷 其實都是在為了一致性服務,并不是大家不喜歡直接用文生視頻,是文生視頻的一致性真的很差。現在尚不清楚 Sora 的多鏡頭保持一致性是如何做到的。
提示:賽博朋克背景下機器人的生活故事。
可以看到風格和機器人大體的的一致性都保持的很好,細節上只有機器人轉身后背后的處理有一些不一樣的地方(鏡頭二)。但是相對于之前還是一個巨大的進步。
他們具體怎么實現的這種超強一致性尚不可知,官網上提到這次的視頻模型還是基于擴散模型,但是擴散模型如何做到這么好的效果可能需要等過段時間官方的技術論文了。
除了直接靠模型來保持一致性,基于圖片生成視頻和基于視頻生成視頻也是支持的,但是并不清楚是只支持它們的文生圖片生成視頻還是支持上傳第三方的圖片生成視頻,因為 openai 也說了它們為了安全性會審查每一幀。這一切需要等他們真正的開放產品給大家用的時候了。
雖然 sora 已經足夠驚艷,但是仍然不是全能的,以下是幾個 sora 的弱點:
1. 它可能難以準確模擬復雜場景的物理原理
結合上面的介紹,這里是在復雜場景下可能難以模擬,并不是大部分時候不能模擬,這里官方給了一些案例。
提示:考古學家在沙漠中發現了一把普通的塑料椅子,他們小心翼翼地挖掘并除塵。提示:考古學家在沙漠中發現了一把普通的塑料椅子,他們小心翼翼地挖掘并除塵。
弱點:在這個例子中,Sora 未能將椅子建模為剛性物體,導致物理交互不準確。
2. 可能無法理解因果關系
提示:籃球穿過籃筐然后爆炸。
弱點:不準確的物理建模和不自然的物體“變形”的例子。
3. 可能混淆提示的空間細節
比如下面這個例子,它把人物和跑步機的方向搞錯了。
提示:打印一個人跑步的場景,35 毫米電影膠片。提示:打印一個人跑步的場景,35 毫米電影膠片。
弱點:sora 有時會產生身體上難以置信的動作。
4. 難以精確描述隨著時間推移發生的事件
比如下面這個老奶奶吹蠟燭就沒有成功。
提示:一位白發梳得整整齊齊的老奶奶站在木制餐桌上的彩色生日蛋糕后面,蛋糕上插著無數蠟燭,臉上的表情是純粹的喜悅和幸福,眼中閃爍著幸福的光芒。 她傾身向前,輕輕地吹滅蠟燭,蛋糕上有粉紅色的糖霜和糖珠,蠟燭不再閃爍,祖母穿著一件飾有花卉圖案的淺藍色襯衫,幾個快樂的朋友和家人坐在桌邊。看到慶祝,失去焦點。 該場景拍攝精美,具有電影般的效果,展示了祖母和餐廳的 3/4 視圖。 溫暖的色調和柔和的燈光增強了情緒。
弱點:模擬對象和多個角色之間的復雜交互通常對模型來說具有挑戰性,有時會導致問題的產生。
在其它 AI 視頻產品還在專研細分領域的時候,openai 直接在 sora 的頁面最后強調,sora 只是他們構建 AGI 和世界模型的一個重要里程碑,并不是終點。
這里不由得感嘆 AIGC 的創業真的太難了,去年 Openai 出了個 GPTS 基本上把中間層的創業公司都搞死了,現在又突然出了一個技術斷層級別的文生視頻產品 Sora,AI 視頻公司也不知道該怎么辦了。
現在只能寄希望于它的論文是否有一些啟發,并且如果 openai 還是貫徹一個非常嚴格的審查制度,那么可能會給一些開源模型一些機會。但是誰知道呢?AIGC 的技術迭代一直是跳躍式的,并不會給大家慢慢來的時間。今年又是刺激的一年。
歡迎關注作者微信公眾號:「AIGC研修社」
復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。
熱評 離家出走的帆高