AI 生成視頻發展到什么程度了,效果如何?有哪些可用的產品方案?網上炫酷的效果如何實現?AI 視頻的應用場景和案例有哪些?
本著對以上問題的探索,我開啟了 AI 視頻系列的探索。上篇將著重介紹技術發展概況和應用場景思考。
更多AI視頻生成神器介紹:
長期以來,人們對 AI 視頻技術應用的認知停留在各種“換臉”和視頻特效上。隨著 AI 圖像領域的技術發展,AI 視頻技術也逐漸取得了突破。本節內容結合 Claude、Perplexity 查詢、項目論文整理而成。
1. 生成方法
從交互方式來看,當前 AI 視頻生成主要可分為文本生成視頻、圖片生成視頻、視頻生成視頻三種形式。
一些視頻生成方法是先生成靜態關鍵幀圖像,然后構建為視頻序列。也存在直接端到端生成視頻的技術,無需進行多階段處理即可生成視頻,如基于 GAN、VAE、Transformer 的方法。
微軟 NUWA-XL:通過逐步生成視頻關鍵幀,形成視頻的“粗略”故事情節,然后通過局部擴散模型(Local Diffusion)遞歸地填充附近幀之間的內容。
2. 關鍵幀 + 補間技術方式間的差異
代表產品:Deforum、AnimateDiff、Rerender a Video
(1)關鍵幀生成方式很多,主要通過各種 AI 生成圖片的方式解決,最主流的方式是 Stable Diffusion,可最大程度的保證不同幀風格一致,在下文中會詳細介紹實操案例。
(2)補幀算法:主要用于平滑關鍵幀之間的動作和細節。
光流補幀:通過計算兩幀圖像之間每個像素的運動向量,根據光流場生成中間幀。優點是計算量較小,速度快。代表產品是 EbSynth。
基于姿態補幀:利用人體關鍵點檢測計算姿態信息(關節位置、角度等信息),進行中間幀圖像合成。適合為具有復雜運動的復雜對象或角色制作動畫。
重參考補幀:使用相鄰的后向和前向幀作為參考,通過雙向幀信息進行像素級補幀。
(3)完善策略: 進一步提升生成視頻的整體質量和連貫性,協同補幀算法,彌補關鍵幀生成可能存在的各類缺陷。不同模型使用的方法有所差異。
漸進補幀:通過迭代多次補幀完善視頻質量,逐步提升分辨率和連貫性。
遞歸框架:遞歸完善每一幀,直到達到質量要求。
增強后處理:使用圖像增強 GAN 等技術,對生成的視頻進行修復和提升,特別提升存在模糊、殘影等問題的區域,增強整體質量。
對比學習:指學習和對比真實高質量視頻數據,從中提取提升生成視頻細節的模式。
模糊處理:使用濾波、平滑等算法處理生成視頻,減少幀間的不連貫引起的毛刺和鋸齒問題,增強視覺流暢性。
融合多個模型:不同模型生成相同視頻,進行模型融合。
3. 端到端視頻生成的技術差異
代表產品:Runway
GAN 生成對抗網絡:
是一種無監督的生成模型框架,通過讓兩個神經網絡相互博弈來進行機器學習。可以生成視覺逼真度高的視頻,但控制難度大、時序建模較弱。
VAE 變分自編碼器:
它是一種可以學習數據分布的網絡結構。就像把視頻文件壓縮成較小的文件再解壓一樣,它可以重建視頻數據。VAE 可以根據條件輸入控制生成過程,但質量較 GAN 略低。
GAN、VAE 生成視頻速度快,缺點是生成質量和分辨率較低,長度短,控制能力弱。
Transformer 自注意力機制:
通過學習視頻幀之間的關系,理解視頻的長期時間變化和動作過程,這種方式對長視頻建模更好,時序建模能力強,可實現細粒度語義控制,缺點是計算量大。
4. AI 視頻生成當前面臨的問題
當前仍面臨生成時間長、視頻質量不穩定,生成的視頻語義不連貫、幀間存在閃爍、分辨率較低等問題。解決方案有:
使用漸進生成、增強時序一致性的模型等方法解決。
上述的補幀算法、視頻完善策略也可在一定程度上緩解問題。
1. 現階段應用場景
在盤點完全部產品后,我感受到 AI 視頻產品目前面向的主要受眾群體有:
(1)專業創作者(藝術家、影視人等):
AI 生成能夠為作品賦予獨特風格和想象力,為創作者提供靈感,配合高超的剪輯技巧和敘事能力,便可以制作出超乎想象的效果。低成本動捕更是能夠大幅降低后期制作的門檻和成本,自動識別背景生成綠幕、視頻主體跟隨運動等能夠輔助視頻編輯,為后期制作增加更多空間。
目前該應用主要集中在音樂 MV、短篇電影、動漫等方向。
一些 AI 視頻平臺也積極尋求創意合作,為創作者提供免費支持。
@valleeduhamel 使用現有的素材、Gen-1 和大量合成創作了新電影《After Light》的過程分享
Ammaar Reshi 的團隊使用 Stable WarpFusion + Davinci Resolve 制作完整的動漫劇情,制作過程分享
(2)自媒體、非專業創作者:
這部分人群通常有著非常具體且明確的視頻剪輯痛點。
a. 比如科技、財經、資訊類重腳本內容的視頻在制作時需花費大量時間尋找視頻素材、還需注意視頻版權問題。一些產品(Invideo AI、Pictory)已經在發力腳本生成分鏡、視頻,幫助創作者降低視頻素材制作門檻。
Gamma AI 已經實現了文章高效轉 PPT 的能力,若能結合 Synthesia、HeyGen AI、D-ID 等產品的 Avatar、語音生成能力也可快速轉化為視頻內容。
b.不同平臺適合不同內容形式,創作者想要將同一個素材在不同平臺分發就意味著制作成本的升高。而 OpusClip 提供的長視頻轉短視頻致力于解決這一痛點。
(3)企業客戶:
對于沒有足夠視頻制作資金的小企業、非盈利機構來說,AI 視頻生成可以為其大幅縮減成本。
想要制作低成本的營銷視頻、企業宣傳視頻、培訓課程,可以使用 Synthesia、HeyGen AI、D-ID 等產品,用 Avatar 代替真人出鏡。
又如出海企業需要給產品(商品)推廣、介紹使用體驗,早在 21 年,詩云馬良平臺就推出了給視頻中模特換臉、切換語言的能力,方便電商營銷商家進行產品的本地化推廣。近期 HenGen AI 也公布了 AI 切換視頻內語言的能力,并且能夠將 Avatar 口型與視頻相匹配。
在互聯網設計工作流中的應用暢想
在互聯網產品設計領域,設計師的工作主要涉及宣傳視頻、3D 動畫、頁面動畫、圖標動畫制作,且產出內容需具備具體需求場景下落地的要求。
目前 Move AI 這樣的產品讓我看到了在游戲和產品設計工作中大幅降低 3D 動畫制作成本的可能。未來設計師可能只需要拍攝特定動作并映射到制作好的 3D 模型中,快速制作動畫方案。
By Mark Peart
目前,Figma、Protopie 等產品支持的智能動畫功能已經能夠基于補間算法,在用戶僅定義動畫的開始和結束狀態的情況下自動生成中間幀。未來不排除實現通過文字更加精確的控制動畫的可能。
下一篇中,我們將著重了解每個產品的特點和具體使用方法,也會通過實踐案例展示效果。
應用場景思考中提到的視頻工具均會在下篇出現,敬請期待~
復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。
發評論!每天贏獎品
點擊 登錄 后,在評論區留言,系統會隨機派送獎品
2012年成立至今,是國內備受歡迎的設計師平臺,提供獎品贊助 聯系我們
AI輔助海報設計101例
已累計誕生 737 位幸運星
發表評論 為下方 4 條評論點贊,解鎖好運彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓