2024/03/15

谷歌發(fā)布 VLOGGER 模型,可根據(jù)輸入圖片和音頻生成人物講話視頻!

谷歌發(fā)布的一個(gè)名為 VLOGGER 的項(xiàng)目。這個(gè)項(xiàng)目能夠根據(jù)輸入的圖片和音頻生成對(duì)應(yīng)人物講話的視頻。但是個(gè)人感覺(jué) VLOGGER 看起來(lái)沒(méi)有阿里巴巴發(fā)布的 DreamTalk 和 EMO 自然,大家覺(jué)得呢?

VLOGGER 主要特點(diǎn):
1. 3D運(yùn)動(dòng)的擴(kuò)散模型:它可以根據(jù)一張人物圖像生成由文本和音頻驅(qū)動(dòng)的說(shuō)話人視頻。
2. 創(chuàng)新的架構(gòu):項(xiàng)目包含一個(gè)創(chuàng)新的基于擴(kuò)散的架構(gòu),通過(guò)時(shí)間和空間控制來(lái)增強(qiáng)文本到圖像模型的能力。
3. 高質(zhì)量視頻生成:能夠生成高質(zhì)量、可變長(zhǎng)度的視頻,并通過(guò)人臉和身體的高級(jí)表示進(jìn)行便捷控制。
4. 廣泛的適用性:與之前的工作相比,VLOGGER不需要為每個(gè)人單獨(dú)訓(xùn)練模型,不依賴人臉檢測(cè)和裁剪,能生成完整的圖像(包括臉部和身體),適用于廣泛場(chǎng)景,如軀干可見(jiàn)或身份多樣化,這對(duì)于正確合成具有溝通能力的虛擬人至關(guān)重要。

項(xiàng)目地址:https://enriccorona.github.io/vlogger/

收藏 關(guān)注話題 點(diǎn)贊 19 生成海報(bào)
閱讀相關(guān)文章
{{comTitle}} {{comSubtitle}}

優(yōu)設(shè)官方微信群

  • 1AIGC自學(xué)交流群
  • 2個(gè)人IP運(yùn)營(yíng)交流群
  • 3優(yōu)設(shè)私單群
  • 4優(yōu)設(shè)同城搭子群
  • 5優(yōu)設(shè)大學(xué)生交流群
  • 6優(yōu)設(shè)設(shè)計(jì)師交流群

添加管理員 招財(cái)

微信號(hào): 掃碼添加
嚴(yán)格審核打造高質(zhì)量交流群

谷歌發(fā)布 VLOGGER 模型,可根據(jù)輸入圖片和音頻生成人物講話視頻!

生成問(wèn)答海報(bào) 我要提問(wèn) 我來(lái)回答