谷歌發(fā)布的一個(gè)名為 VLOGGER 的項(xiàng)目。這個(gè)項(xiàng)目能夠根據(jù)輸入的圖片和音頻生成對(duì)應(yīng)人物講話的視頻。但是個(gè)人感覺(jué) VLOGGER 看起來(lái)沒(méi)有阿里巴巴發(fā)布的 DreamTalk 和 EMO 自然,大家覺(jué)得呢?
VLOGGER 主要特點(diǎn):
1. 3D運(yùn)動(dòng)的擴(kuò)散模型:它可以根據(jù)一張人物圖像生成由文本和音頻驅(qū)動(dòng)的說(shuō)話人視頻。
2. 創(chuàng)新的架構(gòu):項(xiàng)目包含一個(gè)創(chuàng)新的基于擴(kuò)散的架構(gòu),通過(guò)時(shí)間和空間控制來(lái)增強(qiáng)文本到圖像模型的能力。
3. 高質(zhì)量視頻生成:能夠生成高質(zhì)量、可變長(zhǎng)度的視頻,并通過(guò)人臉和身體的高級(jí)表示進(jìn)行便捷控制。
4. 廣泛的適用性:與之前的工作相比,VLOGGER不需要為每個(gè)人單獨(dú)訓(xùn)練模型,不依賴人臉檢測(cè)和裁剪,能生成完整的圖像(包括臉部和身體),適用于廣泛場(chǎng)景,如軀干可見(jiàn)或身份多樣化,這對(duì)于正確合成具有溝通能力的虛擬人至關(guān)重要。
項(xiàng)目地址:https://enriccorona.github.io/vlogger/