近期,阿里巴巴智能計(jì)算研究所提出了一種新的生成式框架 EMO,是一種富有表現(xiàn)力的音頻驅(qū)動(dòng)的肖像視頻生成框架,用戶只需提供一張照片和一段音頻文件,EMO就能生成會(huì)說(shuō)話唱歌的AI視頻,實(shí)現(xiàn)無(wú)縫對(duì)接的動(dòng)態(tài)小視頻,最長(zhǎng)時(shí)間可達(dá)1分30秒左右。這項(xiàng)技術(shù)的應(yīng)用場(chǎng)景非常廣泛,從電視劇角色的語(yǔ)音合成到音樂(lè)視頻中的虛擬表演者,都有可能被AI技術(shù)所取代。
EMO框架使用Audio2Video擴(kuò)散模型,通過(guò)三個(gè)階段的技術(shù)處理,包括幀編碼、音頻編碼和去噪操作,以及參考注意力和音頻注意力機(jī)制,來(lái)生成富有表現(xiàn)力的人像視頻。
目前,EMO 框架上線到 GitHub 中,相關(guān)論文也在 arxiv 上公開(kāi)。
GitHub:https://github.com/HumanAIGC/EMO
論文:https://arxiv.org/abs/2402.17485