8.1k 設(shè)計(jì)師已圍觀
2024/02/29

太炸裂了!阿里開(kāi)發(fā)出 AI 圖生視頻模型EMO,1 張圖片加音頻就可以做會(huì)說(shuō)話的頭像視頻!

近期,阿里巴巴智能計(jì)算研究所提出了一種新的生成式框架 EMO,是一種富有表現(xiàn)力的音頻驅(qū)動(dòng)的肖像視頻生成框架,用戶只需提供一張照片和一段音頻文件,EMO就能生成會(huì)說(shuō)話唱歌的AI視頻,實(shí)現(xiàn)無(wú)縫對(duì)接的動(dòng)態(tài)小視頻,最長(zhǎng)時(shí)間可達(dá)1分30秒左右。這項(xiàng)技術(shù)的應(yīng)用場(chǎng)景非常廣泛,從電視劇角色的語(yǔ)音合成到音樂(lè)視頻中的虛擬表演者,都有可能被AI技術(shù)所取代。

EMO框架使用Audio2Video擴(kuò)散模型,通過(guò)三個(gè)階段的技術(shù)處理,包括幀編碼、音頻編碼和去噪操作,以及參考注意力和音頻注意力機(jī)制,來(lái)生成富有表現(xiàn)力的人像視頻。

目前,EMO 框架上線到 GitHub 中,相關(guān)論文也在 arxiv 上公開(kāi)。

GitHub:https://github.com/HumanAIGC/EMO

論文:https://arxiv.org/abs/2402.17485

太炸裂了!阿里開(kāi)發(fā)出 AI 圖生視頻模型EMO,1 張圖片加音頻就可以做會(huì)說(shuō)話的頭像視頻!

太炸裂了!阿里開(kāi)發(fā)出 AI 圖生視頻模型EMO,1 張圖片加音頻就可以做會(huì)說(shuō)話的頭像視頻!

收藏 關(guān)注話題 點(diǎn)贊 36 生成海報(bào)
優(yōu)設(shè)問(wèn)答有問(wèn)必答 ?? 回答問(wèn)題贏獎(jiǎng)品
{{ moreBtnTxt }}
閱讀相關(guān)文章
{{comTitle}} {{comSubtitle}}

優(yōu)設(shè)官方微信群

  • 1AIGC自學(xué)交流群
  • 2個(gè)人IP運(yùn)營(yíng)交流群
  • 3優(yōu)設(shè)私單群
  • 4優(yōu)設(shè)同城搭子群
  • 5優(yōu)設(shè)大學(xué)生交流群
  • 6優(yōu)設(shè)設(shè)計(jì)師交流群

添加管理員 招財(cái)

微信號(hào): 掃碼添加
嚴(yán)格審核打造高質(zhì)量交流群

太炸裂了!阿里開(kāi)發(fā)出 AI 圖生視頻模型EMO,1 張圖片加音頻就可以做會(huì)說(shuō)話的頭像視頻!

生成問(wèn)答海報(bào) 我要提問(wèn) 我來(lái)回答