2024/03/04

谷歌推出生成交互大模型 Genie,一張草圖直接生成視頻游戲!

近日,谷歌DeepMind的研究人員推出了,首個無需數據標記、無監督訓練的生成交互模型——Generative Interactive Environments,簡稱“Genie”。

Genie是一個具有110億參數的模型,它能夠根據圖像、真實照片甚至草圖生成可控制動作的視頻游戲。這個模型的特點是無需數據標記和無監督訓練,它通過3萬小時、6800萬段游戲視頻進行了大規模訓練,而且訓練過程中沒有使用任何真實動作標簽或其他特定提示。

Genie的核心架構使用了ST-Transformer(時空變換器),這是一種結合了Transformer模型的自注意力機制與時空數據的特性,有效處理視頻、多傳感器時間序列、交通流量等時空數據的方法。ST-Transformer通過捕捉數據在時間和空間上的復雜依賴關系,提高了對時空序列的理解和預測能力。

Genie的架構主要由三大模塊組成:
1. 視頻分詞器:基于VQ-VAE的模塊,將原始視頻幀壓縮成離散的記號表示,以降低維度并提高視頻生成質量。
2. 潛在動作模型:無監督學習模塊,從原始視頻中推斷出狀態變化對應的潛在動作,并實現對每一幀的控制。
3. 動力學模型:基于潛在動作模型學習到的動作關系,預測下一幀的視頻。

除了視頻游戲,你覺得 Genie 模型還能在哪些其他領域發揮作用?

收藏 關注話題 點贊 15 生成海報
閱讀相關文章
{{comTitle}} {{comSubtitle}}

谷歌推出生成交互大模型 Genie,一張草圖直接生成視頻游戲!

生成問答海報 我要提問 我來回答