好消息,近日字節跳動推出了一種新型工具——分辨率適配器 ResAdapter,這個工具旨在解決在使用Stable Diffusion等文本到圖像模型生成超出訓練分辨率的圖像時出現的肢體異常和畫面崩壞問題。
ResAdapter能夠與現有的IPadapter和Controlnet模型兼容,并且可以直接生成動態分辨率的圖像,提高了圖像處理的效率。
項目簡介中提到,盡管像Stable Diffusion這樣的模型能夠創造出高質量的圖像,但在生成非訓練分辨率的圖像時存在限制。ResAdapter通過利用廣泛的分辨率先驗,即使只有0.5M的容量,也能生成高分辨率且保持原有風格的圖像。
ResAdapter在提高分辨率方面與擴散模型配合得很好,并且可以與其他模塊兼容,用于創建不同分辨率的圖像。
項目介紹地址:res-adapter.github
近日,谷歌DeepMind的研究人員推出了,首個無需數據標記、無監督訓練的生成交互模型——Generative Interactive Environments,簡稱“Genie”。
Genie是一個具有110億參數的模型,它能夠根據圖像、真實照片甚至草圖生成可控制動作的視頻游戲。這個模型的特點是無需數據標記和無監督訓練,它通過3萬小時、6800萬段游戲視頻進行了大規模訓練,而且訓練過程中沒有使用任何真實動作標簽或其他特定提示。
Genie的核心架構使用了ST-Transformer(時空變換器),這是一種結合了Transformer模型的自注意力機制與時空數據的特性,有效處理視頻、多傳感器時間序列、交通流量等時空數據的方法。ST-Transformer通過捕捉數據在時間和空間上的復雜依賴關系,提高了對時空序列的理解和預測能力。
Genie的架構主要由三大模塊組成: 1. 視頻分詞器:基于VQ-VAE的模塊,將原始視頻幀壓縮成離散的記號表示,以降低維度并提高視頻生成質量。 2. 潛在動作模型:無監督學習模塊,從原始視頻中推斷出狀態變化對應的潛在動作,并實現對每一幀的控制。 3. 動力學模型:基于潛在動作模型學習到的動作關系,預測下一幀的視頻。
除了視頻游戲,你覺得 Genie 模型還能在哪些其他領域發揮作用?
Stability AI 發布了 Stable Diffusion 3,宣稱這是他們最強大的文本到圖像模型,利用擴散轉換器架構大大提高了多主題提示、圖像質量和拼寫能力的性能!
該版本與Stable Diffusion 2相比,在文本語義理解、色彩飽和度、圖像構圖、分辨率、類型、質感、對比度等方面大幅度增強,可對標閉源模型Midjourney。
Stable Diffusion 3的參數在8億——80億之間,也就是說Stable Diffusion 3可能是專為移動設備開發的,AI算力消耗將更低,推理速度卻更快。
Stable Diffusion 3 支持申請使用,未來會擴大測試范圍。
申請地址:https://stability.ai/stablediffusion3
根據 Adobe 官方網站的公告,他們正式推出了一款名為AIAssistant的生成式AI助手,并將其整合到Reader和Acrobat這兩款知名的PDF閱讀器中。
AIAssistant 的功能類似于ChatGPT,它能夠根據PDF文檔內容提供摘要、核心見解,甚至回答各種問題。
目前,Acrobat Personal、Teams以及Acrobat Pro的用戶可以體驗測試版AIAssistant功能。
這一新功能的推出,無疑將極大地提升用戶在閱讀和處理PDF文檔時的效率和便利性,為用戶帶來全新的使用體驗。
字節研究院發布了一個名為 Boximator 的視頻控制方式,看起來相當不錯。這種控制方式允許用戶選擇需要運動的物體,并繪制其結束位置和運動路徑,物體將嚴格按照用戶繪制的位置和路徑進行運動。與 Runway 的運動筆刷相比,Boximator 可以更精確地控制物體的運動結束位置。
Boximator適用于藝術家、設計師和營銷專業人士,它結合了高度的個性化和創意表達能力,使用戶能夠創造出獨特且引人入勝的視頻內容。目前,Boximator仍在開發中,但已提供早期體驗渠道,用戶可以通過電子郵件體驗其功能。
線上體驗地址:https://boximator.github.io/
給大家推薦一個 Stable Diffusion ComfyUI 工作流管理插件 Comfyspace,現在新增了模型管理功能。能力更強大了。
點擊右上角的模型按鈕,即可查看已安裝的模型文件,同時它會同步Civitai的模型封面圖,無需依靠文字猜測模型。模型分類也非常全面,不再局限于CKPT模型和Lora模型。
點擊安裝即可輕松查看Civitai的所有模型,并進行搜索,隨時下載到對應文件夾。這個插件已成為我使用Comfyui時不可或缺的插件,而且他們的本地插件管理和歷史生成結果查看功能也非常實用。
下載安裝:https://github.com/11cafe/comfyui-workspace-manager
華為諾亞方舟實驗室、清華大學信息科技學院、大連理工、香港大學和Hugging Face的研究人員,共同發布了一款名為PIXART-δ的超高清文生圖模型。
這一模型集成了潛在一致性模型(LCM)和創新控制架構ControlNet-Transformer,實現了在文生圖像方面的重大技術突破。僅需0.5秒2-4個推理步驟,PIXART-δ就能完成圖像生成,速度比之前的PIXART-α模型快了7倍。
在ControlNet-Transformer的幫助下,PIXART-δ可以對生成模型的輸出進行精確控制,包括圖像的邊緣、深度、分割和對象姿勢等,類似于OpenAI的DALL·E 3。
字節跳動的研究人員開發了一種超高清文生視頻模型MagicVideo-V2。
這是一個集成了文本到圖像模型、視頻運動生成器、參考圖像嵌入模塊和幀插值模塊的端到端視頻生成pipeline。MagicVideo-V2能夠從文本描述中生成具有高美感、高分辨率、高保真度和流暢性的視頻。通過大規模用戶評估,它在人類視覺感知方面表現出優秀的性能。
MagicVideo-V2的設計包括以下關鍵模塊: - 文本到圖像模型:從給定的文本提示生成一個1024×1024的圖像作為視頻生成的參考圖像。 - 圖像到視頻模型:使用文本提示和生成的圖像作為條件生成關鍵幀。 - 視頻到視頻模型:對關鍵幀進行細化和超分辨率處理,生成高分辨率視頻。 - 視頻幀插值模型:在關鍵幀之間插值生成平滑的視頻運動,并最終生成高分辨率、流暢、高美感的視頻。
論文地址:https://arxiv.org/abs/2401.04468 項目地址:https://magicvideov2.github.io/