大家好,我是花生~
備受期待的 Stable Diffusion 3(以下簡稱 “SD3”)終于向公眾開放了,作為 Stability AI 迄今為止最先進(jìn)的文本到圖像開源模型,SD3 在圖像質(zhì)量、文本內(nèi)容生成、復(fù)雜提示理解和資源效率方面有了顯著提升,今天就為大家詳細(xì)介紹一下 SD3 的特點以及如何在 ComfyUI 中使用它。
相關(guān)推薦:
此次開放的模型準(zhǔn)確來說是 Stable Diffusion 3 Medium,包含 20 億參數(shù),具有體積小、適合在消費級 PC 和筆記本電腦上運行的優(yōu)點,所以普通人也可以將其部署到自己的電腦上使用。SD3 Medium 的優(yōu)點包括:
① 圖像質(zhì)量整體提升,能生成照片般細(xì)節(jié)逼真、色彩鮮艷、光照自然的圖像;能靈活適應(yīng)多種風(fēng)格,無需微調(diào),僅通過提示詞就能生成動漫、厚涂等風(fēng)格化圖像;具有 16 通道的 VAE,可以更好地表現(xiàn)手部以及面部細(xì)節(jié)。
② 能夠理解復(fù)雜的自然語言提示,如空間推理、構(gòu)圖元素、姿勢動作、風(fēng)格描述等。對于「第一瓶是藍(lán)色的,標(biāo)簽是“1.5”,第二瓶是紅色的,標(biāo)簽是“SDXL”,第三瓶是綠色的,標(biāo)簽是“SD3”」這樣復(fù)雜的內(nèi)容,SD3 依舊能準(zhǔn)確生成,而且文本效果比 Midjourney 還要準(zhǔn)確。
③ 通過 Diffusion Transformer 架構(gòu),SD3 Medium 在英文文本拼寫、字距等方面更加正確合理。Stability AI 在發(fā)布 SD3 官方公告時,頭圖就是直接用 SD3 生成的,效果非常驚艷。
另外此次 SD3 Medium 模型的授權(quán)范圍是開放的非商業(yè)許可證,也就是說沒有官方許可的情況下,模型不得用于商業(yè)用途,這點是需要大家注意的。
SD 3 Medium 模權(quán)重已經(jīng)在 huggingface 上放出了, 我們可以在 ComfyUI 部署工作流來使用它,具體操作如下:
① 將 ComfyUI 更新到最新版本,以支持 SD3 的順利運作。
② 下載模型權(quán)重: https://huggingface.co/stabilityai/stable-diffusion-3-medium (下載時需要先填寫一份表格,保證自己不會將模型用于商用用途;可以直接在文末的百度云盤內(nèi)下載)。官方提供了 4 種大模型文件:
- sd3_medium:4.3G,獨立主模型,不包含文本編碼器(clip 模型);
- sd3_medium_incl_clips.safetensors:5.97G,包含 clip_g 和 clip_l 編碼器;
- sd3_medium_incl_clips_t5xxlfp8.safetensors:10.9G,包含 clip_g、clip_l 和 t5xxl_fp8 編碼器;
- sd3_medium_incl_clips_t5xxlfp16.safetensors:15.8G,包含 clip_g、clip_l 和 t5xxl_fp16 編碼器。
③ 另外還有 4 個 Clip 文件和 3 種工作流。大模型的安裝位置為根目錄的 comfyui/models/checkpoints 文件夾,Clip 模型的安裝位置為 comfyui/models/clip 文件夾。實際應(yīng)用中不需要每一個模型都下載,后面會為大家介紹目前使用較多的 2 種工作流,可以看完之后再確定下載哪些文件。
SD3 工作流 ①
這個使用的是官方提供的 basic 基礎(chǔ) 工作流,可以在 comfyui_example_workflow 文件加中下載使用 。這個工作流需要用的模型文件有 4 種:sd3_medium、clip_g、clip_l 和 t5xxl_fp8。這是最完整穩(wěn)健的一種工作流。
SD3 工作流 ②
這個工作流可以在云盤內(nèi)下載,它只使用了一個模型文件 sd3_medium_incl_clips_t5xxlfp8.safetensors。這個模型已經(jīng)融合了 3 種 clip 模型,所以不再需要 clip loader 這個節(jié)點,用起來更簡單。
使用 SD3 時,還有 2 個小技巧可以幫我們提升出圖質(zhì)量:
① 是在生成寫實照片以及人物面部的,可以將 cfg 參數(shù)參數(shù)調(diào)低至 2-3 之間,細(xì)節(jié)和質(zhì)量會更好;包含文本時,還是使用 cfg 4.5 或者 5 時效果會更好。大家也可以多探索一些其他 cfg 參數(shù)能產(chǎn)生的效果。
② SD3 模型更適合自然語言提示詞,而不是標(biāo)簽式的提示詞,你可以詳細(xì)描述你需要的畫面內(nèi)容、構(gòu)圖、色彩、氛圍,即使提示詞很長,SD3模型也能處理的很好。
雖然 SD3 在圖像質(zhì)量、細(xì)節(jié)、對提示詞的理解、文本內(nèi)容生成能力上有了明顯提升,但是也存在一些不足,比如在生成手部的時候依舊會出現(xiàn)錯誤,以及在生成 “l(fā)ying(躺)” 這個姿勢時,人物會出現(xiàn)嚴(yán)重的崩壞。有人推測是因為 SD3 對內(nèi)容安全有嚴(yán)格審查,導(dǎo)致相關(guān)內(nèi)容受到影響。
不過總體上來說 SD3 在圖像生成質(zhì)量以及整體性能上都比之前的 SD1.5、SDXL 提升很多。雖然有 Midjourney V6 以及 sdxl 微調(diào)模型珠玉在前,讓 SD3 顯得沒有那么驚艷,但是作為一個免費的模型能達(dá)到這樣的效果已經(jīng)非常驚人了。
之前 SD1.5、SDXL 模型的直出圖像質(zhì)量一直也不太行,但是在開源社區(qū)的努力下,各種衍生模型的質(zhì)量一直都非常不錯,甚至超過了一些閉源模型。所以我們可以期待一下 SD3 未來的生態(tài)發(fā)展,等各種微調(diào)模型以及 Controlnet、IP-Adapter 這些的配套模型都跟上之后,SD3 肯定還能給我們帶來新的驚喜。
以上就是本期為大家介紹的最新開源文生圖模型 SD3 的相關(guān)內(nèi)容。模型資源以及工作流文件都在文末的百度網(wǎng)盤內(nèi)容,有需要小伙伴記得下載。
ComfyUI 的學(xué)習(xí)門檻比較高,如果你想掌握它,建議先從 Stable Diffusion WebUI 開始,它更適合初學(xué)入門,學(xué)會后也能有助于我們快速掌握 ComfyUI 的用法。 我最新制作的 《零基礎(chǔ) AI 繪畫入門指南》是一門面向 AI 繪畫零基礎(chǔ)人群的系統(tǒng)課程,包含 Stable Diffusion WebUI 全面細(xì)致的用法教學(xué),并提供配套資源,能幫你快速掌握這款目前最熱門的 AI 繪畫工具。
如果有關(guān)于文章的問題,歡迎在評論區(qū)留言,或者下方的二維碼加入“優(yōu)設(shè) AI 繪畫交流群”,和我及其他 設(shè)計師 一起交流學(xué)習(xí) AI 知識~
相關(guān)鏈接:
官方 SD3 介紹: https://stability.ai/news/stable-diffusion-3-medium
SD3 授權(quán)范圍詳情: https://stability.ai/license
推薦閱讀:
復(fù)制本文鏈接 文章為作者獨立觀點不代表優(yōu)設(shè)網(wǎng)立場,未經(jīng)允許不得轉(zhuǎn)載。
發(fā)評論!每天贏獎品
點擊 登錄 后,在評論區(qū)留言,系統(tǒng)會隨機派送獎品
2012年成立至今,是國內(nèi)備受歡迎的設(shè)計師平臺,提供獎品贊助 聯(lián)系我們
AI輔助海報設(shè)計101例
已累計誕生 737 位幸運星
發(fā)表評論 為下方 8 條評論點贊,解鎖好運彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓