AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

近期,以 Stable Diffusion、Dall-E、Midjourney 等軟件或算法為代表的 AI 繪圖技術引起了廣泛關注。尤其是自 2022 年 8 月 Stable Diffusion 模型開源以來,更是加速了這一領域的發展。

對于初學者來說,面對這些令人驚嘆的 AI 繪圖作品,他們既想了解繪圖軟件的使用和技巧,又面對著諸如 Lora、ControlNet、Dall-E 等復雜術語,不知道從何入手。通過收集資料,本文將從以下四個方面介紹目前最流行的 AI 繪圖工具和模型訓練方法,力求用通俗易懂的語言幫助大家理清術語背后的真實含義。

AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

一、文生圖算法簡介

text to image 技術,又稱為文生圖,是一種基于自然語言描述生成圖像的技術。其歷史可以追溯到 20 世紀 80 年代。

AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

隨著深度學習技術的發展,特別是卷積神經網絡 CNN 和循環神經網絡 RNN 的出現,text to image 技術開始采用神經網絡模型進行訓練和生成。

AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

GAN(generative adversarial networks)和 VAE(variational auto encoder)算法是最早被應用于 text to image 任務的算法。

AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

隨著計算機硬件和算法的不斷進步,越來越多的新算法涌現出來,例如 Stable Diffusion 和 Dall-E 等。相較于傳統算法如 GAN 和 VAE,這些新算法在生成高分辨率、高質量的圖片方面表現更加卓越。

AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

Stable Diffusion(穩定擴散)是基于 DPM(Diffusion Probabistic models)的改進版本,DPM 是一種概率建模方法,旨在使用初始狀態的噪聲擾動來生成圖像。模型會首先生成一張初始狀態的噪聲圖像,然后通過逐步的運算過程逐漸消除噪聲,將圖像轉換為目標圖像。這也是我們在進行 Stable Diffusion 繪圖時,首先需要確定噪聲采樣方式和采樣步長的原因。

AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

Stable Diffusion 是由 Stability AI COMP、VIZ LMU 和 Runway 合作發布的一種人工智能技術,其源代碼在 2022 年 8 月公開于 GitHub,任何人都可以拷貝和使用。該模型是使用包含 15 億個圖像文本數據的公開數據集 Line 5B 進行訓練的。訓練時使用了 256 個 Nvidia A100 GPU,在亞馬遜網絡服務上花費了 150,000 個 GPU 小時,總成本為 60 萬美元。

AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

Dall-E 是 OpenAI 公司于 2021 年 1 月發布的一種基于 Transformer 和 GAN 的文本到圖像生成算法,使用了大規模的預訓練技術和自監督學習方法。Dall-E 的訓練集包括了超過 250 萬張圖像和文本描述的組合。該算法的靈感來源于 2020 年 7 月 OpenAI 發布的 GPT-3 模型,后者是一種可以生成具有語言能力的人工智能技術。Dall-E 則是將 GPT-3 的思想應用于圖像生成,從而實現了文本到圖像的轉換。

AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

2022 年 2 月,OpenAI 發布了 Dall-E2。相比于上一版本,Dall-E2 生成的圖像質量更高,而且可以生成更加復雜和多樣化的圖像。Dall-E2 的訓練集包括了超過 1 億張圖像和文本描述的組合,比 Dall-E 的訓練集大 40 倍。

AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

當前 Dall-E 算法雖未開源,但已經有人嘗試創建 Dall-E 的開源實現。比如,Crayon 前身為 Doy Mini,于 2022 年在 Hugging Face 的平臺上發布。

大部分的繪圖工具都是基于 Stable Diffusion、Dall-E 相關的或類似或衍生的算法開發的,尤其是已經開源的穩定擴散算法。

以下是與此相關的幾個常見、廣泛使用的 AI 繪圖工具:Midjourney、Stable Diffusion、Dall-E、NovelAI、Disco Diffusion。

AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

二、AI 繪圖工具介紹

接下來給大家介紹市面上常見的 AI 繪圖工具:

1. Midjourney

Midjourney 是一個由 Leap Motion 的聯合創始人 David Holz 創立的獨立研究室,他們以相同的名稱制作了一個人工智能程序,也就是我們常聽到的 Midjourney 繪圖軟件。該軟件于 2022 年 7 月 12 日進入公開測試階段,基于 Stable Diffusion 算法開發,但尚未開源,只能通過 Discord 的機器人指令進行操作。

AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

https://www.midjourney.com/app/

Discord 是一個在線聊天和語音交流平臺,類似于我們常用的 QQ 聊天工具。Midjourney 官方提供了一個 discord 機器人,用戶可以在 discord 中添加該機器人,進入指定的服務器進行繪圖操作。具體方法是,登錄 discord,在添加了 Midjourney Bot 的服務器中,在聊天框里輸入“image”,然后輸入繪圖指令即可。

Midjourney 是一個學習成本極低、操作簡單的繪圖工具,生成的圖片非常有藝術感,因此以藝術風格聞名。只需輸入任意關鍵詞即可獲得相對滿意的繪圖結果。繪圖者只需要專注于設計好玩實用的繪圖指令(Prompt),而無需花費太多精力在軟件操作本身上。但是,Midjourney 的使用需要全程科學上網,并且使用成本相對較高。由于軟件未開源,生成的圖片可能無法滿足用戶的特定需求,只能通過尋找合適的關鍵詞配合圖像編輯軟件來實現。

2. Stable Diffusion

Stable Diffusion 是一種算法和模型,由 Stability.ai、CompVis-LMU 和 Runway 共同發布,于 2022 年 8 月開源。因此,用戶可以下載 Stable Diffusion 的源代碼,并通過各種方式在自己的電腦上進行本地部署。

將 Stable Diffusion 分解后,有以下幾個結構和模型。在訓練時,輸入的訓練圖像首先通過編碼器模塊進行編碼,以進行降維,例如從 512*512 降到 64*64,這將大大加快訓練速度。輸入的文本長度是不固定的,通過文本編碼器(通常是 clip 模型)將其轉換為固定長度的向量以進行計算。這兩者結合后,輸入到 UNET 網絡進行訓練。訓練后,圖像通過解碼器解碼后恢復為 512*512 的圖像。

AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

生成圖像時候只需要帶入一個初始化了的噪聲圖像和文本,二者組合后輸入 UNET 網絡進行去噪,最后通過 Dncoder 還原成清晰的圖像。

AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

大家可能會認為安裝和部署 Stable Diffusion 很困難,因為需要安裝 Python 運行環境和一些依賴庫,以及對 Python 語言有一定的編程經驗。但是,有一些一鍵式的安裝包可以幫助你快速搭建 stable diffusion 的環境。這些安裝包包含了 Python 運行環境和相關的依賴庫和代碼。只需要下載安裝包,然后根據指示進行幾個簡單的步驟,即可完成 Stable Diffusion 的安裝和部署。

最受歡迎的工具包是 GitHub 上 automatic 1111 用戶創建的 Stable Diffusion Web UI。它是基于 radio 庫的瀏覽器界面交互程序。具體的安裝視頻可以在各大知識平臺都可以搜到,這里就不展開了。

一鍵式安裝包(包含 Python 運行環境,還集成了 Stable Diffusion 的相關依賴庫和代碼) https://github.com/AUTOMATIC1111/stable-diffusion-webui

目前最新的 stable diffusion 的版本是 2.1,但 2.0 以上版本砍掉了 NSFW 內容和藝術家關鍵詞,相當于封印了很多能力。

Stable Diffusion Web UI 只是運行 Stable Diffusion 的可視化界面,就如一輛車子缺乏發動機,我們還需要從 Stability AI 的 Hugging Face 官網下載 Stable Diffusion 模型,才能開始運行 Stable Diffusion 繪圖。

本地運行 Stable Diffusion 需要較高的顯卡配置,建議使用顯存大于 8G 的 N 卡顯卡。如果配置不夠但還想體驗一下,Stable Diffusion 有線上版本 DreamStudio,只是需要付費使用。新用戶可以獲得 200 個點數,每次標準生成將消耗一個點數。

AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

https://beta.dreamstudio.ai/generate?from=%2Fdream

3. Dall-E

Dall-E 是 OpenAI 旗下的一款 AI 繪圖工具軟件,與 ChatGPT 同屬于一個公司。最新版本 Dall-E 2 于 2022 年 2 月發布。Dall-E 可以在線使用,Dall-E 會根據這些文字描述生成一張或多張圖片,并顯示在屏幕上。用戶可以上傳自己的圖片,標記圖像中的區域進行進一步的編輯和修改。Dall-E 還會根據已有圖像的視覺元素對圖像進行二次加工,延展圖片邊界。

AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

https://labs.openai.com/

用戶在注冊的第一個月可以獲得 50 個免費積分,每月可以獲得 15 個積分,每張圖片花費 1 個積分。如果需要更多的圖像,用戶需要付費。當前,Dall-E 算法并未公開源代碼。

4. NovelAI

Nova AI 是由美國特拉華州的 Anlatan 公司開發的云端軟件。最初,該軟件于 2021 年 6 月 15 日推出測試版,其主要功能是輔助故事寫作。之后,在 2022 年 10 月 3 日,Nova AI 推出了圖像生成服務,由于其生成的二次元圖片效果出眾,因此它被廣泛認為是一個二次元圖像生成網站。

AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

https://novelai.net/

Nova AI 的圖像生成模型是使用 8 個 Nvidia A100 GPU 在基于 Damburu 的約 530 萬張圖片的數據集上訓練而得到的,其底層算法也是基于 stable diffusion 模型微調而來的。

使用 Nova AI 的方法很簡單,只需登錄官方網站,進入圖像生成界面,輸入關鍵字,即可生成圖像。此外,由于 Novel AI 曾經發生過代碼泄露,因此也可以下載 Novoai 的模型(Naifu、Naifu-diffusion)在 Stable Diffusion web UI 中使用。

5. Disco Diffusion

Disco Diffusion 是最早流行起來的 AI 繪圖工具,發布于 Google Clab 平臺。它的源代碼完全公開且免費使用,可通過瀏覽器運行而無需對電腦進行配置。Disco Diffusion 基于 Diffusion 擴散模型開發,是在 Stable Diffusion 發布之前最受歡迎的擴散模型之一。然而,它在繪制人物方面表現不佳,且生成一張圖片需要十幾二十分鐘的時間,因此在 Stable Diffusion 發布后逐漸失去了市場熱度。

6. 其他工具

NiJiJourney 是一個專門針對二次元繪畫的 AI 繪畫軟件,由 Spellbrush 和 Midjourney 共同推出。使用方法與 Midjourney 基本相同,用戶可以在 Discord 上輸入相應的繪畫指令進行繪畫。目前 NiJiJourney 處于內測階段,繪畫是免費的,但是版權問題尚未明確表態。預計在正式公測時,付費用戶可以獲得商用權利,與 Midjourney 類似。

AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

Waifu Diffusion 是一種基于擴散模型的 AI 繪圖模型,它的早期版本 1.4 在動漫領域的繪圖效果與 NovelAI 非常相似。有些人甚至認為 Waifu Diffusion 是在 NovelAI 模型的基礎上進行微調得到的,但 Waifu Diffusion 團隊表示他們的模型是 Trinart Derrida 和 Eimis Anime Diffusion 模型的合并結果。我們可以從 Hugging Face 上下載 Waifu Diffusion 模型,并在 Stable Diffusion Web UI 中使用它。

除此以外還有很多類似 Midjourney 的繪圖工具,幾乎都是基于 Stable Diffsion 或者類似算法進行開發。如 Leonardo AI、BlueWillow AI、Playground AI、Dreamlike、NightCafe.studio 等等。有一些還具備圖像修改、圖像延展等功能,盡管這些軟件還處于測試階段,需要申請才能使用,但它們生成的圖片質量不輸 Midjourney,因此常被拿來與 Midjourney 進行對比。

① Leonardo AI

AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

https://leonardo.ai/

② BlueWillow AI

AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

https://www.bluewillow.ai/

③ Playground AI

AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

https://playgroundai.com/

④ Dreamlike

AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

https://dreamlike.art/

⑤ NightCafe.studio

AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

https://nightcafe.studio/

三、模型訓練相關名詞

AI 大模型,也被稱為基礎模型(Foundation Model),是指將大量數據導入具有數億甚至萬億級參數的模型中,通過人工智能算法進行訓練。Stable Diffusion、NovelAI、Dall-E 等模型都屬于大模型。這類大模型普遍的特點是參數多,訓練時間長,具備泛化性、通用性、實用性,適用于各種場景的繪圖。

AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

這類 AI 大模型也存在一個普遍的缺點,就是無法滿足對細節控制或特定人物特定繪圖風格的繪圖需要。即便掌握了算法知識,訓練一個好的 AI 繪圖模型也需要強大的計算資源,這些計算資源對于普通人來說過于昂貴。例如 Stable Diffusion 在亞馬遜網絡服務上使用 256 個 NVIDIA A100 GPU 進行訓練,總共花費了 15 萬個 GPU 小時,成本為 60 萬美元。

于是,針對這些大模型的微調技術應運而生。為了達到繪制特定人物或特定繪圖風格的需要,我們不需要重新訓練大模型,只要提供幾張圖片和一張顯卡,幾個小時的時間就可以實現。也就是我們常聽說的 Embedding、Hypernetwork、Dreambooth、Lora、ControINet,它們都屬于大模型的微調技術,可以在 Stable Diffusion Web UI 中進行訓練后使用,感興趣的話可以在 Civitai 進行下載。

AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

1. Embedding

Text Coder 就像一本詞典,輸入文本后 Text Coder 能快速查找到符合要求的詞向量,

AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

那如果出現新的關鍵詞,text coder 上找不到該怎么辦?這就是 Embedding 算法要做的事情,它通過訓練在 Text Coder 中找到與新的詞特征、風格相同的詞向量。例如這個麒麟訓練后可以看作龍羊虎的組合。

AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

Embedding 算法不改變大模型的基本結構,也不改變 text coder,所以就能達到微調模型的目的。對于風格的描述,一般需要較多的關鍵詞。Embedding 對于復雜的詞匯的調整結果并不太好,定義人物需要的關鍵詞少,所以適用于對人物的訓練。

AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

② Hypernetwork

與 Embedding 不同,Hypernetwork 是作用在 UNET 網絡上的,UNET 神經網絡相當于一個函數,內部有非常多的參數,Hypernetwork 通過新建一個神經網絡,稱之為超網絡。超網絡的輸出的結果是 UNET 網絡的參數。超網絡不像 UNET,它的參數少,所以訓練速度比較快,因此 Hypernetwork 能達到以較小時間空間成本微調模型的目的。

AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

Hypernetwork 會影響整個 UNET 的參數生成,理論上更適合風格的訓練。Stable Diffusion Web UI 上也繼承了 Embedding 和 Hypernetwork 的訓練環境。

AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

3. Dreambooth

Dreambooth 是 Google 在 2022 年 8 月提出的一種新的網絡模型,它的強大之處在于能完整地保留你想要關鍵視覺特征。例如圖中最左邊的黃色鬧鐘上面一個醒目的黃色的。采用 Dreambooth 生成的新圖像可以準確還原這個圖像最右邊這個樣子。這需要模型能夠準確識別物體的細節。你只需提供 3- 5 張的圖像和文本提示作為輸入,就可以達到很好的效果。Dreambooth 適合人物訓練,改版的 Dreambooth 方法 native train 適合于風格的訓練。

AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

Dreambooth 要求同時提供特征詞加類別和類別文本圖片信息帶入模型進行訓練,例如 a dog 和 a [V] dog。這樣做的好處是既可以保留類別的原始信息,又可以學習到特征詞加類別的新的信息。

AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

4. LoRA

LoRA(Low-Rank Adaptation of large Language Models)是由微軟研究員開發的一種用于微調大模型的技術。該技術建議凍結預訓練模型的權重,并在每個 Transformer 塊中注入可訓練層,從而在保持大部分參數不變的情況下,調整局部的一些模型參數。由于不需要重新計算模型的權重參數的梯度,這大大減少了需要訓練的計算量,并降低了 GPU 的內存要求。

使用 LoRA 模型進行微調可以為我們提供更自由、更便捷的微調模型的方式。例如,它使我們能夠在基本模型的基礎上進一步指定整體風格、指定人臉等等。此外,LoRA 模型本身非常小,即插即用,非常方便易用。

5. Controlnet

Controlnet 是當前備受矚目的 AI 繪圖算法之一。它是一種神經網絡結構,通過添加額外的條件來控制基礎擴散模型,從而實現對圖像構圖或人物姿勢的精細控制。結合文生圖的操作,它還能實現線稿轉全彩圖的功能。

Controlnet 的意義在于它不再需要通過大量的關鍵詞來堆砌構圖效果。即使使用大量關鍵詞,生成的效果也難以令人滿意。借助 Controlnet 可以在最開始就引導它往你需要的構圖方向上走,從而實現更準確的圖像生成。

四 、VAE 模型的作用

正如我們之前介紹的,Stable Diffusion 在訓練時會有一個編碼(Encoder)和解碼(Dncoder)的過程,我們將編碼和解碼模型稱為 VAE 模型。預訓練的模型,如官網下載的 Stable Diffusion 模型,一般都是內置了訓練好的 VAE 模型的,不用我們再額外掛載。但有些大模型并不內置 VAE 模型,或者 VAE 模型經過多次訓練融合不能使用了,就需要額外下載,并在 Stable Diffusion Web UI 中添加設置。如果不添加,出圖的色彩飽和度可能會出問題,發灰或變得不清晰。大家可以根據模型說明信息來確定是否要下載 VAE。

歡迎關注作者微信公眾號: AI Design Center

AI繪畫基礎科普!一次性幫你搞懂所有技術名詞

收藏 73
點贊 41

復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。