,,

隨著 AIGC 的發展，AI 繪畫逐漸進入我們的生活和工作。本文將探討 AI 繪畫技術的各個方面。從圖像生成技術邁出的里程碑事件，到對 AI 繪畫技術的深度科普，再到未來的發展趨勢分析，相信本文將能夠為大家揭示 AI 繪畫背后的神秘面紗，一起來深入了解其技術原理吧。

我會通過兩篇文章來對 AI 繪畫產品進行分析，第一篇主要科普圖像生成技術原理；第二篇是分析 AI 繪畫產品商業化落地，算是我近期對 AI 繪畫產品了解的一個總結輸出，以下是第一篇內容。

(資料圖片)

2022 年 9 月一幅名為《太空歌劇院》的畫作在數字藝術類別比賽中一舉奪冠，這個震驚四座的畫作由游戲設計師 Jason Allen 使用 Midjourney 完成，AI 繪畫進入人們的視野。

人們第一次意識到 AI 做出來的畫可以如此精美，意識到 AI 繪畫可能如同當年相機、數字繪畫的出現一樣，會給繪畫設計行業帶來一場深刻的變革。

這篇文章從產品經理視角，了解 AI 繪畫產品的背后有哪些算法模型、他們的技術原理是什么？不同技術的邊界在哪里，使用場景在哪里？產品經理要懂得將算法合理的組合使用，以滿足日常工作的需求，實現產品目標。

AI 繪畫發展的主要節點

AI 繪畫的底層原理

主流的圖像生成模型解析

AI 繪畫的可控性有哪些

AI 繪畫的技術研究趨勢

一、AI 繪畫發展的主要節點

1. 2012 年 AI 畫出了一只模糊的貓

吳恩達和杰夫安迪使用了 1.6 萬個 CPU 和 You Tube 上 1000 萬張貓的圖片，用時 3 天時間訓練了當時最大的深度學習模型，最終生成了一張貓臉。

雖然這張貓的圖片看起來非常模糊，而且耗時又非常久，但對當時的計算機視覺來講具有重要突破意義的嘗試，開啟了 AI 繪畫研究的全新方向。

為什么當時基于深度學習模型的 AI 繪畫那么麻煩？主要是整個模型需要利用大量標注好的訓練數據，根據輸入和所對應的預期輸出，不斷地調整模型內部的參數進行匹配。例如生成一張 512*512 *3（RGB）的畫，要將這些像素有規律的組合，會涉及到龐大參數迭代調整的過程。

2. 2015 年文生圖重要的拐點

2015 年出了一項人工智能的重大進展——智能圖像識別。機器學習可以對圖像中的物體貼上標簽，然后將這些標簽轉化成自然語言描述。

一些研究人員產生了好奇，如果把這個過程反向，通過文字來生成畫面，是否也能實現呢？

于是他們向計算機模型輸入了一些文字，看看能產生什么原因，結果模型真的生成了一些結果圖片。如下圖中所示，這時產生了 32*32 像素的小圖片，基本很難辨別出啥，但已經預示著無限的可能性。

3. 2021 年 OpenAI 宣布 Dalle

2021 年年初，OpenAI 發布了引發巨大關注的 DALL-E 系統，但 DALL-E 的繪畫水平還是很一般，之所以引發關注，是因為他實現了輸入文字就可以繪畫創作的可能，比之前生成的圖片質量高很多。

4. 2022 年開啟 AI 繪畫的元年

2 月 Disco diffusion V5 發布

在 2022 年的 2 月，由 somnai 等幾個開源社區的工程師做了一款基于擴散模型的 AI 繪圖生成器—— Disco diffusion。從它開始，AI 繪畫進入了發展的快車道，潘多拉魔盒已經打開。

越來越多的人開始使用 Disco diffusion 創作作品，但是它有一個致命的缺點就是它生成的畫面都十分的抽象，這些畫面用來生成抽象畫還不錯，但是幾乎無法生成具象的人。

由于生成速度較慢，操作復雜、生成的風格相對比較抽象，目前使用的人沒有 Stable Diffusion 和 Midjourney 那么多。

3 月 Midjouney

Midjouney 選擇搭載在 discord 平臺，借助 discord 聊天式的人機交互方式，不需要之前繁瑣的操作，也沒有 Disco diffusion 十分復雜的參數調節，你只需要向聊天窗口輸入文字就可以生成圖像。更關鍵的是，Midjouney 生成的圖片效果非常驚艷，普通人幾乎已經很難分辨出它產生的作品，竟然是 AI 繪畫生成的。

4 月 DALL · E 2

4 月 10 日，之前提到過的 OpenAI 推出的第二代圖像生成人工智能模型 DALL · E 2。與第一代 DALL-E 相比，DALL-E 2 在圖像質量、生成速度和多樣性等方面都有顯著提升。影響力不及 Chat GPT，個人消費者對他沒有那么喜歡，因為他生成的圖片的風格更傾向于更一本正經，比較傳統一些。

7 月 Stable diffusion

7 月 29 日一款叫 Stable diffusion 的 AI 生成器開始內測，人們發現用它生成的 AI 繪畫作品，其質量可以媲美 DALL · E 2，而且還沒那么多限制。

Stable diffusion 內測不到 1 個月，正式宣布開源，開源讓 AI 繪畫技術的普及，也是讓領域能有更多人開發貢獻，加快技術的應用發展。

二、AI 繪畫的底層原理

AI 繪畫的根源來源于人工神經網絡，科學家受人類神經元啟發，設計出的人工神經網絡長下面這樣。

神經網絡都是用數學公式表示的，沒有實體結構，圖里面的這些圈和連線是對神經網絡的一種可視化呈現，方便我們理解。

這圖中圓圈里都有一個計數器，當這個計數器接收到左邊連線傳來的數時，會進行一次簡單的計算，然后把計算結果（也是一個數）輸出，通過連線傳給右邊的圓圈，繼續重復類似的過程，直到數字從最右側的圓圈輸出。

人類的不同神經元之間連接的強度是不一樣的，有些粗一點，有些細一點。正是這些連接強度，讓我們產生了記憶和知識。

對于神經網絡來說，也有相似的規律：圓圈和圓圈之間的連線的 " 權重 " 不同。

神經網絡左側輸入一些列數字，神經網絡會按照圓圈里的計算規則及連線的權重，把數字從左到右計算和傳遞，最終，從最右側的圓圈輸出一系列數字。

那如何讓神經網絡畫一幅畫？

原理其實比較好理解，首先需要將圖片轉化成計算機能理解的數字語言，對于計算機而言圖片就是一串數字，每個像素顏色由 3 個 RGB 數值表示。

然后將一串數字輸入到沒有訓練過得神經網絡模型，也會生成一串數字，只不過解碼后可能就是一張亂碼圖片，所以需要大量數據和不斷調整算法參數的權重，最終訓練一個能畫貓的模型。例如當輸入圖片貓或文字貓，都能轉化成一串數字到模型中，輸出一個正確的貓圖片。

圖像生成模型是在不斷演化的，從最早的 VAE 到風靡一時的 GAN，到當今的王者 Diffusion 模型，那我們接下來介紹下不同模型的技術原理是什么。

三、主流的圖像生成模型解析

1. VAE — 打開生成模型的大門

VAE 是 AE 的升級版本，AE 由一個編碼器網絡和一個解碼器網絡組成。編碼器將輸入數據映射到潛在空間中的隱變量表示，解碼器則將隱變量映射回重構的數據空間。

如上圖，假設有一張圖像，通過編碼器提取了多種特征，比如特征 1 字體顏色、特征 2 字體粗細、特征 3 字體形狀。傳統的自編碼器對輸入圖像的潛在特征表示為具體的數值，比如顏色 =0.5，粗細 =0.8，形狀 =0.6。這些數值通過解碼器恢復出于原圖像相似的圖像。

那這樣的模型解決什么問題呢？

主要應用在降維 / 可視化和去噪的場景中。

我們生活存在大量的文本、圖像、語音數據，這些數據存在大量的冗余信息，理論上是可以用極少的向量來表示，所以可以用來圖像壓縮處理，這跟傳統的圖像壓縮技術完全不一樣。后面講到的 stable diffusion 模型就用到 AE 的潛空間來進行低維度的降噪和生成真實圖像。

在應用場景中也能發現，他僅適合用于重建圖像，不適用于生成新的圖像，所以有了 VAE 的誕生。

VAE 與 AE 的區別在，VAE 在編碼器輸出的分布曲線值，而非離散值，這樣的話輸入的圖像就跟壓縮向量就不是直接對應關系，這樣就可以生成新的圖像。

如上圖，我們將每個特征通過概率分布進行表示。比如顏色的取值范圍為 [ -1,1 ] ，粗細的取值范圍為 [ -3,3 ] ，形狀的取值范圍為 [ -5,5 ] 。我們可以在范圍內對每個特征進行取值，然后通過解碼器生成新圖像。例如給一張人臉可以生成不同表情的人臉。

VAE 不僅除了應用在壓縮、去噪和生成新的圖像也可以應用在圖像分割上，例如自動駕駛的道路檢測。

但 VAE 生成圖像存在局限性，生成圖像的質量不高，存在模糊和不真實。

2. GAN — 創建 " 以假亂真 " 的新數據

GAN 包含了兩個模型，生成模型（Generator ) 和判別模型（Discirminator）, 給生成模型隨機輸入噪聲，生成圖片；給判別模型輸入真實數據和生成的圖片，判別生成的圖片是真的還是假的。

剛開始生成器生成的圖片給判別器，判別器一看就是假的，打回去讓生成器重新生成，同樣判別模型也要提升自己的判別水平，經過無數次的對抗，直到生成模型生成的圖片騙過判別模型。

GAN 的應用場景有哪些？

GAN 的應用場景非常廣泛，在圖像生成，生成不存在的人物、物體、動物；圖像修復、圖像增強、風格化和藝術的圖像創造等。不一一列舉，想要詳細了解的可以看鏈接：https://zhuanlan.zhihu.com/p/75789936

曾經大紅大紫的 GAN 為什么會被 Diffusion 取代 ?

1.GAN 的訓練過程過程相對不穩定，生成器和判別器之間的平衡很容易打破，容易導致模型崩潰或崩塌問題 ;

2. 判別器不需要考慮生成樣品的種類，而只關注于確定每個樣品是否真實，這使得生成器只需要生成少數高質量的圖像就足以愚弄判別者 ;

3. 生成的圖像分辨率較低 ;

因此，以 GAN 模型難以創作出有創意的新圖像，也不能通過文字提示生成新圖像。

3. Diffusion — 圖像生成模型的皇冠

目前主流國內外靠譜的圖片生成技術主要基本都是基于 Diffusion Model ( 擴散模型 ) 來進行的實現，包括不限于 Stable Diffusion MidJourney 、 OpenAl DALL.E 、DiscoDiffusion、Google lmagen 等主流產品，但是實際技術在處理方面又各有區別，也導致會有不司的表現形態，核心一方面是底層模型訓練的圖語料不同，另外一個方面是一些算法方面的微調區別。

Diffusion 模型生成圖片的過程可以理解像是石雕的過程，從一塊石頭經過不斷的雕刻變成一件藝術作品，從一個噪點圖像不斷去噪生成一張真實圖像。

那擴散模型是怎么訓練的？

Diffusion 模型的訓練可以分為兩個部分：

前向擴散過程（Forward Diffusion Process） —— 向圖片中不斷添加噪聲，直到圖片變成完全的噪點圖片的過程。

反向擴散過程（Reverse Diffusion Process） —— 是將噪點圖片不斷的還原為原始圖片的過程。

官方給出的有 3 個訓練步驟，如下圖：

對于每張圖像先隨機生成一個長 T，T 表示從一張原始圖到高斯噪聲圖要多少次。

給原始圖片添加 T 次高斯噪聲，不同 T 時圖像添加的噪聲深度會有所不同。

將 T 和對應的圖片放入到 UNet 模型中訓練，這樣還原圖片就能預測 T 步驟中的噪聲。

反向擴散訓練過程步驟如下圖：

采樣一張高斯噪聲圖，假如 T 設置為 1000

將高斯噪聲和 T 輸入到 UNet 模型中預測噪聲，下一步的高斯噪聲為上一步高斯噪聲減去預測噪聲，以此步驟直到 T 為 0

T 為 0 時還原最終的圖像

Diffusion 模型的大數據訓練，數據訓練來自于 LAION-5B 包含 58.3 文本 - 圖像對，并且是篩選了評分高的圖片進行訓練。通過大數據模型訓練，讓模型具有生成圖像的能力。有了生成圖像能力還不夠，需要能聽得懂需求的能力，根據文字輸入就能生成圖像。

4. CLIP —打造圖文匹配

CLIP 是 OpenAI 在 2021 年開源的模型，一種基于對比文本 - 圖像對的預訓練方法或者模型，確保計算機在文字描述和圖像之間形成互通。

在 CLIP 推出一年后，幾個開源社區的工程基于 CLIP+Diffusion 就開發了 Disco Diffusion, 后面的 midjourney 和 stable diffusion 模型都有使用 CLIP 模型。

據統計，CLIP 模型搜集了網絡上超過 4 億的 " 文本 - 圖像 " 作為訓練數據，為文本生成圖像 / 視頻應用的落地奠定了基礎，實現了跨模態的創新。

以上圖像生成相關的模型都以解析完，那我們拿 Stable Diffusion 來進行梳理下整個圖像生成的流程是怎么樣和整體架構 , 其他圖像生成模型大致也差不多。

5. Stable Diffusion 模型結構

Stable Diffusion 主要有三部分組成，像素空間、潛在空間、條件機制。

像素空間 : 使用的 AE 模型將圖像壓縮到潛在空間訓練和將生成的低維向量轉化成真實圖像，這樣提升生成速度和降低算力要求。

潛在空間：Diffusion 模型在潛在空間進行加噪和去噪的訓練 , 去噪的過程需要導入條件，生成符合預期圖片。

條件機制：條件可以是文字、圖像、音頻、視頻，將條件轉化成向量值，作為 Diffusion 模型生成過程中的引導因子。

Stable Diffusion 圖像生成流如下：

通過以上擴散模型原理大致也明白 AI 生成的圖像帶有較大的隨機性，生成的每張圖像都不一樣，這種隨機性帶來的好處是無窮無盡的想象力，但同時也面臨著不可控，有點靠運氣，生成理想的圖像只能多嘗試。AI 繪畫想要擴大商業化落地，必須要解決精準可控性問題。

四、AI 繪畫的可控性有哪些

除了輸入文字、墊圖的方式還最流行的微調模型叫 Lora 和最近幾個月更新的 Controlnet 來控制圖片的生成，這幾個小模型可以理解為 Stable Diffusion 的一種插件。

1. Lora 模型

在不修改 SD 模型的前提下，教會利用少量數據訓練出只可意會不可言傳的風格，實現定制化需求，對算力的要求不高，模型適中在幾十 MB 大小。

Lora 必須搭配在 SD 模型上一起使用。

Lora 可以自己訓練也可以在著名的模型分享網站 https://civitai.com/ 上下載，有大量 Lora 模型，其中 SD 模型僅有 2000 個，剩下 4 萬個基本都是 LoRA 等小模型。

例如想要生成下面風格的汽車，我們找到這款不同角度的一些圖片作為 Lora 訓練。生成汽車的風格跟想要風格汽車很相似。

微調模型不止有 Lora 模型，還有 Textual Inversion、Hypernetwork、Dreambooth。只是 Lora 模型比較穩定，使用門檻相對低，所以目前比較流行。

2. Controlnet 模型

Controlnet 就是控制網的意思，其實就是在大模型外部通過疊加一個神經網絡來達到精準控制輸出的內容。很好的解決了單純的關鍵詞的控制方式無法滿足對細節控制的需要，比微調模型更進一步對圖像生成的控制。

想要對 Controlnet 有更詳細的了解可查看如下鏈接：

https://zhuanlan.zhihu.com/p/625707834

https://mp.weixin.qq.com/s/-r7qAkZbG4K2Clo-EvvRjA

https://mp.weixin.qq.com/s/ylVbqeeZc7XUHmrIrNmw9Q

五、AI 繪畫的技術研究趨勢

1. 更強的語義理解

使用 AI 繪畫生成高質量、精美的生成圖像需要在在 prompt 做很多努力，可見 prompt 對最終效果的影響。因此，如何降低用戶使用 prompt 的門檻，讓 AI 更能理解語義，值得研究的方向。

2. 更精準可控生成

目前可控生成是一個大火的領域，也有像 ControlNet 這樣的精品，可以通過輸入簡單的線稿圖、人體姿態圖、分割圖、深度圖等生成滿足條件的內容，但距離真正的精準控制仍有差距。可喜的是，可控生成發展得越來越快，精準控制并不是遙不可及，圖像生成 AI 也會隨之拓展其應用邊界，如一致性的視頻生成、精確的構圖設計都會改變許多領域的工作方式。

最近，來自馬克斯普朗克計算機科學研究所、MIT CSAIL 和谷歌的研究者們研究了一種控制 GAN 的新方法 DragGAN，能夠讓用戶以交互的方式「拖動」圖像的任何點精確到達目標點。

這種全新的控制方法非常靈活、強大且簡單，有手就行，只需在圖像上「拖動」想改變的位置點（操縱點），就能合成你想要的圖像。

3. 運算速度更快

影響 Diffusion 在生成圖片的速度除了顯卡的性能，很重要一個原因是，每生成一張圖片需要去噪 1000 次，速度相對還不是很快，為了能在解決這個問題，OpenAI 曾在 3 月發布了一篇重磅、且含金量十足的論文「一致性模型 Consistency Models」，在訓練速度上顛覆了擴散模型，能夠『一步生成』，比擴散模型更快一個數量級完成簡單任務，而且用到的計算量還要少 10-2000 倍。

以上就是從圖像生成技術里程事件到對圖像生成技術的科普以及未來的發展趨勢分析，我相信通過以上內容很容易就理解了 AI 繪畫背后的技術。下一篇對 AI 繪畫產品商業化落地進行分析。

作者：Rzhiyi，8 年產品經理經驗，做過 AI 皮膚檢測系統和 SaaS 類產品

本文由 @Rzhiyi 原創發布于人人都是產品經理。未經許可，禁止轉載。

題圖來自 Unsplash，基于 CC0 協議

提供信息存儲空間服務。

關鍵詞：