朗讀解決AI繪畫模型的世界觀偏見，360人工智慧研究院釋出中文原生AI繪畫模型BDM第解決AI繪畫模型的世界觀偏見，360人工智慧研究院釋出中文原生AI繪畫模型BDM

作者 | 360人工智慧研究院視覺引擎部：冷大煒，劉山源
責編 | 夏萌
出品 | CSDN（ID：CSDNnews）
AI繪畫模型的世界觀偏見問題
22年基於擴散模型的影像生成技術的突破，迅速引發了一場全球性的影像AIGC研發熱潮和應用變革。 這其中非常值得一提的是由Stability公司開發並開源的Stable Diffusion模型，讓普通人也可以快速體會到AI技術對現實生產力的切實改變和推動。 圍繞著開源的Stable Diffusion模型，眾多開源開發者和AI繪畫愛好者已經形成了眾多龐大的AI繪畫社群，如Civitai，Stable Diffusion Online等等，並在這些社群中不斷推出各種衍生工具和模型，形成推動AI繪畫技術進步的重要力量。 
中文AI繪畫模型的研發在整體上落後於英文AI繪畫模型。 AI繪畫模型屬於CV大模型的範疇，訓練一個AI繪畫模型需要海量的訓練資料並對訓練算力要較高的要求。 以Stable Diffusion 2.1為例，根據公開資料: SD2.1僅base模型的訓練就動用了256塊A100 GPU，訓練折算20萬卡時，共28.7億的圖文樣本訓練量。 而國內能夠同時滿足算力和資料要求的研發機構屈指可數。 這就導致大量的中文AI繪畫產品背後實際上都是以開源的英文SD模型及其微調模型為能力基座。 
但是，以SD為代表的英文AI繪畫模型，包括且不限於SD1.4/1.5/2.1以及DALLE-2、Midjourney等都普遍帶有明顯的英文世界偏見。 如工作所指出的，當前英文模型生成的人物形象更偏向於白人和男性。 除人物形象外，如下圖1所示，物品、建築、車輛、服飾、標誌等等都存在普遍的英文世界偏見。 除此之外，之前遭到網友們調侃的“車水馬龍”、“紅燒獅子頭”等現象，本質上也是因為中文概念無法被英文AI繪畫模型準確生成。 
圖1 英文AI繪畫模型的世界觀偏見示例，生成的車輛、建築、人物、旗幟、標誌等都具有明顯的英文世界偏向。 從左到右分別是：SDXL，Midjourney，國內友商B*，國內友商V*
中文AI繪畫模型的路線選擇
中文AI繪畫模型的研發從易到難當前有如下的幾種方式：
表1 當前中文AI繪畫模型的不同路線選擇及其優缺點比較
BDM中文原生AI繪畫模型
如表1所總結的，當前的中文AI繪畫模型路線中，中文從頭訓練能夠為中文使用者提供最為完整的原生中文能力，但代價是中文模型與英文SD模型不相容，因此在英文SD模型上衍生出的大量社群資源如微調模型、LoRA、Dreambooth、ControlNet等無法直接使用，理論上這些模型都需要針對中文模型重新進行適配訓練。 這就導致中文模型很難形成社群效應，並可能持續落後於英文社群的進步速度。 
能否在原生中文能力之上，進一步打通中文原生模型與英文SD社群的相容性問題，就成為我們所要攻克的一個關鍵難題。 經過近半年的技術攻關，我們提出了一種新的擴散模型結構，稱為“Bridge Diffusion Model”（BDM），以解決上述的困境。 BDM不僅可以精確的生成中文語義圖片，解決了英文模型的世界偏見問題，同時又保持了和英文社群之間的互通性，無縫相容各種英文SD社群外掛，這也是命名中“Bridge”的由來。 BDM透過主幹-旁支的架構結合原始英文模型，同時使用純中文資料訓練，打造中文原生AI繪畫模型。 
論文連結：https://arxiv.org/abs/2309.00952
1、模型框架
BDM採用類似ControlNet的主幹-旁支網路結構，如圖3(b)所示。 其中主幹網路採用Stable Diffusion 1.5的結構並使用其預訓練引數進行初始化，旁支網路則是由主幹網路派生出來的可學習副本構成。 與ControlNet相比，BDM在結構上的不同之處在於不存在旁支中的條件影像卷積層，這是因為在BDM中，中文prompt是透過旁支網路而非主幹網路進行處理。 我們選擇了Chinese CLIP text encoder做為中文的文字編碼器。 主幹網路的英文text encoder可以去掉只通過旁支網路支援中文prompt，或者也可以保留從而實現中英雙語的支援。 在我們的實現中我們選擇保留英文text encoder，因此BDM同時具備中英雙語繪畫的能力。 BDM網路結構的一個關鍵優點在於，主幹網路包含了完整的英文SD結構並在訓練中凍結，因此BDM的隱空間與英文SD模型保持一致，從而可以無縫相容各種適配於英文SD模型的社群外掛。 
圖3 ControlNet和BDM的網路結構圖，左圖是ControlNet，右圖是BDM
2、訓練策略
BDM的整體訓練loss如圖4所示，擴散模型演算法學習一個網路εθ，以根據一組條件來預測新增到帶噪影像zt中的噪聲，這些條件包括時間步長t，用於主幹的文字輸入cent以及用於旁支的文字輸入cnlt。 
然而僅有這樣的網路結構和訓練目標是不夠的，因為在訓練過程中同時將語義資訊注入到主幹和旁支並不可行，這是由於經過預訓練的主幹已經包含了強大的英文語義資訊，這會阻礙旁支的中文語義學習。 因此，BDM使用了一個關鍵的訓練策略——訓練階段主幹的文字輸入始終為空字串，即cent始終為“”。 這是因為在SD1.5訓練過程中，文字輸入有10%的機率置為空，因此可以認為空字串對應的隱空間是SD1.5生成影像整體的平均隱空間。 對於BDM，主幹提供英文模型的平均隱空間，同時旁支在這個空間中學習中文語義，尋找中文語義在英文空間中的偏移，這樣就真正將BDM中文原生模型和英文社群有機的結合在了一起，使得BDM可以無縫接入英文社群。 
圖4 BDM訓練loss
3、推理策略
在訓練階段，主幹引數始終鎖死，主幹文字輸入也始終為空字串，但在推理階段可以有很多不同的選擇。 
首先我們可以將主幹的正/負文字輸入都設定為空字串，這和訓練階段保持一致，只用中文正/負輸入來注入語義。 我們觀察到，對於訓練早期的BDM模型，推理階段在主幹使用通用的正/負文字輸入顯著改善了影像質量；然而對於訓練末期的BDM模型，中文旁支已經得到了充分訓練，英文正/負輸入對影像質量的影響就很小了。 當然，為了實現更好的生成效果，中文和英文的正/負輸入都可以根據使用者的需求進行自適應調整。 
BDM也可以和英文社群的各種外掛無縫結合。 當結合LoRA時，將LoRA模型嵌入到BDM主幹結構中即可，和常規的英文模型嵌入LoRA方式相同，然後從旁支輸入所需中文提示即可。 如果LoRA包含觸發詞，那麼推理時候需要將觸發詞輸入到主幹中。 同樣，當結合ControlNet時，可以將ControlNet分支嵌入到BDM主幹上，這樣就形成了主幹—雙旁支結構。 當結合checkpoint或者Dreambooth時，把BDM主幹從SD1.5切換到對應的底模即可。 結合Textual Inversion時，可以直接把對應的embedding載入到主幹的文字輸入中即可。 以上操作可以根據需求任意組合。 
4、效果展示
如圖5是BDM使用SD1.5和realisticVisionV51分別作為主幹來生成中文概念，可以看到中文獨有概念以及英文多義詞概念都生成的很合理。 
圖5 中文概念生成
如圖6是BDM分別用不同風格的checkpoint作為主幹進行生成，由於不同模型生成特定風格所需條件不同，比如有的需要觸發詞，有的需要風格詞，推理時候中/英文正/負輸入會根據風格條件進行微調，以達到更好的效果；但可以肯定的是，微調的文字只涉及觸發詞或者風格詞，具體影像內容只會從中文文字來輸入。 
圖6 不同風格checkpoint效果
如圖7是BDM分別結合不同LoRA進行生成
圖7 不同風格LoRA效果
如圖8是BDM結合ControlNet的生成
圖8 結合ControlNet效果
如圖9是BDM結合不同Dreambooth的生成，使用了6個名人的底模。 
圖9 不同Dreambooth效果
如圖10是BDM結合Textual Inversion的生成，使用了年齡調節Textual Inversion。 
圖10 不同Textual Inversion效果
未來工作
BDM1.0模型使用360內部收集的12億中文網際網路圖文資料訓練得到，如前面所展示的，BDM具有非常好的中文原生AI繪畫能力，且能無縫相容當前英文SD社群的各種模型和外掛。 基於BDM1.0能力開發的中文AI繪畫產品“360鴻圖”也將於近期面向公眾開放，體驗入口：https://ai.360.cn/。 
BDM的結構非常靈活，除了可以與SD1.5結合外，基於相同的原理也可以將BDM與SDXL、DALLE-2、Imagen等等模型結構相結合，進一步提升中文原生AI繪畫模型的規模和能力。 
此外，眾所周知的，當前AI繪畫模型對文字prompt的理解能力仍然存在非常顯著的缺陷，要想得到好的生成結果，prompt指令更多的是各種關鍵詞/魔法詞的堆砌，與人類交流中使用的自然語言仍相去甚遠。 提升AI繪畫模型對prompt指令的遵循能力，也是我們目前在多模態LLM（SEEChat: https://github.com/360CVGroup/SEEChat）與AIGC結合方面著力的重點。 
作者簡介
冷大煒：360人工智慧研究院視覺方向負責人，目前帶領研究院視覺團隊在多模態大模型，視覺AIGC，跨模態圖文學習，開放世界目標檢測，開放詞表影片分析，AIoT等方向進行前沿探索和工業落地工作。 
劉山源：360人工智慧研究院視覺引擎部演算法專家，目前在AIGC的生成、編輯、多概念等方向進行前沿探索
參考文獻
Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Bjorn Ommer. High-resolution image synthesis with latent diffusion models. In 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Jun 2022
https://civitai.com
https://stablediffusionweb.com
https://huggingface.co/stabilityai/stable-diffusion-2-1
Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. Hierarchical text-conditional image generation with CLIP latents. CoRR, abs/2204.06125, 2022.
https://www.midjourney.com
Alexandra Sasha Luccioni, Christopher Akiki, Margaret Mitchell, and Yacine Jernite. Stable bias: Analyzing societal representations in diffusion models. CoRR, abs/2303.11408, 2023.
https://news.mydrivers.com/1/898/898682.htm
Jiaxing Zhang, etc. Fengshenbang 1.0: Being the foundation of chinese cognitive intelligence. CoRR, abs/2209.02970, 2022
https://github.com/SkyWorkAIGC/SkyPaint-AI-Diffusion
https://www.zhihu.com/question/619921556/answer/3190626893
https://modelscope.cn/models/damo/multi-modal_chinese_stable_diffusion_v1.0
https://xihe.mindspore.cn/modelzoo/wukong
Lvmin Zhang and Maneesh Agrawala. Adding conditional control to text-to-image diffusion models. CoRR, abs/2302.05543,2023.
An Yang, Junshu Pan, Junyang Lin, Rui Men, Yichang Zhang, Jingren Zhou, and Chang Zhou. Chinese CLIP: Contrastive vision-language pretraining in chinese. arXiv preprint arXiv:2211.01335, 2022.
Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. Neural Information Processing Systems,Neural Information Processing Systems, Jan 2020.
EdwardJ. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. arXiv: Computation and Language,arXiv: Computation and Language, Jun 2021.
Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, and Kfir Aberman. Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation. CoRR, abs/2208.12242, 2022.
Rinon Gal, Yuval Alaluf, Yuval Atzmon, Or Patashnik, Amit Haim Bermano, Gal Chechik, and Daniel Cohen-Or. An image is worth one word: Personalizing text-to-image generation using textual inversion. In The Eleventh International Conference on Learning Representations, ICLR 2023, Kigali, Rwanda, May 1-5, 2023. OpenReview.net, 2023.
https://civitai.com/models/4201/realistic-vision-v51
https://civitai.com/models/4384/dreamshaper
https://civitai.com/models/35960/flat-2d-animerge
https://civitai.com/models/65203/disney-pixar-cartoon-type-a
https://civitai.com/models/80/midjourney-papercut
https://civitai.com/models/73756/3d-rendering-style
https://civitai.com/models/25995/blindbox
https://civitai.com/models/16014/anime-lineart-manga-like-style
https://huggingface.co/lllyasviel/control_v11f1p_sd15_depth
https://civitai.com/models/59622/famous-people
https://civitai.com/models/65214/age-slider
▶按玩家安裝量收費，知名遊戲引擎 Unity 新收費政策惹爭議！
▶3會並舉，100+中外專家，全球雲原生頂會重磅來襲！
▶iPhone 15系列來了：全系“上島”，換上USB-C介面，最高售價13999元！

《解決AI繪畫模型的世界觀偏見，360人工智慧研究院釋出中文原生AI繪畫模型BDM》完，請繼續朗讀精采文章。
喜歡 科學報 cn-n.net，請記得按讚、收藏及分享。