作者 | 360人工智慧研究院視覺引擎部:冷大煒,劉山源 責編 | 夏萌 出品 | CSDN(ID:CSDNnews) AI繪畫模型的世界觀偏見問題 22年基於擴散模型的影像生成技術的突破,迅速引發了一場全球性的影像AIGC研發熱潮和應用變革。 這其中非常值得一提的是由Stability公司開發並開源的Stable Diffusion模型,讓普通人也可以快速體會到AI技術對現實生產力的切實改變和推動。 圍繞著開源的Stable Diffusion模型,眾多開源開發者和AI繪畫愛好者已經形成了眾多龐大的AI繪畫社群,如Civitai,Stable Diffusion Online等等,並在這些社群中不斷推出各種衍生工具和模型,形成推動AI繪畫技術進步的重要力量。 中文AI繪畫模型的研發在整體上落後於英文AI繪畫模型。 AI繪畫模型屬於CV大模型的範疇,訓練一個AI繪畫模型需要海量的訓練資料並對訓練算力要較高的要求。 以Stable Diffusion 2.1為例,根據公開資料: SD2.1僅base模型的訓練就動用了256塊A100 GPU,訓練折算20萬卡時,共28.7億的圖文樣本訓練量。 而國內能夠同時滿足算力和資料要求的研發機構屈指可數。 這就導致大量的中文AI繪畫產品背後實際上都是以開源的英文SD模型及其微調模型為能力基座。 但是,以SD為代表的英文AI繪畫模型,包括且不限於SD1.4/1.5/2.1以及DALLE-2、Midjourney等都普遍帶有明顯的英文世界偏見。 如工作所指出的,當前英文模型生成的人物形象更偏向於白人和男性。 除人物形象外,如下圖1所示,物品、建築、車輛、服飾、標誌等等都存在普遍的英文世界偏見。 除此之外,之前遭到網友們調侃的“車水馬龍”、“紅燒獅子頭”等現象,本質上也是因為中文概念無法被英文AI繪畫模型準確生成。 圖1 英文AI繪畫模型的世界觀偏見示例,生成的車輛、建築、人物、旗幟、標誌等都具有明顯的英文世界偏向。 從左到右分別是:SDXL,Midjourney,國內友商B*,國內友商V* 中文AI繪畫模型的路線選擇 中文AI繪畫模型的研發從易到難當前有如下的幾種方式: 表1 當前中文AI繪畫模型的不同路線選擇及其優缺點比較 BDM中文原生AI繪畫模型 如表1所總結的,當前的中文AI繪畫模型路線中,中文從頭訓練能夠為中文使用者提供最為完整的原生中文能力,但代價是中文模型與英文SD模型不相容,因此在英文SD模型上衍生出的大量社群資源如微調模型、LoRA、Dreambooth、ControlNet等無法直接使用,理論上這些模型都需要針對中文模型重新進行適配訓練。 這就導致中文模型很難形成社群效應,並可能持續落後於英文社群的進步速度。 能否在原生中文能力之上,進一步打通中文原生模型與英文SD社群的相容性問題,就成為我們所要攻克的一個關鍵難題。 經過近半年的技術攻關,我們提出了一種新的擴散模型結構,稱為“Bridge Diffusion Model”(BDM),以解決上述的困境。 BDM不僅可以精確的生成中文語義圖片,解決了英文模型的世界偏見問題,同時又保持了和英文社群之間的互通性,無縫相容各種英文SD社群外掛,這也是命名中“Bridge”的由來。 BDM透過主幹-旁支的架構結合原始英文模型,同時使用純中文資料訓練,打造中文原生AI繪畫模型。 論文連結:https://arxiv.org/abs/2309.00952 1、模型框架 BDM採用類似ControlNet的主幹-旁支網路結構,如圖3(b)所示。 其中主幹網路採用Stable Diffusion 1.5的結構並使用其預訓練引數進行初始化,旁支網路則是由主幹網路派生出來的可學習副本構成。 與ControlNet相比,BDM在結構上的不同之處在於不存在旁支中的條件影像卷積層,這是因為在BDM中,中文prompt是透過旁支網路而非主幹網路進行處理。 我們選擇了Chinese CLIP text encoder做為中文的文字編碼器。 主幹網路的英文text encoder可以去掉只通過旁支網路支援中文prompt,或者也可以保留從而實現中英雙語的支援。 在我們的實現中我們選擇保留英文text encoder,因此BDM同時具備中英雙語繪畫的能力。 BDM網路結構的一個關鍵優點在於,主幹網路包含了完整的英文SD結構並在訓練中凍結,因此BDM的隱空間與英文SD模型保持一致,從而可以無縫相容各種適配於英文SD模型的社群外掛。 圖3 ControlNet和BDM的網路結構圖,左圖是ControlNet,右圖是BDM 2、訓練策略 BDM的整體訓練loss如圖4所示,擴散模型演算法學習一個網路εθ,以根據一組條件來預測新增到帶噪影像zt中的噪聲,這些條件包括時間步長t,用於主幹的文字輸入cent以及用於旁支的文字輸入cnlt。 然而僅有這樣的網路結構和訓練目標是不夠的,因為在訓練過程中同時將語義資訊注入到主幹和旁支並不可行,這是由於經過預訓練的主幹已經包含了強大的英文語義資訊,這會阻礙旁支的中文語義學習。 因此,BDM使用了一個關鍵的訓練策略——訓練階段主幹的文字輸入始終為空字串,即cent始終為“”。 這是因為在SD1.5訓練過程中,文字輸入有10%的機率置為空,因此可以認為空字串對應的隱空間是SD1.5生成影像整體的平均隱空間。 對於BDM,主幹提供英文模型的平均隱空間,同時旁支在這個空間中學習中文語義,尋找中文語義在英文空間中的偏移,這樣就真正將BDM中文原生模型和英文社群有機的結合在了一起,使得BDM可以無縫接入英文社群。 圖4 BDM訓練loss 3、推理策略 在訓練階段,主幹引數始終鎖死,主幹文字輸入也始終為空字串,但在推理階段可以有很多不同的選擇。 首先我們可以將主幹的正/負文字輸入都設定為空字串,這和訓練階段保持一致,只用中文正/負輸入來注入語義。 我們觀察到,對於訓練早期的BDM模型,推理階段在主幹使用通用的正/負文字輸入顯著改善了影像質量;然而對於訓練末期的BDM模型,中文旁支已經得到了充分訓練,英文正/負輸入對影像質量的影響就很小了。 當然,為了實現更好的生成效果,中文和英文的正/負輸入都可以根據使用者的需求進行自適應調整。 BDM也可以和英文社群的各種外掛無縫結合。 當結合LoRA時,將LoRA模型嵌入到BDM主幹結構中即可,和常規的英文模型嵌入LoRA方式相同,然後從旁支輸入所需中文提示即可。 如果LoRA包含觸發詞,那麼推理時候需要將觸發詞輸入到主幹中。 同樣,當結合ControlNet時,可以將ControlNet分支嵌入到BDM主幹上,這樣就形成了主幹—雙旁支結構。 當結合checkpoint或者Dreambooth時,把BDM主幹從SD1.5切換到對應的底模即可。 結合Textual Inversion時,可以直接把對應的embedding載入到主幹的文字輸入中即可。 以上操作可以根據需求任意組合。 4、效果展示 如圖5是BDM使用SD1.5和realisticVisionV51分別作為主幹來生成中文概念,可以看到中文獨有概念以及英文多義詞概念都生成的很合理。 圖5 中文概念生成 如圖6是BDM分別用不同風格的checkpoint作為主幹進行生成,由於不同模型生成特定風格所需條件不同,比如有的需要觸發詞,有的需要風格詞,推理時候中/英文正/負輸入會根據風格條件進行微調,以達到更好的效果;但可以肯定的是,微調的文字只涉及觸發詞或者風格詞,具體影像內容只會從中文文字來輸入。 圖6 不同風格checkpoint效果 如圖7是BDM分別結合不同LoRA進行生成 圖7 不同風格LoRA效果 如圖8是BDM結合ControlNet的生成 圖8 結合ControlNet效果 如圖9是BDM結合不同Dreambooth的生成,使用了6個名人的底模。 圖9 不同Dreambooth效果 如圖10是BDM結合Textual Inversion的生成,使用了年齡調節Textual Inversion。 圖10 不同Textual Inversion效果 未來工作 BDM1.0模型使用360內部收集的12億中文網際網路圖文資料訓練得到,如前面所展示的,BDM具有非常好的中文原生AI繪畫能力,且能無縫相容當前英文SD社群的各種模型和外掛。 基於BDM1.0能力開發的中文AI繪畫產品“360鴻圖”也將於近期面向公眾開放,體驗入口:https://ai.360.cn/。 BDM的結構非常靈活,除了可以與SD1.5結合外,基於相同的原理也可以將BDM與SDXL、DALLE-2、Imagen等等模型結構相結合,進一步提升中文原生AI繪畫模型的規模和能力。 此外,眾所周知的,當前AI繪畫模型對文字prompt的理解能力仍然存在非常顯著的缺陷,要想得到好的生成結果,prompt指令更多的是各種關鍵詞/魔法詞的堆砌,與人類交流中使用的自然語言仍相去甚遠。 提升AI繪畫模型對prompt指令的遵循能力,也是我們目前在多模態LLM(SEEChat: https://github.com/360CVGroup/SEEChat)與AIGC結合方面著力的重點。 作者簡介 冷大煒:360人工智慧研究院視覺方向負責人,目前帶領研究院視覺團隊在多模態大模型,視覺AIGC,跨模態圖文學習,開放世界目標檢測,開放詞表影片分析,AIoT等方向進行前沿探索和工業落地工作。 劉山源:360人工智慧研究院視覺引擎部演算法專家,目前在AIGC的生成、編輯、多概念等方向進行前沿探索 參考文獻 Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Bjorn Ommer. High-resolution image synthesis with latent diffusion models. In 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Jun 2022 https://civitai.com https://stablediffusionweb.com https://huggingface.co/stabilityai/stable-diffusion-2-1 Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. Hierarchical text-conditional image generation with CLIP latents. CoRR, abs/2204.06125, 2022. https://www.midjourney.com Alexandra Sasha Luccioni, Christopher Akiki, Margaret Mitchell, and Yacine Jernite. Stable bias: Analyzing societal representations in diffusion models. CoRR, abs/2303.11408, 2023. https://news.mydrivers.com/1/898/898682.htm Jiaxing Zhang, etc. Fengshenbang 1.0: Being the foundation of chinese cognitive intelligence. CoRR, abs/2209.02970, 2022 https://github.com/SkyWorkAIGC/SkyPaint-AI-Diffusion https://www.zhihu.com/question/619921556/answer/3190626893 https://modelscope.cn/models/damo/multi-modal_chinese_stable_diffusion_v1.0 https://xihe.mindspore.cn/modelzoo/wukong Lvmin Zhang and Maneesh Agrawala. Adding conditional control to text-to-image diffusion models. CoRR, abs/2302.05543,2023. An Yang, Junshu Pan, Junyang Lin, Rui Men, Yichang Zhang, Jingren Zhou, and Chang Zhou. Chinese CLIP: Contrastive vision-language pretraining in chinese. arXiv preprint arXiv:2211.01335, 2022. Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. Neural Information Processing Systems,Neural Information Processing Systems, Jan 2020. EdwardJ. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. arXiv: Computation and Language,arXiv: Computation and Language, Jun 2021. Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, and Kfir Aberman. Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation. CoRR, abs/2208.12242, 2022. Rinon Gal, Yuval Alaluf, Yuval Atzmon, Or Patashnik, Amit Haim Bermano, Gal Chechik, and Daniel Cohen-Or. An image is worth one word: Personalizing text-to-image generation using textual inversion. In The Eleventh International Conference on Learning Representations, ICLR 2023, Kigali, Rwanda, May 1-5, 2023. OpenReview.net, 2023. https://civitai.com/models/4201/realistic-vision-v51 https://civitai.com/models/4384/dreamshaper https://civitai.com/models/35960/flat-2d-animerge https://civitai.com/models/65203/disney-pixar-cartoon-type-a https://civitai.com/models/80/midjourney-papercut https://civitai.com/models/73756/3d-rendering-style https://civitai.com/models/25995/blindbox https://civitai.com/models/16014/anime-lineart-manga-like-style https://huggingface.co/lllyasviel/control_v11f1p_sd15_depth https://civitai.com/models/59622/famous-people https://civitai.com/models/65214/age-slider ▶按玩家安裝量收費,知名遊戲引擎 Unity 新收費政策惹爭議! ▶3會並舉,100+中外專家,全球雲原生頂會重磅來襲! ▶iPhone 15系列來了:全系“上島”,換上USB-C介面,最高售價13999元! 《解決AI繪畫模型的世界觀偏見,360人工智慧研究院釋出中文原生AI繪畫模型BDM》完,請繼續朗讀精采文章。 喜歡 科學報 cn-n.net,請記得按讚、收藏及分享。
音調
速度
音量
語言
解決AI繪畫模型的世界觀偏見,360人工智慧研究院釋出中文原生AI繪畫模型BDM
精確朗讀模式適合大多數瀏覽器,也相容於桌上型與行動裝置。
不過,使用Chorme瀏覽器仍存在一些問題,不建議使用Chorme瀏覽器進行精確朗讀。