本文來自于微信公眾號 AIGC開放社區(ID:AIGCOPEN),作者:AIGC開放社區。
Midjourney、Stable Difusion在商業變現和場景化落地方面獲得了巨大成功,這讓OpenAI看到了全新的商機,也是推出DALL·E3的重要原因之一。
上周,OpenAI宣布在ChatGPT Plus和企業版用戶中,全面開放文生圖模型DALL·E3,同時罕見地放出了研究論文。
DALL·E3與前兩代DALL·E、DALL·E2相比,在語義理解、圖片質量、圖片修改、圖片解讀、長文本輸入等方面實現了質的飛躍,尤其是與ChatGPT的相結合,成為OpenAI全新的王牌應用。
下面「AIGC開放社區」將根據DALL·E3的論文為大家解讀其主要技術原理,各個模塊的功能。
研究人員發現,文本生成圖像模型在遵循詳細的圖片描述時經常存在各種難題,會忽略提示中的詞語或混淆其含義,根本原因就是訓練數據集中圖像描述的質量較差。
為了驗證這一假設,研究人員首先訓練了一個生成描述性圖像字幕的模型。該模型經過精心訓練,可以為圖像生成詳細和準確的描述。
在使用這個模型為訓練數據集重新生成描述后,研究人員比較了在原始描述和新生成描述上訓練的多個文本生成圖像模型。
結果表明,在新描述上訓練的模型在遵循提示方面,明顯優于原始描述模型。隨后在大規模數據集上使用這種方法訓練了——DALL-E3。
從DALL-E3的技術架構來看,主要分為圖像描述生成和圖像生成兩大模塊。
圖像描述生成模塊
該模塊使用了CLIP(Contrastive Language-Image Pretraining)圖像編碼器和GPT語言模型(GPT-4),可為每張圖像生成細致的文字描述。
研究人員通過構建小規模主體描述數據集、大規模詳細描述數據集以及設置生成規則等方法,使模塊輸出的圖像描述信息量大幅提升,為后續生成圖像提供強力支持。主要各個模塊功能如下:
1)CLIP圖像編碼器
CLIP是一個訓練好的圖像文本匹配模型,可以將一張圖像編碼成一個固定長度的向量,包含了圖像的語義信息。DALL-E3利用CLIP的圖像編碼器,將訓練圖像編碼為圖像特征向量,作為條件文本生成的一部分輸入。
2)GPT語言模型
DALL-E3基于GPT架構建立語言模型,通過最大化隨機抽取文本序列的聯合概率,學習生成連貫的文字描述。
3)條件文本生成
將上述兩者結合,圖像特征向量與之前的單詞序列一同輸入到GPT語言模型中,就可以實現對圖像的條件文本生成。通過訓練,該模塊學會為每張圖像生成細致Descriptive的描述。
4)優化訓練
盡管DALL-E3的基礎架構已經完成了,但直接訓練的結果還不夠理想,無法生成細節豐富的描述。所以,研究人員進行了以下技術優化:
構建小規模數據集,專門收集主體物詳細描述,微調語言模型,傾向于描述圖像主體。
構建大規模詳細描述數據集,描述主體、背景、顏色、文本等各個方面,通過微調進一步提升描述質量。
設置生成描述的長度、樣式等規則,防止語言模型偏離人類風格。
圖像生成模塊
該模塊先用VAE將高分辨率圖像壓縮為低維向量,降低學習難度。然后,使用T5Transformer將文本編碼為向量,并通過GroupNorm層將其注入diffusion模型,指導圖像生成方向。
研究人員認為,額外加入的Diffusion模型顯著增強了圖片細節生成的效果。具體流程如下:
1)圖像壓縮
將高分辨率圖像先通過VAE模型壓縮為低維向量,以降低圖像生成的難度。DALL-E3采用8倍下采樣,256px圖像壓縮為32x32大小的latent向量。
2)文本編碼器
使用T5Transformer等網絡將文本提示編碼為向量,以便注入到圖像生成模型中。
3)Latent Diffusion
這是圖像生成的核心技術,將圖像生成問題分解為多次對噪聲向量的小規模擾動,逐步鄰近目標圖像。關鍵是設計恰當的前向過程和反向過程。
4)文本注入
將編碼好的文本向量,通過GroupNorm層注入到Latent Diffusion模型中,指導每輪迭代的圖像生成方向。
5)優化訓練
研究人員發現,在壓縮image latent空間上再訓練一個Diffusion模型,可以進一步提升細節生成質量。這也是DALL-E3比前兩代生成的圖片質量更好的原因之一。
CLIP評估數據
研究人員首先利用CLIP模型計算DALL-E3生成圖片與原描述文本的相似度,即CLIP得分。他們隨機抽取了MSCOCO數據集中4096條圖像描述作為提示文本,分別讓DALL-E2、DALL-E3和Stable Diffusion XL生成對應圖片,然后計算三者的平均CLIP得分。
結果顯示,DALL-E3的CLIP得分達到32.0,優于DALL-E2的31.4和Stable Diffusion XL的30.5。
這表明DALL-E3生成的圖片與原始描述文本的契合度更高,文本指導圖像生成的效果更好。
Drawbench評估數據
在Drawbench數據集上比較了各模型的表現。該數據集包含許多脆弱的文本提示,考驗模型對提示的理解力。
研究人員使用GPT-V這個配備視覺能力的語言模型來自動判斷生成圖片的正確性。
在短文本提示的子測試中,DALL-E3正確生成圖像的比例達到70.4%,顯著超過DALL-E2的49%和Stable Diffusion XL的46.9%。
在長文本提示上,DALL-E3的正確率也達到81%,繼續領先其他模型。
T2I-CompBench評估
通過T2I-CompBench中的相關子測試,考察模型對組合類提示的處理能力。在顏色綁定、形狀綁定和質感綁定三項測試中,DALL-E3的正確綁定比例均高居各模型之首,充分展現了其理解組合提示的強大能力。
人工評估
研究人員還邀請了人工在遵循提示、風格連貫性等方面對生成樣本進行判斷。在170條提示的評估中,DALL-E3明顯優于Midjourney和Stable Diffusion XL。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。