隨著Midjourney、Stable Difusion等產品的出現,文生圖像領域獲得了巨大突破。但是想在圖像中生成/嵌入精準的文本卻比較困難。
經常會出現模糊、莫名其妙或錯誤的文本,尤其是對中文支持非常差,例如,生成一張印有“2024龍年吉祥”的春聯圖像,就連著名的文生圖模型都很難精準生成。
為了解決這些難題阿里巴巴集團的研究人員開源了,多語言視覺文字生成與編輯模型——AnyText。
根據「AIGC開放社區」的實際使用體驗,AnyText對生成文字的把控可媲美專業PS,用戶可自定義規劃文字出現的位置,圖片的強度、力度、種子數等,目前在Github超2,400顆星非常受歡迎。
由AnyText生成,完美理解中文提示詞,同時可自定義文字出現的位置
值得一提的是,AnyText能以插件形式與其他開源擴散模型無縫集成,可全面強化其圖像嵌入精準文本的能力。
AnyText支持中文、日文、韓文、英語等多種語言,可幫助電商、廣告平面設計、電影制作、動畫設計師、插畫師、網頁設計、UI設計師、數字營銷等領域的人員,提供高精準、自定義的文生圖像服務。
AnyText技術架構
目前,開源的擴散模型在生成的圖像中嵌入精準文本表現不佳,主要有3個原因:
1)缺乏包含全面文本內容注釋的大規模圖像和文本配對數據集。現有的大規模圖像擴散模型的訓練數據集,如LAION-5B,缺乏手動注釋或文本內容的OCR結果。
2)許多開源擴散模型使用的文本編碼器,如CLIP文本編碼器,采用基于詞匯的分詞器,無法直接訪問字符級別的信息,導致對個別字符的敏感性降低。
3)大多數擴散模型的損失函數旨在提高整體圖像生成質量,缺乏對文本區域的專門監督和優化。
針對上述難題,阿里的研究人員開發了AnyText模型和AnyWord-3M數據集。AnyText采用了文本控制的擴散流程,包括兩個重要模塊:輔助潛變量和文本嵌入。

輔助潛變量模塊用于生成或編輯文本的潛在特征,作用是接受文本字形、位置和遮罩圖像等輸入,生成用于文本生成或編輯的潛在特征。
這些潛在特征在生成或編輯文本時起到輔助作用,幫助確保文本的準確性和一致性。
輔助潛變量使得AnyText能夠在圖像中,生成或編輯曲線或不規則區域的文本。這也就是說,即便想生成彎曲、不規則的字體也沒問題!
文本嵌入模塊利用OCR模型將筆畫數據編碼為嵌入向量,并與標記器生成的圖像標題嵌入向量進行融合,從而生成與背景無縫融合的文本。
為了提高書寫準確性,研究團隊采用了文本控制的擴散損失和文本感知損失進行訓練。
提升圖像嵌入文本精準度
為了進一步提高生成文本的準確性,AnyText采用了文本控制擴散損失和文本感知損失進行訓練。
文本控制擴散損失,用于控制生成的文本在指定位置和樣式上的準確性。它通過比較生成文本與目標文本之間的差異,促使模型生成更準確、一致的文本。
文本感知損失,作用是進一步增強生成文本的準確性。它通過比較生成文本的特征表示與真實圖像中相應區域的特征表示之間的差異,來衡量生成文本在視覺上的準確性。
AnyWord-3M數據集
這個數據集是提升AnyText文本能力的重要部分,一共包含了300萬個圖像-文本對,并提供了多種語言的OCR(光學字符識別)注釋。
AnyWord-3M中出現的文本行超過900萬行,字符和詞匯數總量超過2億。文本涵蓋中文、英文、日文、韓文等語言。這是目前公開的規模最大,也是第一個專門用于文本生成任務的多語種數據集。
主要包含的數據集:悟空數據集的中文部分,這是哩哩哩實驗室構建的數億級中文跨模態數據集。AnyWord-3M從中篩選出約154萬張圖像。
LAION數據集的英文部分,由斯坦福大學等構建的大規模英文圖像文字匹配數據集, AnyWord-3M選擇了其中約140萬張圖像。
多個OCR識別數據集,包括文字定位和識別領域的標準數據集ArT、COCO-Text、RCTW等,提供了約10萬張帶標注的文本圖像。
在獲取這些源數據之后,AnyText研究人員還設計了嚴格的過濾規則,對圖像和文本行進行過濾,確保訓練數據的質量。
文本行過濾的規則非常細致,例如,文本行高最小30像素、文本識別置信度超過0.7等。
所以,AnyWord-3M吸取了多個數據集的精華中的精華,也是AnyText能力非常強悍的重要原因之一。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。