近年來,人工智能在文本到圖像生成領域取得了顯著進展。將書面描述轉化為視覺表現具有廣泛的應用,從創作內容到幫助盲人和講故事。然而,研究人員面臨著兩個重大障礙,即缺乏高質量數據和從互聯網抓取的數據集涉及的版權問題。
為了克服這些問題,一支研究團隊提出了一個創新的方法,他們創建了一個創意共享許可(CC)的圖像數據集,用于訓練開放擴散模型,這些模型可以勝過Stable Diffusion2(SD2)。
這個方法有兩個主要挑戰:首先,高分辨率的CC照片雖然是開放許可的,但它們經常缺乏文本描述,這對于文本到圖像生成模型的訓練至關重要。
其次,與像LAION這樣的大型專有數據集相比,CC照片數量較少,盡管它們是重要的資源。這引發了是否有足夠的數據可以有效訓練高質量模型的問題。
為了解決這些問題,研究團隊采用了遷移學習技術,使用預訓練模型創建了出色的合成標題,并將其與精心選擇的CC照片相匹配。這種方法利用了模型從照片或其他輸入生成文本的能力,通過創建一個照片和虛構標題的數據集,用于訓練生成模型,將文字轉化為視覺內容。
此外,他們還制定了一種既節約計算資源又高效利用數據的訓練方法,以解決第二個挑戰。這意味著有足夠的CC照片可供訓練高質量模型。最終,研究團隊培訓了多個文本到圖像生成模型,這些模型被稱為CommonCanvas系列,并在生成質量上媲美SD2。
通過該方法,他們克服了數據集大小的限制和使用人工標題的問題,實現了高質量的圖像生成。總之,他們的研究為創意共享圖像的利用提供了新方法,為生成模型的進一步發展提供了有力支持。同時,他們還將訓練好的CommonCanvas模型、CC照片、人工標題和CommonCatalog數據集免費提供在GitHub上,以鼓勵更多的合作和研究。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。