IT之家的小伙伴們可能都有設想過,如果用 AI 生成的結果來訓練 AI,進行“套娃式訓練”,能得到什么樣的結果?目前還真有研究團隊對此進行了觀察記錄,詳細論文及得出的結果發表在了 arXiv 上。
一句話總結 —— “在訓練中使用模型生成的內容,將導致后續生成的模型出現不可逆轉的缺陷”,說人話就是研究人員發現“用 AI 生成的結果訓練 AI,只會讓模型變得越來越差”。
據悉,研究人員專門研究了 AI 生成模型的概率分布,主要圍繞“文本到文本”和“圖像到圖像”展開,最終得出結論:“由于每個模型生成的結果都具有一定的特點,因此用 AI 生成的模型訓練 AI,隨著時間的推移,后者會忘記真正的底層數據分布。”
論文的主要作者之一 Ilia Shumailov 同時表示“隨著時間的推移,生成數據中的錯誤(IT之家注:例如虛假舉例)會迫使 AI 進一步錯誤地感知現實,我們驚訝地觀察到模型崩潰發生的速度相當快,模型可以迅速忘記他們最初從中學習的大部分原始數據。”
但小伙伴們可能會有所疑問,如果將 AI 生成的結果經過人工潤色后再投入模型訓練,是否可以避免模型“退化”?
答案是否定的,研究人員發現“模型退化過程是不可避免的”,因此即使對于“經過潤色后理想化的 AI 輸出內容”,模型在長期學習后,也會出現一定的退化現象。
對于任何大模型而言,由于其學習數據過多,它們都將不可避免地接觸到其他 AI 生成的數據,因此研究人員表示“應當引入 AI 鑒定來挑出可能存在錯誤的學習數據”以提升模型的學習能力與準確性。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。