本文來自于微信公眾號 AIGC開放社區(ID:AIGCOPEN),作者:AIGC開放社區。
《麻省理工技術評論》曾在官網發表文章表示,隨著ChatGPT等大模型的持續火熱,對訓練數據的需求越來越大。大模型就像是一個“網絡黑洞”不斷地吸收,最終會導致沒有足夠的數據進行訓練。
而知名AI研究機構Epochai直接針對數據訓練問題發表了一篇論文,并指出,到2026年,大模型將消耗盡高質量數據;到2030年—2050年,將消耗盡所有低質量數據;
到2030年—2060年,將消耗盡所有圖像訓練數據。(這里的數據指的是,沒有被任何標記、污染過的原生數據)
事實上,訓練數據的問題已經顯現。OpenAI表示,缺乏高質量訓練數據將成為開發GPT-5的重要難題之一。這就像人類上學一樣,當你的知識水平達到博士級別時,再給你看初中的知識對學習毫無幫助。
所以,OpenAI為了增強GPT-5的學習、推理和AGI通用能力,已建立了一個“數據聯盟”,希望大面積搜集私密、超長文本、視頻、音頻等數據,讓模型深度模擬、學習人類的思維和工作方式。
目前,冰島、Free Law Project等組織已加入該聯盟,為OpenAI提供各種數據,幫助其加速模型研發。
此外,隨著ChatGPT、Midjourney、Gen-2等模型生成的AI內容進入公共網絡,這對人類構建的公共數據池將產生嚴重污染,會出現同質化、邏輯單一等特征,加速高質量數據消耗的進程。
高質量訓練數據,對大模型研發至關重要
從技術原理來看,可以把大語言模型看成“語言預測機器”, 通過學習大量文本數據,建立起單詞之間的關聯模式,然后利用這些模式來預測文本的下一個單詞或句子。
Transformer便是最著名、應用最廣泛的架構之一,ChatGPT等借鑒了該技術。
簡單來說,大語言模型就是“照葫蘆畫瓢”,人類怎么說它就怎么說。所以,當你使用ChatGPT等模型生成文本時,會感覺這些文本內容的敘述模式在哪里見過。
因此,訓練數據的質量直接決定了大模型學習的結構是否準確。如果數據中包含了大量語法錯誤、措辭不當、斷句不準、虛假內容等,那么模型預測出來的內容自然也包含這些問題。
例如,訓練了一個翻譯模型,但使用的數據都是胡編亂造的低劣內容,AI翻譯出來的內容自然會非常差。
這也是為什么我們經常會看到很多參數很小,性能、輸出能力卻比高參數還強的模型,主要原因之一便是使用了高質量訓練數據。
大模型時代,數據為王
正因數據的重要性,高質量的訓練數據成為OpenAI、百度、Anthropic、Cohere等廠商必爭的寶貴資源,成為大模型時代的“石油”。
早在今年3月,國內還在瘋狂煉丹研究大模型時,百度已經率先發布了對標ChatGPT的生成式AI產品——文心一言生。
除了超強的研發能力之外,百度通過搜索引擎積累的20多年龐大的中文語料數據幫了大忙,并在文心一言的多個迭代版本中發揮重要作用,遙遙領先國內其他廠商。
高質量數據通常包括出版書籍、文學作品、學術論文、學校課本、權威媒體的新聞報道、維基百科、百度百科等,經過時間、人類驗證過的文本、視頻、音頻等數據。
但研究機構發現,這類高質量數據的增長非常緩慢。以出版社書籍為例,需要經過市場調研、初稿、編輯、再審等繁瑣流程,耗費幾個月甚至幾年時間才能出版一本書,這種數據產出速度,遠遠落后大模型訓練數據需求的增長。
從大語言模型過去4年的發展趨勢來看,其年訓練數據量的增速超過了50%。也就是說,每過1年就需要雙倍的數據量來訓練模型,才能實現性能、功能的提升。
所以,你會看到很多國家、企業嚴格保護數據隱私以及制定了相關條例,一方面,是保護用戶的隱私不被第三方機構搜集,出現盜取、亂用的情況;
另一方面,便是為了防止重要數據被少數機構壟斷和囤積,在技術研發時無數據可用。
到2026年,高質量訓練數據可能會用光
為了研究訓練數據消耗問題,Epochai的研究人員模擬了從2022年—2100年,全球每年產生的語言和圖像數據,然后計算這些數據的總量。
又模擬了ChatGPT等大模型對數據的消耗速率。最后,比較了數據增長速度和被消耗的速度,得出了以下重要結論:
在當前大模型的高速發展趨勢下, 到2030年—2050年將消耗盡所有低質量數據;高質量數據,極有可能在2026年就會消耗完。
到2030年—2060年,將消耗盡所有圖像訓練數據;到2040年,由于缺乏訓練數據,大模型的功能迭代可能會出現放緩的跡象。
研究人員使用了兩個模型進行了計算:第一個模型,通過大語言和圖像模型兩個領域實際使用的數據集增長趨勢,再利用歷史統計數據進行外推,預測它們何時會達到消耗峰值和平均消耗。
第二個模型:預測未來每年全球范圍內將產生多少新數據。該模型基于三個變量,全球人口數量、互聯網普及率和平均每個網民每年產生的數據。
同時研究人員使用聯合國數據擬合出人口增長曲線,用一個S型函數擬合互聯網使用率,并做出每人每年產數據基本不變的簡單假設,三者相乘即可估算全球每年的新數據量。
該模型已經準確預測出Reddit(知名論壇)每個月產出的數據,所以,準確率很高。
最后,研究人員將兩個模型進行相結合得出了以上結論。
研究人員表示,雖然這個數據是模擬、估算出來的,存在一定的不確定性。但為大模型界敲響了警鐘,訓練數據可能很快成為制約AI模型擴展和應用的重要瓶頸。
AI廠商們需要提前布局數據再生、合成的有效方法,避免在發展大模型的過程中出現斷崖式數據短缺。
本文素材來源麻省理工科技評論官網、Epochai論文,如有侵權請聯系刪除
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。