1月19日 消息:隨著自然語言處理和自然語言生成的進步,大型語言模型(LLMs)在實際應用中得到了廣泛使用。由于它們能夠模仿人類行為,并具有通用性,這些模型已經涉足各個領域。
雖然這些模型引起了相當大的關注,但它們代表了一組受限和偏向的人類觀點和知識。預訓練數據的組成是造成這種偏見的原因,因為它對模型的行為產生了重大影響。
研究人員一直在努力著重理解和記錄在預訓練之前對數據所做的轉換。預訓練數據的篩選是一個多步驟的過程,其中有多個決策點,這些決策點通常基于主觀的文本質量判斷或與基準測試的性能。
最近,來自艾倫人工智能研究所、加利福尼亞大學伯克利分校、埃默里大學、卡內基梅隆大學和華盛頓大學的研究人員介紹了一個名為 AboutMe 的新數據集和框架。該研究強調了數據篩選工作流中存在的許多未經質疑的假設。通過 AboutMe,研究團隊試圖記錄對社會和地理背景相關的文本進行數據過濾的影響。
在自然語言處理中,缺乏與語言數據相關聯的廣泛的自我報告社會人口學數據是一個問題。文本可以追溯到維基百科等一般來源,但在更細粒度的層面上,通常不知道誰創建了這些信息。在這項研究中,研究團隊利用 Web 數據中的預設模式,找到了網站,特別是 “關于我” 頁面。這使得我們可以對被網絡爬蟲獲取的文本中所代表的語言的創作者有前所未有的了解。
研究人員將網絡文本(一種流行的預訓練數據源)與其社會和地理背景聯系起來。研究團隊使用來自網站的 “關于我” 部分的數據,進行社會語言學分析,測量了網站作者的興趣、社會角色、關聯地理位置等。他們創建了一個包含1030萬個網站創建者自我描述的新數據集,并提取有關他們是誰、來自哪里的信息:他們的主題興趣、社會角色和地理歸屬。
然后,他們對這些網頁應用了之前在 LLM 開發研究中使用的十個質量和英語 ID 過濾器,以檢查過濾對保留或刪除頁面的影響。
研究團隊表示,他們的主要目標是發現在過濾器內部和之間,與網站來源相關的行為趨勢。結果顯示,基于模型的質量過濾器顯示出對特定主題領域的隱含偏好,導致與各種專業和職業相關的文本以不同的比率被刪除。此外,那些假設頁面是單語言的過濾技術可能無意中刪除了來自非英語地區的內容。
這項研究突顯了 LLM 開發過程中數據篩選的復雜性以及對語言模型中各種觀點呈現的影響。該研究的主要目標是提高人們對預訓練數據篩選程序的細節的認識,尤其是在考慮社會因素時。研究團隊強調了對預訓練數據篩選程序及其社會影響進行更多研究的需求。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。