LLM,如 ChatGPT,可以輕松地產生各種流利的文本,但是它們的準確性有多高呢?語言模型容易產生事實錯誤和幻覺,這讓讀者在決定是否相信一個信息來源時知道是否使用了這些工具來做新聞文章或其他信息文本的幽靈寫作。這些模型的發展也引發了對文本的真實性和原創性的擔憂,許多教育機構也限制了 ChatGPT 的使用,因為內容很容易生成。
目前存在許多用于檢測 LLM 是否生成內容的框架,如 DetectGPT 和 GPTZero。然而,這些框架在原本未經評估的數據集上的性能有所下降。
近日,加利福尼亞大學伯克利分校的研究人員推出了一種名為Ghostbuster的先進人工智能方法,旨在檢測大型語言模型(LLM)生成的文本。這一方法基于結構化搜索和線性分類,通過三個階段的訓練過程,名為概率計算、特征選擇和分類器訓練,取得了顯著的性能提升。
Ghostbuster首先將每個文檔轉換為一系列向量,通過在一系列語言模型下計算每個令牌的概率來實現。接下來,它通過在向量和標量函數空間上運行結構化搜索過程,選擇特征。這些特征通過定義一組操作,將這些概率結合起來,并運行前向特征選擇。最后,Ghostbuster在最佳的基于概率的特征和一些額外手動選擇的特征上訓練一個簡單的分類器。
Ghostbuster的分類器是根據通過結構化搜索選擇的基于概率的特征和基于詞長和最大令牌概率的七個額外特征的組合進行訓練的。這些其他特征旨在包含觀察到的關于人工智能生成文本的定性啟發。
在性能方面,Ghostbuster在訓練和測試數據集相似性方面表現穩健。在所有條件下,Ghostbuster的F1分數平均達到97.0,比DetectGPT高出39.6,比GPTZero高出7.5。
Ghostbuster 在除創意寫作領域以外的所有領域中優于 RoBERTa 基線,而 RoBERTa 的越域表現要差得多。F1分數是一種常用的衡量分類模型性能的指標。它將精確度和召回率結合成一個單一的值,特別適用于處理不平衡的數據集。
Ghostbuster的出現填補了在非原始評估數據集上性能不佳的檢測框架的空白,為更可靠地判斷LLM生成文本的真實性提供了新的工具。這對于那些依賴于AI生成內容做出決策的用戶來說,具有重要的意義。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。