大語言模型的輸出控制

2024年03月11日 15:02:29 宋杰來源：天翼智庫

　　大語言模型(LLM)固有的復雜性使得控制或引導其輸出成為一個相當大的技術挑戰。2023年12月，美國安全與新興技術中心(CSET)發布報告《控制大語言模型的輸出：初級指南》(Controlling Large Language Model Outputs：A Primer)，介紹了LLM潛在的有害輸出以及目前開發者用于控制LLM輸出的主要技術�？梢钥闯�，LLM可控性目前尚無完美解。在實踐中，LLM輸出控制的各種技術需要相互結合使用，才能最大限度地發揮其作用。

　　為什么要控制大語言模型的輸出？

　　語言模型本質上是復雜的概率計算機器。它們建立語言token(單詞、短語、單詞的組成部分，甚至標點符號和語法符號)之間的關系，并計算每個token在響應給定提示詞時的出現概率。模型反復選擇最有可能出現的token，直到輸出完成。這意味著語言模型對事實性或真實性并無基本理解，也并非從任何單一來源檢索信息。它們更像是“即興創作機器”：擅長復制模式，但沒有內置方法來驗證其輸出是否有用、正確或有害。

　　以下三類潛在的有害輸出，是LLM輸出控制的主要原因：

　　1. 不準確信息（incorrect information）

　　一些普通用戶不了解模型的局限性并且不恰當地引用，認為它們提供了事實信息(AI研究人員稱之為“過度依賴”)。例如，依賴模型獲取健康信息的用戶如果得到錯誤建議，可能會將自己置于危險之中;依賴模型獲取政治信息的用戶如果收到錯誤信息，可能會毫無理由地對候選人失去信任。隨著人們越來越頻繁地使用LLM，與過度依賴相關的風險可能會越來越大。

　　2.偏見或有毒輸出（biased or toxic outputs）

　　并非明顯虛假的內容才會造成傷害。當LLM產生有偏見(例如關于種族、性別、宗教或其他類別)或有害的文本時，就會引發一系列問題。有研究已經測試并發現了與政治意識形態、宗教、性別等有關的偏見證據。另一項研究將LLM中的偏見追溯到訓練數據，并指出基于某些關鍵詞從訓練數據中排除的內容會不成比例地刪除關于各種少數群體成員的文本。

　　3.惡意使用（outputs resulting from malicious use）

　　不良行為者有可能故意使用LLM進行“惡意使用”。最壞情況之一是不良行為者利用LLM學習如何制造炸彈或生物武器，不同類型的惡意行為還包括使用LLM來促進黑客攻擊、詐騙或生成虛假信息文章等等。

　　控制大語言模型的輸出的四種技術

　　LLM的開發分為預訓練、微調、部署三個階段，相關的語言模型控制技術可運用于不同階段以引導其輸出。

　　1. 編輯預訓練數據（Editing Pre-training Data）

　　語言模型的預測能力來自于其訓練文本中的相關性，因此對LLM的一個常見誤解是通過操縱或編輯其訓練數據，可以輕易地引導其輸出。然而，現實世界中的預訓練要復雜得多�？紤]到這些模型的預訓練數據量之大，要預測訓練數據的變化將如何影響其性能或輸出某些類型內容的傾向是極其困難的。

　　雖然訓練數據操縱在理論上是控制模型行為的強大機制，但它并非預防許多類型有害輸出的靈丹妙藥，尤其是當意義和危害依賴于上下文的時候。盡管內容過濾器和數據源等因素最終會對完全訓練模型的行為產生重大影響，但研究人員尚未完全理解應該如何操縱數據，才能在對模型產生有意義影響的同時，最大限度地減少性能損失。在經過精心策劃的數據集上預先訓練較小的、專業化的語言模型，可能更容易在數據過濾或增強方面取得成功，但LLM開發者可能還需要依靠其他方法來引導他們的模型。

　　2. 監督式微調（Supervised Fine-Tuning）

　　模型經過預訓練后，開發者可以通過在專門的數據集上進一步訓練來繼續調整其行為。這一過程被稱為監督式微調，是修改語言模型最常見方法之一，通常是為了提高模型在特定領域的性能。模型接觸到與特定主題相關的高質量數據越多，就越能以對人類用戶有用的方式預測其輸出中的下一個token。

　　在合適的上下文中，如果有合適的數據，監督式微調會非常強大，并且是將模型針對特定領域或用例進行特定調整的最佳方法之一。(這里的“監督”指的是模型被提供了標注數據，因此無需執行對數據中的模式和關聯性進行學習的前提步驟。)然而，有效的監督式微調取決于對專業和高質量數據集的訪問，而這些數據集并非在所有領域都可獲得，或者無法準確地捕捉研究人員試圖控制的行為。因此，研究人員希望開發出不依賴專業數據，或者能夠以更靈活方式引導LLM行為的替代技術。

　　3. 人類反饋強化學習（RLHF）及符合“憲法”的AI（Reinforcement Learning with Human Feedback and Constitutional AI）

　　人類反饋強化學習(RLHF)是一種借助不同的機器學習模型(稱為“獎勵模型”)對LLM進行微調的技術。該模型在原始LLM的一些文本輸出上進行訓練，人類標注者根據一些準則或偏好對這些文本輸出進行排序。前文所提監督式微調通常用于創建專門的模型，不一定涉及基于任何“對”或“錯”的感覺來指導模型;與其不同，RLHF的核心原則是人類偏好應在LLM的行為中發揮作用。“人類反饋”是RLHF的核心組成部分，也是其最大的局限性。只要RLHF需要人力，那么LLM創建者在其模型獲得多少人類反饋方面自然會面臨限制，因為這些措施的時間和成本都非常高。此外，設計不當的反饋過程可能會導致模型學會如何采取行動以最大限度地獲得積極反饋，但實際上卻可能無法轉化為符合人類用戶偏好的輸出類型。

　　符合“憲法”的AI(Constitutional AI，或譯“憲法”AI)是AI公司Anthropic開發的一種訓練方法，旨在盡可能少地使用人類指導來引導LLM的行為。與RLHF不同，“憲法”AI不依靠人類標簽或注釋來編碼人類偏好;相反地，研究人員提供了一系列指導規則或原則，因此被稱為“憲法”，實質上通過另一個模型來評估并修訂其輸出。盡管“憲法”AI有望成為RLHF的替代品，其依靠人工生成的標簽要少得多，但RLHF似乎仍然是在微調階段指導和引導LLM的行業標準。

　　4. 提示詞和輸出控制（Prompt and Output Controls）

　　即使經過預訓練和多輪微調，LLM仍可能輸出非期望文本。在將模型整合到面向消費者的產品之前，開發者可以選擇在輸出前或輸出后階段使用其他技術來控制模型。這些技術通常也被稱為“輸入過濾器”(應用于輸出前階段)和“輸出過濾器”(應用于輸出后階段)，通常分為三個步驟：檢測、標記和編輯。

　　在LLM接收到用戶輸入之前，開發者可以對提示詞進行篩選，評估它們是否可能引發有害文本，并向用戶顯示警告或拒絕信息。這可以產生類似于模型本身拒絕回答某些類型提示詞的效果。

　　一旦LLM對提示詞做出了響應，但在向用戶顯示輸出之前，開發者可以進行額外的檢查和過濾。與監督式微調一樣，這些技術依靠人類標記的數據。微調階段之后的模型控制通常還與監控或用戶舉報相結合，通常這涉及自動內容檢測或過濾、人工內容審核和用戶舉報的組合。最后，如果有害或非期望輸出通過了所有現有控制，許多LLM界面包含用戶反饋機制，使用戶可以直接標記單個輸出。開發者難以捕捉到每一個可能導致有害輸出的提示詞或用例，因此需要依靠用戶對模型性能提供反饋。

　　思考與啟示

　　2023年8月起施行的《生成式人工智能服務管理暫行辦法》，除了禁止生成違法違規內容，還要求在模型生成和優化等過程中，采取有效措施防止產生民族、信仰、國別、地域、性別、年齡、職業、健康等歧視;并且要采取有效措施，提高生成內容的準確性和可靠性。這些都說明了輸出控制的重要性。

　　1. LLM可控性尚無完美解

　　可控性是LLM 的重點研究方向之一，但目前學術界并無完美解，正如CSET報告所言，“即使是最前沿的控制措施也不能保證LLM永遠不產生非期望輸出”。盡管開發者盡了最大努力，非期望輸出仍會時有發生。任何以特定方式控制模型的嘗試，都可能產生意想不到的后果。在實踐中，LLM輸出控制的各種技術需要相互結合使用，才能最大限度地發揮其作用。

　　2. 多方協同推動各環節逐步逼近

　　一是監管部門和產業界多方協同，遵循包容審慎原則，共同建立可信可控的大模型監管體系。二是從內容和邏輯的準確性、價值觀的一致性、決策過程的透明度和可解釋性、輸出內容的安全合規性等多個維度提升LLM輸出結果的可控性。三是構建評測標準生態，推動建立LLM評測體系，以科學有效的評測工具和評測方法，高效評估LLM的生成內容質量。

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據此操作，風險自擔。

海報生成中...