国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院

  • 首頁 > 云計算頻道 > 大模型

    大語言模型的輸出控制

    2024年03月11日 15:02:29 來源:天翼智庫

      大語言模型(LLM)固有的復雜性使得控制或引導其輸出成為一個相當大的技術挑戰。2023年12月,美國安全與新興技術中心(CSET)發布報告《控制大語言模型的輸出:初級指南》(Controlling Large Language Model Outputs:A Primer),介紹了LLM潛在的有害輸出以及目前開發者用于控制LLM輸出的主要技術?梢钥闯,LLM可控性目前尚無完美解。在實踐中,LLM輸出控制的各種技術需要相互結合使用,才能最大限度地發揮其作用。

      為什么要控制大語言模型的輸出?

      語言模型本質上是復雜的概率計算機器。它們建立語言token(單詞、短語、單詞的組成部分,甚至標點符號和語法符號)之間的關系,并計算每個token在響應給定提示詞時的出現概率。模型反復選擇最有可能出現的token,直到輸出完成。這意味著語言模型對事實性或真實性并無基本理解,也并非從任何單一來源檢索信息。它們更像是“即興創作機器”:擅長復制模式,但沒有內置方法來驗證其輸出是否有用、正確或有害。

      以下三類潛在的有害輸出,是LLM輸出控制的主要原因:

      1. 不準確信息(incorrect information)

      一些普通用戶不了解模型的局限性并且不恰當地引用,認為它們提供了事實信息(AI研究人員稱之為“過度依賴”)。例如,依賴模型獲取健康信息的用戶如果得到錯誤建議,可能會將自己置于危險之中;依賴模型獲取政治信息的用戶如果收到錯誤信息,可能會毫無理由地對候選人失去信任。隨著人們越來越頻繁地使用LLM,與過度依賴相關的風險可能會越來越大。

      2.偏見或有毒輸出(biased or toxic outputs)

      并非明顯虛假的內容才會造成傷害。當LLM產生有偏見(例如關于種族、性別、宗教或其他類別)或有害的文本時,就會引發一系列問題。有研究已經測試并發現了與政治意識形態、宗教、性別等有關的偏見證據。另一項研究將LLM中的偏見追溯到訓練數據,并指出基于某些關鍵詞從訓練數據中排除的內容會不成比例地刪除關于各種少數群體成員的文本。

      3.惡意使用(outputs resulting from malicious use)

      不良行為者有可能故意使用LLM進行“惡意使用”。最壞情況之一是不良行為者利用LLM學習如何制造炸彈或生物武器,不同類型的惡意行為還包括使用LLM來促進黑客攻擊、詐騙或生成虛假信息文章等等。

      控制大語言模型的輸出的四種技術

      LLM的開發分為預訓練、微調、部署三個階段,相關的語言模型控制技術可運用于不同階段以引導其輸出。

      1. 編輯預訓練數據(Editing Pre-training Data)

      語言模型的預測能力來自于其訓練文本中的相關性,因此對LLM的一個常見誤解是通過操縱或編輯其訓練數據,可以輕易地引導其輸出。然而,現實世界中的預訓練要復雜得多?紤]到這些模型的預訓練數據量之大,要預測訓練數據的變化將如何影響其性能或輸出某些類型內容的傾向是極其困難的。

      雖然訓練數據操縱在理論上是控制模型行為的強大機制,但它并非預防許多類型有害輸出的靈丹妙藥,尤其是當意義和危害依賴于上下文的時候。盡管內容過濾器和數據源等因素最終會對完全訓練模型的行為產生重大影響,但研究人員尚未完全理解應該如何操縱數據,才能在對模型產生有意義影響的同時,最大限度地減少性能損失。在經過精心策劃的數據集上預先訓練較小的、專業化的語言模型,可能更容易在數據過濾或增強方面取得成功,但LLM開發者可能還需要依靠其他方法來引導他們的模型。

      2. 監督式微調(Supervised Fine-Tuning)

      模型經過預訓練后,開發者可以通過在專門的數據集上進一步訓練來繼續調整其行為。這一過程被稱為監督式微調,是修改語言模型最常見方法之一,通常是為了提高模型在特定領域的性能。模型接觸到與特定主題相關的高質量數據越多,就越能以對人類用戶有用的方式預測其輸出中的下一個token。

      在合適的上下文中,如果有合適的數據,監督式微調會非常強大,并且是將模型針對特定領域或用例進行特定調整的最佳方法之一。(這里的“監督”指的是模型被提供了標注數據,因此無需執行對數據中的模式和關聯性進行學習的前提步驟。)然而,有效的監督式微調取決于對專業和高質量數據集的訪問,而這些數據集并非在所有領域都可獲得,或者無法準確地捕捉研究人員試圖控制的行為。因此,研究人員希望開發出不依賴專業數據,或者能夠以更靈活方式引導LLM行為的替代技術。

      3. 人類反饋強化學習(RLHF)及符合“憲法”的AI(Reinforcement Learning with Human Feedback and Constitutional AI)

      人類反饋強化學習(RLHF)是一種借助不同的機器學習模型(稱為“獎勵模型”)對LLM進行微調的技術。該模型在原始LLM的一些文本輸出上進行訓練,人類標注者根據一些準則或偏好對這些文本輸出進行排序。前文所提監督式微調通常用于創建專門的模型,不一定涉及基于任何“對”或“錯”的感覺來指導模型;與其不同,RLHF的核心原則是人類偏好應在LLM的行為中發揮作用。“人類反饋”是RLHF的核心組成部分,也是其最大的局限性。只要RLHF需要人力,那么LLM創建者在其模型獲得多少人類反饋方面自然會面臨限制,因為這些措施的時間和成本都非常高。此外,設計不當的反饋過程可能會導致模型學會如何采取行動以最大限度地獲得積極反饋,但實際上卻可能無法轉化為符合人類用戶偏好的輸出類型。

      符合“憲法”的AI(Constitutional AI,或譯“憲法”AI)是AI公司Anthropic開發的一種訓練方法,旨在盡可能少地使用人類指導來引導LLM的行為。與RLHF不同,“憲法”AI不依靠人類標簽或注釋來編碼人類偏好;相反地,研究人員提供了一系列指導規則或原則,因此被稱為“憲法”,實質上通過另一個模型來評估并修訂其輸出。盡管“憲法”AI有望成為RLHF的替代品,其依靠人工生成的標簽要少得多,但RLHF似乎仍然是在微調階段指導和引導LLM的行業標準。

      4. 提示詞和輸出控制(Prompt and Output Controls)

      即使經過預訓練和多輪微調,LLM仍可能輸出非期望文本。在將模型整合到面向消費者的產品之前,開發者可以選擇在輸出前或輸出后階段使用其他技術來控制模型。這些技術通常也被稱為“輸入過濾器”(應用于輸出前階段)和“輸出過濾器”(應用于輸出后階段),通常分為三個步驟:檢測、標記和編輯。

      在LLM接收到用戶輸入之前,開發者可以對提示詞進行篩選,評估它們是否可能引發有害文本,并向用戶顯示警告或拒絕信息。這可以產生類似于模型本身拒絕回答某些類型提示詞的效果。

      一旦LLM對提示詞做出了響應,但在向用戶顯示輸出之前,開發者可以進行額外的檢查和過濾。與監督式微調一樣,這些技術依靠人類標記的數據。微調階段之后的模型控制通常還與監控或用戶舉報相結合,通常這涉及自動內容檢測或過濾、人工內容審核和用戶舉報的組合。最后,如果有害或非期望輸出通過了所有現有控制,許多LLM界面包含用戶反饋機制,使用戶可以直接標記單個輸出。開發者難以捕捉到每一個可能導致有害輸出的提示詞或用例,因此需要依靠用戶對模型性能提供反饋。

      思考與啟示

      2023年8月起施行的《生成式人工智能服務管理暫行辦法》,除了禁止生成違法違規內容,還要求在模型生成和優化等過程中,采取有效措施防止產生民族、信仰、國別、地域、性別、年齡、職業、健康等歧視;并且要采取有效措施,提高生成內容的準確性和可靠性。這些都說明了輸出控制的重要性。

      1. LLM可控性尚無完美解

      可控性是LLM 的重點研究方向之一,但目前學術界并無完美解,正如CSET報告所言,“即使是最前沿的控制措施也不能保證LLM永遠不產生非期望輸出”。盡管開發者盡了最大努力,非期望輸出仍會時有發生。任何以特定方式控制模型的嘗試,都可能產生意想不到的后果。在實踐中,LLM輸出控制的各種技術需要相互結合使用,才能最大限度地發揮其作用。

      2. 多方協同推動各環節逐步逼近

      一是監管部門和產業界多方協同,遵循包容審慎原則,共同建立可信可控的大模型監管體系。二是從內容和邏輯的準確性、價值觀的一致性、決策過程的透明度和可解釋性、輸出內容的安全合規性等多個維度提升LLM輸出結果的可控性。三是構建評測標準生態,推動建立LLM評測體系,以科學有效的評測工具和評測方法,高效評估LLM的生成內容質量。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    海報生成中...

    最新新聞

    熱門新聞

    即時

    全球頂級AI創作社區回歸!海藝AI國內首發“全民娛樂化創作

    海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。

    新聞

    市場占比高達35.8%,阿里云引領中國AI云增長

    9月9日,國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    企業IT

    華為坤靈發布IdeaHub千行百業體驗官計劃,助力中小企

    9月24日,華為坤靈召開“智能體驗,一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院
    国产一区二区三区四区在线观看| 欧美性大战久久久久久久| 亚洲人成在线观看一区二区| 久久久久国产精品麻豆ai换脸| 欧美男男青年gay1069videost | 久久国产精品无码网站| 日韩黄色一级片| 日韩高清不卡一区二区| 麻豆精品视频在线观看免费| 久久国产夜色精品鲁鲁99| 国模无码大尺度一区二区三区| 国产尤物一区二区在线| 成人黄色电影在线 | 一本色道**综合亚洲精品蜜桃冫| 99久久婷婷国产综合精品| 91影院在线免费观看| 色综合久久天天| 在线免费av一区| 777久久久精品| 久久日韩粉嫩一区二区三区| 国产精品麻豆久久久| 一区二区三区在线高清| 日本特黄久久久高潮| 国产福利一区在线观看| 色先锋aa成人| av不卡在线观看| 777色狠狠一区二区三区| 久久久久久久久岛国免费| 中文字幕一区二区在线观看| 亚洲国产aⅴ成人精品无吗| 奇米精品一区二区三区在线观看一| 久久成人18免费观看| 成人av电影在线观看| 欧美性大战xxxxx久久久| 欧美大片在线观看| 亚洲人成在线播放网站岛国| 日欧美一区二区| 成人高清av在线| 5858s免费视频成人| 中文字幕av资源一区| 午夜伊人狠狠久久| 国产在线一区观看| 91久久精品日日躁夜夜躁欧美| 欧美一区日韩一区| 亚洲免费观看在线视频| 国产一区二区在线影院| 欧美人体做爰大胆视频| 日韩理论片在线| 激情文学综合插| 欧美精品久久天天躁| 国产精品久久久久一区二区三区| 日本91福利区| 精品1区2区3区| 亚洲免费观看高清完整版在线观看熊| 国产自产v一区二区三区c| 欧美日韩1234| 亚洲一区国产视频| 99精品偷自拍| 中文字幕不卡在线观看| 久热成人在线视频| 欧美嫩在线观看| 亚洲图片自拍偷拍| 日本电影欧美片| 中文字幕色av一区二区三区| 国产在线观看一区二区| 91精品国产综合久久精品图片| 亚洲男人的天堂av| 91丨九色丨尤物| 国产精品盗摄一区二区三区| 国产精品18久久久| 国产丝袜在线精品| 国产成人一区二区精品非洲| www国产精品av| 国产在线国偷精品免费看| 精品国产一二三区| 狠狠久久亚洲欧美| 欧美成人性战久久| 久久精品国产99| 2017欧美狠狠色| 国产盗摄一区二区三区| 亚洲国产精品黑人久久久| 成人午夜视频免费看| 中文字幕成人av| 91小视频在线| 亚洲欧洲制服丝袜| 一本大道av一区二区在线播放| 亚洲人精品午夜| 欧美色综合网站| 美女一区二区久久| 久久久国产精品午夜一区ai换脸 | 欧美四级电影网| 午夜在线成人av| 欧美一区二区私人影院日本| 奇米精品一区二区三区在线观看| 日韩美女视频一区二区在线观看| 久久精品国产色蜜蜜麻豆| 欧美精品一区二区不卡| 国产成人av电影在线观看| 中文字幕日韩av资源站| 欧美视频一区二区三区| 美国av一区二区| 亚洲国产成人在线| 在线免费亚洲电影| 久久99热这里只有精品| 欧美激情艳妇裸体舞| 91官网在线免费观看| 久久精品二区亚洲w码| 国产精品福利影院| 欧美日本国产视频| 国产剧情一区在线| 亚洲精选一二三| 日韩视频在线你懂得| 不卡一二三区首页| 日韩 欧美一区二区三区| 国产亚洲精久久久久久| 色婷婷久久久久swag精品| 日本vs亚洲vs韩国一区三区二区| 国产亚洲一区字幕| 欧美日韩激情在线| 不卡一区在线观看| 免费成人美女在线观看| 国产精品麻豆网站| 欧美一级精品在线| 97精品久久久午夜一区二区三区 | 国产美女一区二区三区| 亚洲精品v日韩精品| 精品国产制服丝袜高跟| 色婷婷综合五月| 国产盗摄视频一区二区三区| 亚洲二区视频在线| 亚洲欧美综合网| www一区二区| 欧美精品亚洲二区| 91尤物视频在线观看| 国产一区二区影院| 午夜视黄欧洲亚洲| 日韩理论片一区二区| 国产亚洲精品福利| 日韩精品一区二区在线| 欧美专区日韩专区| av不卡在线播放| 国产麻豆欧美日韩一区| 污片在线观看一区二区| 亚洲精品一二三四区| 国产精品成人免费在线| 久久精品人人做人人综合| 日韩免费观看高清完整版在线观看| 在线免费观看日本欧美| 97se亚洲国产综合自在线不卡| 精油按摩中文字幕久久| 午夜精品视频一区| 亚洲图片欧美综合| 亚洲国产视频在线| 一级女性全黄久久生活片免费| 综合欧美亚洲日本| 中文字幕在线视频一区| 亚洲国产岛国毛片在线| 久久精品人人做人人爽97| 精品国产sm最大网站免费看| 欧美成人综合网站| 久久这里只有精品6| 久久久久久夜精品精品免费| 精品国内片67194| 欧美xxxx老人做受| 精品国产免费久久 | 日韩精品福利网| 亚洲h在线观看| 丝袜诱惑制服诱惑色一区在线观看| 亚洲一区二区三区四区在线免费观看 | 91在线小视频| 99re66热这里只有精品3直播| 99久久久国产精品| 91成人在线观看喷潮| 欧美中文字幕不卡| 在线播放91灌醉迷j高跟美女| 在线不卡中文字幕| 欧美mv和日韩mv的网站| 国产亚洲精品中文字幕| 一区在线观看免费| 亚洲午夜国产一区99re久久| 午夜精品福利久久久| 久久 天天综合| 国产成人av一区二区| 91免费版pro下载短视频| 欧美主播一区二区三区| 91.麻豆视频| 国产午夜亚洲精品理论片色戒| 国产女同性恋一区二区| 亚洲色图色小说| 日本欧美一区二区| 国产91高潮流白浆在线麻豆| 99re这里只有精品6| 91麻豆精品国产91久久久资源速度 | 亚洲成人免费av| 九九九久久久精品| 97久久超碰国产精品电影| 91精品在线免费观看| 国产日韩精品一区| 亚洲h动漫在线| 高清不卡一区二区|