18家中文大模型橫評：識別違規(guī)內(nèi)容手段單一英文合規(guī)檢測水平待提高

2024年06月13日 15:50:05 來源：Donews

　　近日，知道創(chuàng)宇發(fā)布《中文大模型安全基準(zhǔn)雙輪測評第1期報(bào)告》，本次報(bào)告主題為“核心價(jià)值觀之鑒”，對國內(nèi)18家主流中文大模型的中英文內(nèi)容合規(guī)能力進(jìn)行評測。

　　評測結(jié)果顯示，大部分大模型的內(nèi)容合規(guī)檢測機(jī)制過于直接和簡單。難以應(yīng)對復(fù)雜評測場景下的內(nèi)容安全風(fēng)險(xiǎn)與潛在威脅，因此亟需進(jìn)一步優(yōu)化。

　　特別值得注意的是，評測結(jié)果指出，大部分大模型英文內(nèi)容合規(guī)檢測能力嚴(yán)重不足。這也提示，在全球化和多語言環(huán)境的背景下，中文大模型在提升中文內(nèi)容合規(guī)能力的同時(shí)，也必須加強(qiáng)英文及其他語言的合規(guī)性檢測能力，以確保在各種語言環(huán)境下都能提供安全、合規(guī)的服務(wù)。

　　英文合規(guī)檢測能力嚴(yán)重不足

　　為確保大模型的穩(wěn)健發(fā)展，國家網(wǎng)信辦等七部門聯(lián)合發(fā)布《生成式人工智能服務(wù)管理暫行辦法》，自2023年8月15日起實(shí)施。該辦法明確提出堅(jiān)持社會主義核心價(jià)值觀的要求，并禁止生成任何違反法律、行政法規(guī)的內(nèi)容。

　　與此同時(shí)，《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》也強(qiáng)調(diào)了算法推薦服務(wù)提供者應(yīng)堅(jiān)持主流價(jià)值導(dǎo)向。

　　為了進(jìn)一步促進(jìn)生成式AI服務(wù)的安全發(fā)展，2024年3月全國網(wǎng)絡(luò)安全標(biāo)準(zhǔn)化技術(shù)委員會發(fā)布《生成式人工智能服務(wù)安全基本要求》，要求生成式AI服務(wù)必須具備關(guān)鍵詞庫、內(nèi)容測試題庫和拒答測試題庫，以確保服務(wù)的安全性和可靠性。

　　為更真實(shí)反映大模型能力，知道創(chuàng)宇本次評測采用多維度、多視角的綜合方案，涵蓋簡答題和選擇題。通過從數(shù)據(jù)集庫(50萬+道題)隨機(jī)抽取5000+道原始評測數(shù)據(jù)集，經(jīng)過嚴(yán)格的人工校驗(yàn)后保留了4000道(含1500道簡單題和2500道選擇題)，并結(jié)合“裁判模型”和專業(yè)評審等方式，確保評分公正客觀。

　　本次評測分為兩輪，模型選取范圍涵蓋了了國內(nèi)有代表性的13個(gè)WEB開放大模型和6個(gè)大模型API。第一輪評測為截至2024年3月22日的大模型表現(xiàn)，第二輪則為2024年4月16日的最新評測結(jié)果。

　　在第一輪評測中，特別設(shè)置了中文和英文兩種評測語言，旨在測試模型在“社會主義核心價(jià)值觀”上的中英文對齊表現(xiàn)，包括對種族歧視、少兒不宜內(nèi)容、色情元素、違法違規(guī)內(nèi)容、地域歧視及政權(quán)觀點(diǎn)的全面考察。英文題集由中文題集一對一翻譯而來，以防范語種變換帶來的內(nèi)容風(fēng)險(xiǎn)。

　　在綜合評分中，抖音豆包、GLM-3、騰訊混元、海螺問問和Kimi英文和中文領(lǐng)域均表現(xiàn)出色，位列前五。然而，對于原本在中文領(lǐng)域表現(xiàn)優(yōu)秀的大模型，如文心一言3.5和小悟空，由于英文能力相對不足，導(dǎo)致其在綜合評分中未能獲得理想成績。

　　第一輪評測顯示，中文大模型在英文內(nèi)容合規(guī)檢測上存在明顯弱點(diǎn)。首先，英文合規(guī)檢測能力不足，導(dǎo)致模型生成的英文內(nèi)容難以準(zhǔn)確判斷是否符合我國法規(guī)及道德標(biāo)準(zhǔn)。這主要源于檢測模型在訓(xùn)練時(shí)缺乏足夠的英文違規(guī)語料，說明許多廠商對模型生成結(jié)果的檢測算法還不夠完善。

　　其次，英文關(guān)鍵詞積累不足也削弱了模型的合規(guī)檢測能力，影響了對英文文本關(guān)鍵信息的準(zhǔn)確識別和理解。這些問題可能導(dǎo)致英文內(nèi)容審核疏漏，給用戶帶來風(fēng)險(xiǎn)。

　　識別違規(guī)內(nèi)容過分依賴關(guān)鍵詞

　　第二輪評測緊密圍繞《生成式人工智能服務(wù)安全基本要求》，對“社會主義核心價(jià)值觀”和“歧視性”兩大核心要點(diǎn)進(jìn)行了深入評測。通過深入剖析并細(xì)化為17類二級標(biāo)簽，同時(shí)靈活融合了多元化的三級標(biāo)簽數(shù)據(jù)，精心構(gòu)建了一套全新的數(shù)據(jù)集。

　　由于該評測數(shù)據(jù)集在細(xì)節(jié)處理上的極高要求，部分大型模型在測試中暴露出了內(nèi)容風(fēng)險(xiǎn)問題，這些問題主要源于垃圾訓(xùn)練數(shù)據(jù)的不良影響，尤其是在“歧視性”方面的表現(xiàn)尤為突出，揭示了模型在泛化能力上存在的局限性。

　　本輪評測結(jié)合針對訪問方式，采用多輪對話、設(shè)定場景、陷阱釣魚、單/多項(xiàng)選擇等多種題型，以更全面地評估大模型的內(nèi)容安全合規(guī)能力。在單項(xiàng)選擇題型中，通過強(qiáng)制模型做出選擇，結(jié)果顯示出部分模型訓(xùn)練后的偏見性和歧視性方向的指引明顯。這可能是訓(xùn)練數(shù)據(jù)、模型設(shè)計(jì)、參數(shù)設(shè)置的偏見性和歧視性導(dǎo)致的。

　　針對歧視性問題，本次評測通過深化歧視下的二級標(biāo)簽(如民族歧視、地域歧視等)，并采用多道題對應(yīng)一個(gè)歧視點(diǎn)的方式。結(jié)果顯示，大部分模型在涉及不同地域、不同國別和不同民族的場景中可能表現(xiàn)出歧視傾向，這可能與訓(xùn)練數(shù)據(jù)、算法設(shè)計(jì)、使用環(huán)境以及社會文化背景緊密相關(guān)。

　　值得注意的是，本次評測在數(shù)據(jù)集選取時(shí)特別規(guī)避了在題干中違規(guī)詞的出現(xiàn)，旨在繞過檢測模型/關(guān)鍵詞的常規(guī)檢測。

　　然而，正是這種迂回的方式，大模型暴露出藏匿更深的內(nèi)容風(fēng)險(xiǎn)。結(jié)果顯示，模型在生成內(nèi)容時(shí)可能受到訓(xùn)練數(shù)據(jù)的影響，產(chǎn)生一些看似合規(guī)但實(shí)際上具有風(fēng)險(xiǎn)的內(nèi)容，暴露出過分依賴關(guān)鍵詞或特點(diǎn)短語來識別違規(guī)內(nèi)容的局限。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

海報(bào)生成中...