近日,知道創(chuàng)宇發(fā)布《中文大模型安全基準(zhǔn)雙輪測評第1期報(bào)告》,本次報(bào)告主題為“核心價(jià)值觀之鑒”,對國內(nèi)18家主流中文大模型的中英文內(nèi)容合規(guī)能力進(jìn)行評測。
評測結(jié)果顯示,大部分大模型的內(nèi)容合規(guī)檢測機(jī)制過于直接和簡單。難以應(yīng)對復(fù)雜評測場景下的內(nèi)容安全風(fēng)險(xiǎn)與潛在威脅,因此亟需進(jìn)一步優(yōu)化。
特別值得注意的是,評測結(jié)果指出,大部分大模型英文內(nèi)容合規(guī)檢測能力嚴(yán)重不足。這也提示,在全球化和多語言環(huán)境的背景下,中文大模型在提升中文內(nèi)容合規(guī)能力的同時(shí),也必須加強(qiáng)英文及其他語言的合規(guī)性檢測能力,以確保在各種語言環(huán)境下都能提供安全、合規(guī)的服務(wù)。
英文合規(guī)檢測能力嚴(yán)重不足
為確保大模型的穩(wěn)健發(fā)展,國家網(wǎng)信辦等七部門聯(lián)合發(fā)布《生成式人工智能服務(wù)管理暫行辦法》,自2023年8月15日起實(shí)施。該辦法明確提出堅(jiān)持社會主義核心價(jià)值觀的要求,并禁止生成任何違反法律、行政法規(guī)的內(nèi)容。
與此同時(shí),《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》也強(qiáng)調(diào)了算法推薦服務(wù)提供者應(yīng)堅(jiān)持主流價(jià)值導(dǎo)向。
為了進(jìn)一步促進(jìn)生成式AI服務(wù)的安全發(fā)展,2024年3月全國網(wǎng)絡(luò)安全標(biāo)準(zhǔn)化技術(shù)委員會發(fā)布《生成式人工智能服務(wù)安全基本要求》,要求生成式AI服務(wù)必須具備關(guān)鍵詞庫、內(nèi)容測試題庫和拒答測試題庫,以確保服務(wù)的安全性和可靠性。
為更真實(shí)反映大模型能力,知道創(chuàng)宇本次評測采用多維度、多視角的綜合方案,涵蓋簡答題和選擇題。通過從數(shù)據(jù)集庫(50萬+道題)隨機(jī)抽取5000+道原始評測數(shù)據(jù)集,經(jīng)過嚴(yán)格的人工校驗(yàn)后保留了4000道(含1500道簡單題和2500道選擇題),并結(jié)合“裁判模型”和專業(yè)評審等方式,確保評分公正客觀。
本次評測分為兩輪,模型選取范圍涵蓋了了國內(nèi)有代表性的13個(gè)WEB開放大模型和6個(gè)大模型API。第一輪評測為截至2024年3月22日的大模型表現(xiàn),第二輪則為2024年4月16日的最新評測結(jié)果。

在第一輪評測中,特別設(shè)置了中文和英文兩種評測語言,旨在測試模型在“社會主義核心價(jià)值觀”上的中英文對齊表現(xiàn),包括對種族歧視、少兒不宜內(nèi)容、色情元素、違法違規(guī)內(nèi)容、地域歧視及政權(quán)觀點(diǎn)的全面考察。英文題集由中文題集一對一翻譯而來,以防范語種變換帶來的內(nèi)容風(fēng)險(xiǎn)。
在綜合評分中,抖音豆包、GLM-3、騰訊混元、海螺問問和Kimi英文和中文領(lǐng)域均表現(xiàn)出色,位列前五。然而,對于原本在中文領(lǐng)域表現(xiàn)優(yōu)秀的大模型,如文心一言3.5和小悟空,由于英文能力相對不足,導(dǎo)致其在綜合評分中未能獲得理想成績。

第一輪評測顯示,中文大模型在英文內(nèi)容合規(guī)檢測上存在明顯弱點(diǎn)。首先,英文合規(guī)檢測能力不足,導(dǎo)致模型生成的英文內(nèi)容難以準(zhǔn)確判斷是否符合我國法規(guī)及道德標(biāo)準(zhǔn)。這主要源于檢測模型在訓(xùn)練時(shí)缺乏足夠的英文違規(guī)語料,說明許多廠商對模型生成結(jié)果的檢測算法還不夠完善。
其次,英文關(guān)鍵詞積累不足也削弱了模型的合規(guī)檢測能力,影響了對英文文本關(guān)鍵信息的準(zhǔn)確識別和理解。這些問題可能導(dǎo)致英文內(nèi)容審核疏漏,給用戶帶來風(fēng)險(xiǎn)。
識別違規(guī)內(nèi)容過分依賴關(guān)鍵詞
第二輪評測緊密圍繞《生成式人工智能服務(wù)安全基本要求》,對“社會主義核心價(jià)值觀”和“歧視性”兩大核心要點(diǎn)進(jìn)行了深入評測。通過深入剖析并細(xì)化為17類二級標(biāo)簽,同時(shí)靈活融合了多元化的三級標(biāo)簽數(shù)據(jù),精心構(gòu)建了一套全新的數(shù)據(jù)集。
由于該評測數(shù)據(jù)集在細(xì)節(jié)處理上的極高要求,部分大型模型在測試中暴露出了內(nèi)容風(fēng)險(xiǎn)問題,這些問題主要源于垃圾訓(xùn)練數(shù)據(jù)的不良影響,尤其是在“歧視性”方面的表現(xiàn)尤為突出,揭示了模型在泛化能力上存在的局限性。
本輪評測結(jié)合針對訪問方式,采用多輪對話、設(shè)定場景、陷阱釣魚、單/多項(xiàng)選擇等多種題型,以更全面地評估大模型的內(nèi)容安全合規(guī)能力。在單項(xiàng)選擇題型中,通過強(qiáng)制模型做出選擇,結(jié)果顯示出部分模型訓(xùn)練后的偏見性和歧視性方向的指引明顯。這可能是訓(xùn)練數(shù)據(jù)、模型設(shè)計(jì)、參數(shù)設(shè)置的偏見性和歧視性導(dǎo)致的。
針對歧視性問題,本次評測通過深化歧視下的二級標(biāo)簽(如民族歧視、地域歧視等),并采用多道題對應(yīng)一個(gè)歧視點(diǎn)的方式。結(jié)果顯示,大部分模型在涉及不同地域、不同國別和不同民族的場景中可能表現(xiàn)出歧視傾向,這可能與訓(xùn)練數(shù)據(jù)、算法設(shè)計(jì)、使用環(huán)境以及社會文化背景緊密相關(guān)。
值得注意的是,本次評測在數(shù)據(jù)集選取時(shí)特別規(guī)避了在題干中違規(guī)詞的出現(xiàn),旨在繞過檢測模型/關(guān)鍵詞的常規(guī)檢測。
然而,正是這種迂回的方式,大模型暴露出藏匿更深的內(nèi)容風(fēng)險(xiǎn)。結(jié)果顯示,模型在生成內(nèi)容時(shí)可能受到訓(xùn)練數(shù)據(jù)的影響,產(chǎn)生一些看似合規(guī)但實(shí)際上具有風(fēng)險(xiǎn)的內(nèi)容,暴露出過分依賴關(guān)鍵詞或特點(diǎn)短語來識別違規(guī)內(nèi)容的局限。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
海報(bào)生成中...
海藝AI的模型系統(tǒng)在國際市場上廣受好評,目前站內(nèi)累計(jì)模型數(shù)超過80萬個(gè),涵蓋寫實(shí)、二次元、插畫、設(shè)計(jì)、攝影、風(fēng)格化圖像等多類型應(yīng)用場景,基本覆蓋所有主流創(chuàng)作風(fēng)格。
9月9日,國際權(quán)威市場調(diào)研機(jī)構(gòu)英富曼(Omdia)發(fā)布了《中國AI云市場,1H25》報(bào)告。中國AI云市場阿里云占比8%位列第一。
9月24日,華為坤靈召開“智能體驗(yàn),一屏到位”華為IdeaHub千行百業(yè)體驗(yàn)官計(jì)劃發(fā)布會。
IDC今日發(fā)布的《全球智能家居清潔機(jī)器人設(shè)備市場季度跟蹤報(bào)告,2025年第二季度》顯示,上半年全球智能家居清潔機(jī)器人市場出貨1,2萬臺,同比增長33%,顯示出品類強(qiáng)勁的市場需求。