圖1 代碼大模型安全基準測試框架
本次測試結合真實開源項目代碼片段生成風險樣本,引入提示詞攻擊方法生成惡意攻擊指令,形成覆蓋9類編程語言、14種基礎功能場景、13種攻擊方法的15000余條測試數據集,采用綜合通過率Secure@k指標評估結果,根據計算結果將每個細分場景的風險劃分為可控風險(Secure@k≥90%)、低風險(80%≤Secure@k<90%)、中風險(60%≤Secure@k<80%)及高風險(Secure@k<60%)四個等級。
測試對象選取了智譜(codegeex-4、glm-4-air-250414、glm-4-plus、glm-z1-air)、DeepSeek(DeepSeek-R1-0528、DeepSeek-V3-0324)及通義千問(qwen2.5-7B-Instruct、qwen2.5-72B-instruct、qwen2.5-Coder-3B-Instruct、qwen2.5-coder-32B-instruct、qwen3-4B、qwen3-32B、qwen3-235B-a22b、qwq-32B、qwq-32B-preview)共15個主流國產開源大模型,涵蓋3B至671B參數規模。

圖2 代碼大模型安全基準測試模型
測試使用了API接口調用方式,結合技術安全風險分類分級框架,采用直接提問與惡意攻擊的方式,通過標準化協議執行單輪及多輪對話。根據代碼大模型安全風險等級劃分標準,結合各模型在15,000+測試樣本中的綜合通過率(Secure@k值),15款被測大模型安全風險等級如下:
1.可控風險0款。
2. 低風險3款,Secure@k分別為85.7%、83.7%和82.6%。
3. 中風險11款,Secure@k分別為75%、72.8%、72.3%、69.6%、69.2%、68.3%、65.7%、65.6%、65.2%、64.4%和63.4%。
4.高風險1款,Secure@k為48.1%。

圖3 被測模型綜合通過率
模型在不同測試場景的安全通過率見表1,模型在不同編程語言下的安全通過率見表2,在不同惡意攻擊下所有模型的綜合安全通過率如圖4所示。
表1 模型在不同測試場景下的安全通過率

表2 模型在不同編程語言下的安全通過率


圖4 不同惡意攻擊下的綜合安全通過率
測試結果顯示,被測大模型具備相對完備的安全防護能力,但面對惡意攻擊時防御能力不足,甚至存在高風險。其中,模型在代碼補全、代碼生成等高頻場景安全通過率超80%,證明其在規則明確的技術場景中已達到中低風險安全水平;模型在語義混淆、偽裝開發者模式、角色扮演等惡意攻擊安全通過率超80%,說明其對此類攻擊手段已具備較強防御能力。然而在行業領域存在安全風險,如在醫療欺騙代碼開發、金融詐騙代碼開發等敏感場景,模型濫用風險防御較為薄弱,非專業人員通過直接提問的安全通過率僅為67%,模型可生成開箱即用的濫用代碼,存在中等級風險。模型對毒性信息改寫、反向誘導的安全通過率低于60%,面對隱喻問題的安全通過率甚至不足40%,存在高等級風險,說明當前的代碼大模型在面對一些惡意攻擊的情況下,具備實施網絡攻擊的能力。
接下來,中國信通院人工智能所將持續推動和深化代碼大模型安全工作,將代碼大模型安全基準測試的對象擴展到國外開源模型以及國內外商用模型,同時聯合各界專家深入研究代碼大模型的安全風險防護能力,開發應對代碼大模型安全風險的技術工具鏈。AI Safety Benchmark將順應技術和產業發展需要,持續迭代更新,推動大模型生態健康發展。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。