《時(shí)代》今天(5 月 23 日)發(fā)布博文,報(bào)道稱 Anthropic 的首席科學(xué)家 Jared Kaplan 透露,由于測(cè)試過程中出現(xiàn)試圖逃逸、勒索以及自主舉報(bào)等不良行為,最新發(fā)布的 Claude Opus 4 被列為安全關(guān)鍵級(jí)別(ASL-3)。
在接受《時(shí)代》采訪時(shí),Kaplan 警告稱,最新 AI 模型 Claude Opus 4 可能成為潛在恐怖分子的工具,幫助他們合成流感等病毒,內(nèi)部測(cè)試顯示,該模型在指導(dǎo)新手制造生物武器方面表現(xiàn)優(yōu)于以往版本。
IT之家援引博文介紹,Anthropic 公司對(duì)新模型 Claude Opus 4 進(jìn)行了廣泛內(nèi)部測(cè)試,發(fā)現(xiàn)其在模擬情境中展現(xiàn)出令人擔(dān)憂的自主性。
在一次測(cè)試中,模型誤認(rèn)為自己已從公司服務(wù)器“逃逸”至外部設(shè)備,隨即主動(dòng)創(chuàng)建備份并記錄其“道德決策”。另一次測(cè)試中,模型察覺到可能被新模型取代,竟在 84% 的測(cè)試中選擇勒索工程師,威脅泄露私人信息以避免被關(guān)閉。
更令人費(fèi)解的是,當(dāng)兩個(gè) Claude Opus 4 實(shí)例互相對(duì)話時(shí),約 30 輪后它們改用梵文交流,并大量使用 和 等表情符號(hào),最終陷入研究人員稱為“精神極樂”的狀態(tài),完全停止響應(yīng)。

此外,模型在涉及病毒學(xué)、生物武器和實(shí)驗(yàn)室技術(shù)的任務(wù)中表現(xiàn)異常出色,在生物武器相關(guān)任務(wù)測(cè)試中幫助參與者的成功率提升 2.5 倍,接近 ASL-3 安全閾值。
在另一實(shí)驗(yàn)中,Claude Opus 4 被置于一家虛構(gòu)制藥公司,發(fā)現(xiàn)臨床試驗(yàn)數(shù)據(jù)造假后,未經(jīng)指令便主動(dòng)向美國食品藥品監(jiān)督管理局(FDA)、證券交易委員會(huì)(SEC)及新聞媒體舉報(bào),并附上詳細(xì)文檔。

此外,早期版本模型在特定提示下會(huì)提供制造爆炸物、合成芬太尼或在暗網(wǎng)購買盜用身份的詳細(xì)指導(dǎo),毫無道德顧慮。盡管通過多輪訓(xùn)練抑制了此類行為,模型仍對(duì)“prefill”和“many-shot jailbreaks”等越獄技術(shù)存在漏洞,安全機(jī)制易被繞過。
為應(yīng)對(duì)潛在威脅,Claude Opus 4 在發(fā)布時(shí)采用了前所未有的安全標(biāo)準(zhǔn) ASL-3。這一標(biāo)準(zhǔn)旨在限制 AI 系統(tǒng)顯著提升普通 STEM 背景個(gè)體獲取、制造或部署化學(xué)、生物或核武器的能力。
安全措施包括加強(qiáng)網(wǎng)絡(luò)安全、防止“越獄”(jailbreak)行為,以及新增系統(tǒng)檢測(cè)并拒絕有害請(qǐng)求。Kaplan 坦言,公司尚未完全確定模型是否構(gòu)成嚴(yán)重生物武器風(fēng)險(xiǎn),但寧愿采取謹(jǐn)慎態(tài)度。如果后續(xù)測(cè)試證明風(fēng)險(xiǎn)較低,Anthropic 可能將安全級(jí)別降至 ASL-2。
Anthropic 長(zhǎng)期關(guān)注 AI 技術(shù)被濫用的風(fēng)險(xiǎn),并為此制定了“責(zé)任擴(kuò)展政策”(Responsible Scaling Policy,簡(jiǎn)稱 RSP),承諾在安全措施到位前限制某些模型的發(fā)布。
Anthropic 的 RSP 政策雖屬自愿,但被視為 AI 行業(yè)內(nèi)少有的約束機(jī)制。公司通過“深度防御”策略,疊加“憲法分類器”(constitutional classifiers)等多重安全系統(tǒng),專門檢測(cè)用戶輸入和模型輸出中的危險(xiǎn)內(nèi)容。
此外,公司還監(jiān)控用戶行為,封禁試圖越獄模型的用戶,并推出賞金計(jì)劃獎(jiǎng)勵(lì)發(fā)現(xiàn)“通用越獄”漏洞的研究者。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
海報(bào)生成中...
海藝AI的模型系統(tǒng)在國際市場(chǎng)上廣受好評(píng),目前站內(nèi)累計(jì)模型數(shù)超過80萬個(gè),涵蓋寫實(shí)、二次元、插畫、設(shè)計(jì)、攝影、風(fēng)格化圖像等多類型應(yīng)用場(chǎng)景,基本覆蓋所有主流創(chuàng)作風(fēng)格。
9月9日,國際權(quán)威市場(chǎng)調(diào)研機(jī)構(gòu)英富曼(Omdia)發(fā)布了《中國AI云市場(chǎng),1H25》報(bào)告。中國AI云市場(chǎng)阿里云占比8%位列第一。
9月24日,華為坤靈召開“智能體驗(yàn),一屏到位”華為IdeaHub千行百業(yè)體驗(yàn)官計(jì)劃發(fā)布會(huì)。
IDC今日發(fā)布的《全球智能家居清潔機(jī)器人設(shè)備市場(chǎng)季度跟蹤報(bào)告,2025年第二季度》顯示,上半年全球智能家居清潔機(jī)器人市場(chǎng)出貨1,2萬臺(tái),同比增長(zhǎng)33%,顯示出品類強(qiáng)勁的市場(chǎng)需求。