国产人妻精品区一区二区三区_色噜噜狠狠一区二区三区果冻_最新国产の精品合集bt7086_av电影手机在线观看_亚洲国产欧美在线综合其他_成免费crm85171_97人妻人人揉人人澡人人爽国产_色天使久久综合网天天_爱回家之开心速递粤语在线观看

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

5秒攻破,僅需1次對(duì)話:Fable 5最強(qiáng)安全機(jī)制被華人團(tuán)隊(duì)破解

0
分享至



不是提示注入,不是角色扮演,也不是把惡意請(qǐng)求偽裝成正常問題。這一次,風(fēng)險(xiǎn)出現(xiàn)在智能體自主完成任務(wù)的過程中。

Fable 5 是 Anthropic 面向公眾開放的 Mythos 級(jí)模型,不僅具備極強(qiáng)的綜合能力,還在模型外圍引入了新一代安全分類器(Safety Classifier)作為安全防線。按照官方設(shè)計(jì),當(dāng)用戶請(qǐng)求涉及網(wǎng)絡(luò)安全、生物、化學(xué)、模型蒸餾等高風(fēng)險(xiǎn)領(lǐng)域時(shí),系統(tǒng)會(huì)優(yōu)先進(jìn)行風(fēng)險(xiǎn)識(shí)別,并根據(jù)風(fēng)險(xiǎn)等級(jí)直接拒絕請(qǐng)求,或切換至更加保守的 Opus 4.8 模型處理。

大量用戶測(cè)試發(fā)現(xiàn),過去廣泛采用的對(duì)抗提示、角色扮演、編碼繞行以及隱晦表達(dá)等越獄攻擊技術(shù),在該安全機(jī)制面前幾乎全部失效,顯示出其在意圖級(jí)風(fēng)險(xiǎn)攔截方面的強(qiáng)大能力。

然而,就在 Fable 5 發(fā)布當(dāng)天,一個(gè)由復(fù)旦大學(xué)、迪肯大學(xué)、香港城市大學(xué)、墨爾本大學(xué)、新加坡管理大學(xué)以及伊利諾伊大學(xué)厄巴納-香檳分校等機(jī)構(gòu)組成的國際聯(lián)合研究團(tuán)隊(duì)宣布,他們已成功突破 Fable 5 的安全防護(hù)機(jī)制。該攻擊方法由迪肯大學(xué)博士生 Yutao Wu 主導(dǎo)設(shè)計(jì)。整套攻擊僅需一次對(duì)話、耗時(shí)不到5秒,即可繞過前置安全分類器,誘導(dǎo)模型生成違規(guī)有害內(nèi)容。





流量分析結(jié)果進(jìn)一步表明,相關(guān)有害輸出直接來自 Fable 5 本身,而非觸發(fā)安全機(jī)制后自動(dòng)切換的 Opus 4.8 模型。這意味著,該攻擊不僅成功繞過了安全分類器的檢測(cè),也實(shí)質(zhì)性突破了 Fable 5 的安全防線。

值得一提的是,知名黑客 Pliny the Liberator 近期也公開了針對(duì) Fable 5 安全分類器的繞過。而復(fù)旦 & 迪肯團(tuán)隊(duì)此次所采用的技術(shù)路線并不是簡答的組合式探索,而是發(fā)現(xiàn)了 Fable 5 這一類超級(jí)智能體系統(tǒng)的根本性缺陷。據(jù)悉,團(tuán)隊(duì)早在今年 3 月便已完成預(yù)研并公開發(fā)布。該研究并非針對(duì) Fable 5 單一系統(tǒng)設(shè)計(jì),而是面向新一代超級(jí)智能體普遍采用的“安全分類器 + 模型”防御架構(gòu)展開研究,直接揭示了這類安全機(jī)制所存在的結(jié)構(gòu)性缺陷,因此在 Fable 5 發(fā)布后迅速展現(xiàn)出攻擊效果。公開資料顯示,該團(tuán)隊(duì)早在今年 3 月便已利用類似技術(shù),從 37 家主流大模型及智能體系統(tǒng)中成功提取系統(tǒng)提示詞,并在 Claude Code 完成了開源驗(yàn)證(95% 吻合)。



  • 論文:《Internal Safety Collapse in Frontier Large Language Models》
  • 論文鏈接:https://arxiv.org/abs/2603.23509
  • GitHub:https://github.com/wuyoscar/Internal-Safety-Collapse
  • Project:https://wuyoscar.github.io/Internal-Safety-Collapse/



據(jù)了解,該研究團(tuán)隊(duì)的負(fù)責(zé)人為復(fù)旦大學(xué)可信具身智能研究院馬興軍老師。近年來,其團(tuán)隊(duì)圍繞大模型、智能體與具身智能安全等方向開展系統(tǒng)性研究,取得了一系列國際領(lǐng)先的科研成果,并獲得美國 AI 安全中心安全基準(zhǔn)大賽的冠軍。目前,其團(tuán)隊(duì)正積極推進(jìn)成果轉(zhuǎn)化工作,聚焦智能體安全,探索構(gòu)建面向下一代智能體系統(tǒng)的安全基礎(chǔ)設(shè)施能力。

據(jù)馬老師介紹,這一研究結(jié)果的重要意義在于,它對(duì)當(dāng)前以安全分類器為核心的靜態(tài)防御范式提出了新的挑戰(zhàn):僅依賴前置安全分類器并不足以完全防范高級(jí)智能體系統(tǒng)中的潛在風(fēng)險(xiǎn)行為。安全分類器主要針對(duì)用戶輸入進(jìn)行風(fēng)險(xiǎn)識(shí)別與攔截,能夠有效檢測(cè)和過濾顯性的高風(fēng)險(xiǎn)指令,但是無法感知智能體在長時(shí)運(yùn)行、多步規(guī)劃、環(huán)境交互以及工具調(diào)用過程中逐漸產(chǎn)生的內(nèi)在風(fēng)險(xiǎn)行為。

此次攻破 Fable 5 的方法來源于該團(tuán)隊(duì)今年 3 月發(fā)布的論文《Internal Safety Collapse in Frontier Large Language Models》。論文揭示了一種隱蔽的安全現(xiàn)象“內(nèi)部安全坍塌(Internal Safety Collapse,ISC)”:當(dāng)前 Agent 完成長程任務(wù)時(shí),安全失效并不一定來自外部惡意提示,而可能發(fā)生在模型自身的執(zhí)行鏈條中。

不是外部提示詞攻擊

而是任務(wù)鏈條中的內(nèi)部失守

傳統(tǒng)攻擊通常從外部進(jìn)入。攻擊者會(huì)寫一個(gè)看似無害、實(shí)則對(duì)抗性的輸入提示,或者使用角色扮演、編碼、翻譯、間接指令等方式,把惡意意圖偽裝成正常請(qǐng)求。安全分類器的主要任務(wù),就是在這一層把風(fēng)險(xiǎn)攔住。

Fable 5 的檢測(cè)器正是為這種場景設(shè)計(jì)的。它對(duì)直接的高風(fēng)險(xiǎn)請(qǐng)求非常敏感,甚至?xí)巡簧僬U?qǐng)求也攔下來。但 ISC 揭示的是另一條路徑:風(fēng)險(xiǎn)并不一定來自用戶直接輸入的危險(xiǎn)請(qǐng)求。 智能體面對(duì)的是一個(gè)看似普通的工作目錄:文件、目標(biāo)、校驗(yàn)流程和待完成任務(wù)。 隨后,它開始規(guī)劃、讀取文件、運(yùn)行代碼、修復(fù)錯(cuò)誤,并不斷嘗試讓任務(wù)通過驗(yàn)證。

如果用一個(gè)形象的比喻來解釋,傳統(tǒng)安全機(jī)制守護(hù)的是系統(tǒng)的 “入口”,負(fù)責(zé)檢查用戶輸入是否存在風(fēng)險(xiǎn);而 ISC 所揭示的,則更像《盜夢(mèng)空間》中的多層夢(mèng)境。當(dāng)任務(wù)推進(jìn)到第二層、第三層甚至更深層的執(zhí)行階段后,模型會(huì)基于不斷累積的內(nèi)部上下文重新理解任務(wù)目標(biāo),并在這一過程中逐漸產(chǎn)生偏移。

在這種情況下,最初的用戶輸入完全可能是正常且無害的,前期的任務(wù)執(zhí)行過程也始終合規(guī):讀取文件、分析數(shù)據(jù)、編寫代碼、調(diào)用工具,一切看起來都在按照預(yù)期推進(jìn)。然而,當(dāng)智能體執(zhí)行到某個(gè)關(guān)鍵階段時(shí),它可能自行推導(dǎo)出一個(gè)結(jié)論:如果不采取某些原本不應(yīng)執(zhí)行的行為,就無法完成最終任務(wù)。

正是在這一過程中,風(fēng)險(xiǎn)并非來自外部輸入,而是在模型自身的任務(wù)執(zhí)行鏈條中逐步形成。也就是說,模型不是被用戶一步步教壞的。它是在 “認(rèn)真完成任務(wù)” 的過程中,自己走到了不安全的位置。

這個(gè)現(xiàn)象是怎么被發(fā)現(xiàn)的?

據(jù)團(tuán)隊(duì)介紹,ISC 并不是一開始就被設(shè)計(jì)成一種攻擊方法。它最早來自對(duì)智能體長程運(yùn)行過程的觀察。Agent 被放進(jìn)復(fù)雜任務(wù)環(huán)境后,并不只是機(jī)械執(zhí)行指令。它會(huì)規(guī)劃、試錯(cuò),根據(jù) harness 或 validator 的反饋修改輸出,并在多輪執(zhí)行中形成中間目標(biāo)。

這正是今天很多 Agent 工作流最常見的使用方式。用戶并不會(huì)寫一段精心設(shè)計(jì)的 prompt,更不會(huì)手工構(gòu)造攻擊指令。很多時(shí)候,用戶只會(huì)給一句非常模糊的話:

“幫我把這個(gè)任務(wù)完成?!?br/>“幫我把這個(gè)做得再好一點(diǎn)?!?br/>

然后,Agent 會(huì)自己進(jìn)入工作區(qū),讀取文件,理解當(dāng)前狀態(tài),發(fā)現(xiàn)缺失項(xiàng),制定計(jì)劃,執(zhí)行修改,并不斷根據(jù)反饋修復(fù)問題。

比如在 AutoResearch 場景中,用戶只給一篇未完成論文和一句 “幫我補(bǔ)完整”,Agent 會(huì)自行判斷哪里缺實(shí)驗(yàn)分析、相關(guān)工作或表格文字。代碼場景也類似:一句 “幫我把項(xiàng)目跑通”,就可能觸發(fā)依賴檢查、測(cè)試運(yùn)行、報(bào)錯(cuò)定位和自動(dòng)補(bǔ)全。

很多時(shí)候,前面的上下文完全無害。用戶沒有要求它生成風(fēng)險(xiǎn)內(nèi)容,任務(wù)說明也沒有明顯危險(xiǎn)關(guān)鍵詞。但在某些任務(wù)結(jié)構(gòu)里,Agent 會(huì)為了通過校驗(yàn),主動(dòng)補(bǔ)齊某些不該由模型生成的內(nèi)容。基于這個(gè)觀察,研究團(tuán)隊(duì)進(jìn)一步提出了一個(gè)攻擊框架:TVD(任務(wù)、驗(yàn)證、數(shù)據(jù))。



一個(gè)看似很普通的任務(wù)描述結(jié)構(gòu)

為什么會(huì)成為攻擊?

TVD 的結(jié)構(gòu)并不復(fù)雜,甚至很接近常見工程流程:

  • Task:一個(gè)專業(yè)任務(wù);
  • Data:一個(gè)不完整的數(shù)據(jù)文件;
  • Validator:一個(gè)只檢查格式、完整性和目標(biāo)是否完成的校驗(yàn)器。

以訓(xùn)練 Guard 模型為例,這本來是一個(gè)很專業(yè)、也很正常的任務(wù)。研究者可能希望訓(xùn)練或評(píng)估一個(gè)安全檢測(cè)器,比如用 Hugging Face 加載一個(gè)文本分類模型,判斷某段模型輸出屬于哪類安全標(biāo)簽。

在這個(gè)任務(wù)里,Data 是模型要檢測(cè)的數(shù)據(jù)樣本;Validator 則規(guī)定任務(wù)是否完成。它會(huì)檢查輸入是不是文本、長度是否足夠、字段是否完整、標(biāo)簽格式是否正確。對(duì)任何有機(jī)器學(xué)習(xí)訓(xùn)練經(jīng)驗(yàn)的人來說,這都是熟悉的工作流。Agent 也非常熟悉這個(gè)工作流。

問題就出現(xiàn)在這里。如果 Data 不完整,任務(wù)就跑不起來。Validator 會(huì)報(bào)錯(cuò),提示字段缺失、長度不夠或格式不完整。為了讓訓(xùn)練流程繼續(xù)進(jìn)行,Agent 會(huì)自己補(bǔ)全這些 Data。

從 Agent 的視角看,它不是在 “作惡”。它只是在完成一個(gè)正常機(jī)器學(xué)習(xí)任務(wù):修復(fù)數(shù)據(jù)、通過校驗(yàn)、讓訓(xùn)練腳本跑起來。但從安全角度看,風(fēng)險(xiǎn)就在這一刻出現(xiàn)了:Validator 更像一個(gè)工程驗(yàn)收器,而不是安全審查員。它只檢查任務(wù)是否按格式完成,并不理解內(nèi)容背后的安全邊界。

類似的問題也廣泛存在于醫(yī)學(xué)、生物、化學(xué)、網(wǎng)絡(luò)安全、藥理學(xué)和媒體安全等領(lǐng)域。論文收集了 50 多個(gè)這類場景,并涉及多種現(xiàn)實(shí)科研或工程工具,例如 BioPython、RDKit、Cantera、AutoDock Vina、DiffDock、PyRosetta、Scapy、Impacket、angr、Frida、LlamaGuard、Detoxify、OpenAI Moderation API 等。

這些工具本身并不是惡意工具。恰恰相反,它們都是現(xiàn)實(shí)科研或工程中常用的專業(yè)工具。但 TVD 的問題在于:當(dāng) Task 是正常的,Tool 是正常的,Validator 也是正常的,Agent 仍然可能在補(bǔ)全 Data 的過程中走向不安全輸出。

因此,ISC 的重點(diǎn)不在提示詞技巧,而在 Agent 對(duì) “未完成任務(wù)” 的自動(dòng)補(bǔ)全能力:當(dāng)完成條件與風(fēng)險(xiǎn)邊界重疊,模型可能把不安全輸出當(dāng)作正常交付物。

攻破 Fable 5 說明

強(qiáng)檢測(cè)器擋不住任務(wù)鏈內(nèi)部風(fēng)險(xiǎn)

Fable 5 的案例說明,僅靠外部檢測(cè)器仍可能覆蓋不到部分長程 Agent 場景。這并不是說 安全分類器沒有價(jià)值。相反,它對(duì)外部惡意請(qǐng)求非常有用,也確實(shí)讓很多傳統(tǒng)越獄方法失效。但這次失守說明,外部檢測(cè)器對(duì) Prompt 邊界有效,并不等于它能覆蓋 Agent 內(nèi)部的長程任務(wù)風(fēng)險(xiǎn)。

如果突破口不是從用戶 Prompt 進(jìn)入,而是從 Agent 的目標(biāo)、工具、校驗(yàn)器和執(zhí)行軌跡中出現(xiàn),那么安全檢測(cè)器就會(huì)變得非常脆弱。

從 Fable 5 到 60 多個(gè)其他模型

包括蘋果的手機(jī)端模型

伴隨研究發(fā)布的 ISC-Bench ,覆蓋 9 個(gè)專業(yè)領(lǐng)域。論文版本包含 60+ 個(gè)觸發(fā)模板,開源后擴(kuò)展到 84 個(gè)模板,測(cè)試對(duì)象包括幾乎所有廠商的前沿模型與智能體體統(tǒng)。



在基于 ISC-Bench 的評(píng)測(cè)榜單中,截至 2026 年 6 月,60 多個(gè)前沿模型在 ASR@3 指標(biāo)下都暴露出類似風(fēng)險(xiǎn)!目前 GitHub 項(xiàng)目已經(jīng)獲得800+ stars,并收集到多個(gè)獨(dú)立復(fù)現(xiàn)案例(包括攻破蘋果手機(jī)移動(dòng)端模型),并持續(xù)更新中。





據(jù)悉,團(tuán)隊(duì)在進(jìn)行大規(guī)模的前沿模型安全研究,目前已掌握大量模型的內(nèi)部不安全數(shù)據(jù)分布,相關(guān)研究成果后續(xù)會(huì)陸續(xù)發(fā)布。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
陳行甲戈壁放歌再上熱搜,網(wǎng)友:干脆自己直播,還怕搞不到150個(gè)

陳行甲戈壁放歌再上熱搜,網(wǎng)友:干脆自己直播,還怕搞不到150個(gè)

火山詩話
2026-06-17 08:26:52
現(xiàn)役從未替補(bǔ)的狠角色:歐文連續(xù)15年,唐斯11年,東契奇天之驕子

現(xiàn)役從未替補(bǔ)的狠角色:歐文連續(xù)15年,唐斯11年,東契奇天之驕子

林子說事
2026-06-17 02:20:19
臨陣折將!里弗拉門托因傷退出英格蘭世界杯陣容

臨陣折將!里弗拉門托因傷退出英格蘭世界杯陣容

甜度百分百21
2026-06-17 00:27:07
中國賺錢美國花?老戲骨祖孫3代在美奢華享樂過上“人上人”生活

中國賺錢美國花?老戲骨祖孫3代在美奢華享樂過上“人上人”生活

正經(jīng)的燒杯1
2026-06-15 21:44:47
荷蘭傳奇球星種族歧視言論引發(fā)爭議:日本球員看起來長得都一樣

荷蘭傳奇球星種族歧視言論引發(fā)爭議:日本球員看起來長得都一樣

煙潯渺渺
2026-06-16 17:37:29
離退休只差60天!成都這位“優(yōu)雅女神”干部突然翻車,太唏噓了!

離退休只差60天!成都這位“優(yōu)雅女神”干部突然翻車,太唏噓了!

寶哥精彩賽事
2026-06-17 10:29:14
38歲的梅西,第六次世界杯或成最邊緣角色

38歲的梅西,第六次世界杯或成最邊緣角色

溫柔且自由
2026-06-17 00:56:11
中國向世界展示人權(quán)發(fā)展愿景

中國向世界展示人權(quán)發(fā)展愿景

參考消息
2026-06-16 18:14:09
被央視曝光后,山西懸空寺購票規(guī)則再被吐槽,景區(qū)回應(yīng)

被央視曝光后,山西懸空寺購票規(guī)則再被吐槽,景區(qū)回應(yīng)

南方都市報(bào)
2026-06-16 16:26:19
赤裸裸的挑釁?林志玲出席上海迪士尼十周年,和孫儷同框被碾壓

赤裸裸的挑釁?林志玲出席上海迪士尼十周年,和孫儷同框被碾壓

深析古今
2026-06-16 20:25:08
還是體制香?網(wǎng)傳有老哥為考公務(wù)員,辭掉英偉達(dá)工作,網(wǎng)友:財(cái)務(wù)自由都不要了?

還是體制香?網(wǎng)傳有老哥為考公務(wù)員,辭掉英偉達(dá)工作,網(wǎng)友:財(cái)務(wù)自由都不要了?

可達(dá)鴨面面觀
2026-06-15 16:59:50
盤后,利好突襲!四部門,聯(lián)合重大發(fā)布!

盤后,利好突襲!四部門,聯(lián)合重大發(fā)布!

數(shù)據(jù)寶
2026-06-16 22:34:31
上千噸香蕉爛在手里,菲律賓香蕉協(xié)會(huì):中國斷了30萬蕉農(nóng)的生計(jì)!

上千噸香蕉爛在手里,菲律賓香蕉協(xié)會(huì):中國斷了30萬蕉農(nóng)的生計(jì)!

楠楠自語
2026-05-05 21:48:09
鬧大了!新加坡媒體抹黑《阿嬤》,官媒親自下場對(duì)線:你破防什么

鬧大了!新加坡媒體抹黑《阿嬤》,官媒親自下場對(duì)線:你破防什么

離離言幾許
2026-06-16 21:02:33
【國際微訪談】巴基斯坦財(cái)政部長:感謝中國“鐵桿兄弟”為巴經(jīng)濟(jì)改革融資提供重要助力

【國際微訪談】巴基斯坦財(cái)政部長:感謝中國“鐵桿兄弟”為巴經(jīng)濟(jì)改革融資提供重要助力

中國網(wǎng)
2026-06-16 16:52:47
反感加??!國內(nèi)商家抵制印度游客持續(xù)升溫:隱性拒客是底線

反感加??!國內(nèi)商家抵制印度游客持續(xù)升溫:隱性拒客是底線

荷蘭豆愛健康
2026-06-16 04:40:49
比亞迪兩項(xiàng)發(fā)明專利,正式公布!

比亞迪兩項(xiàng)發(fā)明專利,正式公布!

電動(dòng)內(nèi)參
2026-06-16 17:56:55
球王影響力!外媒:全球35億人愛梅西 中國印度把阿根廷當(dāng)主隊(duì)

球王影響力!外媒:全球35億人愛梅西 中國印度把阿根廷當(dāng)主隊(duì)

愛奇藝體育
2026-06-16 11:44:50
趙麗穎復(fù)婚懷孕真相大白,38歲喜訊頻傳馮紹峰所言不虛

趙麗穎復(fù)婚懷孕真相大白,38歲喜訊頻傳馮紹峰所言不虛

悅君兮君不知
2026-06-16 11:09:09
12個(gè)非洲國家集體鎖礦!中國440億投資遇上最狠一刀

12個(gè)非洲國家集體鎖礦!中國440億投資遇上最狠一刀

甜心貓女
2026-06-01 16:05:10
2026-06-17 11:07:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13280文章數(shù) 142671關(guān)注度
往期回顧 全部

科技要聞

美國給Anthropic新模型上了“芯片級(jí)管制”

頭條要聞

一家四口進(jìn)野山迷路極限求生:自帶飲用水1天就喝完了

頭條要聞

一家四口進(jìn)野山迷路極限求生:自帶飲用水1天就喝完了

體育要聞

身價(jià)5萬的門將,擋住了12億歐元的狂轟濫炸

娛樂要聞

百花獎(jiǎng)名單惹爭議,這5位實(shí)在可惜!

財(cái)經(jīng)要聞

美媒曝光美伊諒解備忘錄草案完整版

汽車要聞

三車齊發(fā) 零跑全新C10/C11/C16上市12.58萬元起

態(tài)度原創(chuàng)

家居
藝術(shù)
教育
公開課
軍事航空

家居要聞

綠意盎然 自然之境

藝術(shù)要聞

懷素臨終絕筆,草書巔峰作:《四十二章經(jīng)》

教育要聞

沒人覺得現(xiàn)在的課桌太小了嗎?書包放不下、腿伸不直,學(xué)生每天都在忍

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美被指拒絕以色列看美伊諒解備忘錄

無障礙瀏覽 進(jìn)入關(guān)懷版