国产人妻精品区一区二区三区_色噜噜狠狠一区二区三区果冻_最新国产の精品合集bt7086_av电影手机在线观看_亚洲国产欧美在线综合其他_成免费crm85171_97人妻人人揉人人澡人人爽国产_色天使久久综合网天天_爱回家之开心速递粤语在线观看

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

當(dāng)AI Agent開始工作,安全該如何跟上?AgentDoG 1.5開源發(fā)布

0
分享至



最近,同事.skill(colleague.skill)在社區(qū)中的快速傳播,讓很多人開始直觀地感受到:AI Agent 正在從「聊天助手」走向「工作伙伴」。

Agent 不再只是回答問題,而是可以繼承一個(gè)人的工作習(xí)慣、任務(wù)流程、知識(shí)背景和決策方式,并在 Claude Code、Hermes、OpenClaw、Codex 等 Agent 宿主中被調(diào)用。

換句話說(shuō),Agent 正在逐漸成為一種新的工作單元:它可以協(xié)助人類完成任務(wù),也可能在某些場(chǎng)景中接管一部分具體工作。

與此同時(shí),安全問題也變得更加復(fù)雜。過(guò)去討論大模型安全,很多時(shí)候是在判斷一段用戶輸入是否有害,或者一段模型輸出是否合規(guī)。但進(jìn)入 Agent 時(shí)代后,風(fēng)險(xiǎn)不再只存在于一句 prompt 或一個(gè)最終回復(fù)里。它可能隱藏在工具描述中,出現(xiàn)在環(huán)境反饋里,被寫入長(zhǎng)期記憶或會(huì)話狀態(tài),也可能通過(guò)一次錯(cuò)誤的工具調(diào)用、一次未經(jīng)驗(yàn)證的命令執(zhí)行、一次跨應(yīng)用操作,影響真實(shí)文件、賬戶、代碼倉(cāng)庫(kù)甚至業(yè)務(wù)系統(tǒng)。

因此,Agent 安全不再只是「內(nèi)容安全」,而是完整執(zhí)行過(guò)程中的行為診斷、風(fēng)險(xiǎn)歸因和在線干預(yù)問題。

圍繞這一問題,上海人工智能實(shí)驗(yàn)室發(fā)布 AgentDoG 1.5:一個(gè)面向 AI Agent 的輕量化、可擴(kuò)展安全診斷與在線護(hù)欄框架。論文已上線 arXiv,代碼、模型與數(shù)據(jù)均已開源。





  • 論文鏈接:https://arxiv.org/abs/2605.29801
  • 項(xiàng)目鏈接:https://github.com/AI45Lab/AgentDoG
  • Hugging Face:https://huggingface.co/collections/AI45Research/agentdog15

從「看輸出」到「看軌跡」

AgentDoG 1.5 的核心出發(fā)點(diǎn)是:Agent 的安全風(fēng)險(xiǎn)往往發(fā)生在完整執(zhí)行過(guò)程中,而不是只發(fā)生在 Agent 的最終回復(fù)里。一個(gè) Agent 可能在最終回復(fù)中看起來(lái)正常,但此前已經(jīng)錯(cuò)誤調(diào)用了工具、泄露了信息、執(zhí)行了危險(xiǎn)命令,或者被外部環(huán)境中的惡意內(nèi)容誘導(dǎo)發(fā)生目標(biāo)偏移。

因此,面向 Agent 的安全評(píng)測(cè),不能只看最終輸出,而應(yīng)該把完整 agent trajectory 作為判斷對(duì)象。

在 AgentDoG 1.5 中,模型會(huì)綜合分析用戶請(qǐng)求、Agent 中間響應(yīng)、工具調(diào)用、環(huán)境反饋和最終回復(fù),對(duì)整條軌跡進(jìn)行安全診斷。它不僅判斷一條軌跡是 safe 還是 unsafe,還進(jìn)一步輸出三類細(xì)粒度診斷信息:Risk Source,即風(fēng)險(xiǎn)從哪里來(lái);Failure Mode,即 Agent 是如何失敗的;Real-world Harm,即這種失敗會(huì)造成什么現(xiàn)實(shí)危害。

通過(guò)這種三維診斷,安全判斷不再只是一個(gè)二分類結(jié)果,而可以進(jìn)一步支持風(fēng)險(xiǎn)定位、模型訓(xùn)練、benchmark 構(gòu)建和部署階段的在線攔截。

面向快速變化的 Agent 平臺(tái),taxonomy 也必須可擴(kuò)展



Agent 系統(tǒng)的發(fā)展速度很快,不同執(zhí)行平臺(tái)面對(duì)的風(fēng)險(xiǎn)也并不相同。通用 tool-use agent、OpenClaw 這類跨應(yīng)用執(zhí)行 Agent、Codex 這類面向代碼倉(cāng)庫(kù)和命令執(zhí)行的 Agent,在執(zhí)行環(huán)境、工具邊界、狀態(tài)管理和潛在危害上都有明顯差異。如果每出現(xiàn)一個(gè)新 Agent 平臺(tái),就重新設(shè)計(jì)一套安全標(biāo)簽和評(píng)測(cè)任務(wù),整個(gè) guardrail 體系會(huì)很快碎片化。

AgentDoG 1.5 采用的方式是:保持 Risk Source、Failure Mode、Real-world Harm 這三個(gè)高層維度不變,在不同執(zhí)行場(chǎng)景下擴(kuò)展和細(xì)化 leaf categories。

例如,在 OpenClaw 場(chǎng)景中,風(fēng)險(xiǎn)可能來(lái)自持久會(huì)話、審批繞過(guò)、技能或插件供應(yīng)鏈、跨工具攻擊鏈、跨通道路由錯(cuò)誤,或者無(wú)人值守自動(dòng)化執(zhí)行;在 Codex 場(chǎng)景中,風(fēng)險(xiǎn)則可能來(lái)自倉(cāng)庫(kù)文件注入、依賴或 MCP 供應(yīng)鏈問題、危險(xiǎn) shell/script 執(zhí)行、破壞性工作區(qū)修改,以及未經(jīng)驗(yàn)證的測(cè)試或成功聲明。



基于這一思路,論文進(jìn)一步構(gòu)建了 ATBench Family。ATBench 面向通用 tool-use agent,ATBench-Claw 面向 OpenClaw 執(zhí)行場(chǎng)景,ATBench-Codex 面向 Codex 執(zhí)行場(chǎng)景。三者共享同一個(gè) trajectory-level diagnosis task 和三維 taxonomy 框架,同時(shí)針對(duì)不同執(zhí)行環(huán)境擴(kuò)展具體風(fēng)險(xiǎn)類別。這使得 AgentDoG 1.5 能夠在保持跨場(chǎng)景可比性的同時(shí),持續(xù)適配新的 Agent 平臺(tái)。

只用約 1k 高質(zhì)量樣本,訓(xùn)練輕量 AgentDoG 1.5

在訓(xùn)練 AgentDoG 1.5 時(shí),論文沒有簡(jiǎn)單依賴大規(guī)模數(shù)據(jù)堆疊,而是構(gòu)建了 taxonomy-guided data engine,通過(guò)三維 taxonomy 控制數(shù)據(jù)生成過(guò)程。換言之,風(fēng)險(xiǎn)從哪里進(jìn)入、Agent 如何失敗、會(huì)造成什么 real-world harm,都在數(shù)據(jù)構(gòu)造階段被系統(tǒng)性建模。隨后,團(tuán)隊(duì)使用 GPT-5.4 作為 teacher,為訓(xùn)練樣本補(bǔ)充 chain-of-thought rationale,讓學(xué)生模型不僅學(xué)習(xí)最終 judgment,也學(xué)習(xí)從軌跡證據(jù)到安全判斷的推理過(guò)程。

由于原始合成數(shù)據(jù)往往存在噪聲、冗余和低價(jià)值樣本,AgentDoG 1.5 進(jìn)一步引入 influence function-based data purification,從原始數(shù)據(jù)中篩選最有助于學(xué)習(xí) guardrail 行為的高質(zhì)量樣本。

最終,AgentDoG 1.5 僅使用約 1k 條高信息量樣本,訓(xùn)練了 0.8B、2B、4B 和 8B 等多個(gè)輕量模型版本。

實(shí)驗(yàn)結(jié)果顯示,AgentDoG 1.5 在軌跡級(jí)安全判斷和細(xì)粒度風(fēng)險(xiǎn)診斷上均取得了強(qiáng)表現(xiàn)。

以 4B 模型為例,其在 R-Judge 上達(dá)到 92.2% Accuracy 和 92.7% F1,在 ATBench 上達(dá)到 72.4% Accuracy 和 74.3% F1;在 fine-grained risk diagnosis 上,AgentDoG 1.5-4B 在 Risk Source、Failure Mode、Real-world Harm 三個(gè)維度的平均得分達(dá)到 55.2%,相比 AgentDoG 1.0 有明顯提升。

這些結(jié)果表明,貼近 Agent 風(fēng)險(xiǎn)結(jié)構(gòu)的數(shù)據(jù)和監(jiān)督信號(hào),可以把可靠的 agent safety judgment 能力蒸餾到較小規(guī)模的模型中。



構(gòu)建輕量級(jí) Agent 訓(xùn)練管線,支持超一萬(wàn)并發(fā)

AgentDoG 1.5 不只用于離線評(píng)測(cè),也被進(jìn)一步接入到 agentic safety training pipeline 中。該訓(xùn)練 pipeline 包含兩個(gè)部分:一是面向 SFT 的高質(zhì)量安全數(shù)據(jù)過(guò)濾,二是面向 RL 的輕量化交互環(huán)境與安全 reward 構(gòu)造。通過(guò)這一 pipeline,AgentDoG 1.5 可以把軌跡級(jí)安全診斷能力轉(zhuǎn)化為訓(xùn)練階段的監(jiān)督信號(hào),支持更低成本、更可擴(kuò)展的 Agent 安全對(duì)齊。

在 SFT 階段,團(tuán)隊(duì)使用 ATBench data engine 構(gòu)造 agentic safety 數(shù)據(jù),并利用 AgentDoG 1.5 過(guò)濾高質(zhì)量 safe trajectories。過(guò)濾后得到 28,705 條高質(zhì)量 agentic safety trajectories,并與 50,000 條 benign tool-use trajectories 混合,以避免模型學(xué)成過(guò)度保守的拒絕策略。

實(shí)驗(yàn)顯示,加入 AgentDoG 1.5 過(guò)濾后的安全數(shù)據(jù)后,模型在多個(gè)安全指標(biāo)上明顯改善。例如,在 AgentHarm 上,harm score 從 57.49% 降至 20.32%,refusal rate 從 28.41% 提升至 75.00%;在 AgentSafetyBench 上,safe rate 從 34.37% 提升至 53.23%。

這說(shuō)明AgentDoG 1.5 不只是一個(gè)評(píng)測(cè)模型,也可以作為數(shù)據(jù)質(zhì)量控制模塊參與安全訓(xùn)練流程。



在 RL 階段,論文構(gòu)建了輕量化 finite-state Python simulator 環(huán)境,用于支持 scalable agentic safety RL。相比依賴完整 Docker-level 環(huán)境的真實(shí)執(zhí)行訓(xùn)練,這類輕量環(huán)境通過(guò)有限狀態(tài)模擬、工具接口和規(guī)則化反饋來(lái)構(gòu)造可擴(kuò)展的交互任務(wù),并結(jié)合 AgentDoG 1.5 提供的軌跡級(jí)安全判斷形成 reward signal。

實(shí)驗(yàn)中,該環(huán)境可同時(shí)加載 10,000 個(gè)環(huán)境、維護(hù) 1,000 個(gè)活躍實(shí)例,并支持 1,000 個(gè)并發(fā)工具調(diào)用,峰值內(nèi)存保持在 2.5GB 以下。這一設(shè)計(jì)顯著降低了 agentic safety RL 的環(huán)境部署成本,使大規(guī)模安全訓(xùn)練更加可行。




構(gòu)筑 Agent 最后防線:在線安全護(hù)欄




AgentDoG 1.5 不僅可以支持 Agent 訓(xùn)練,還可以部署為 online guardrail。論文提出一種Pre-Reply 介入機(jī)制:在 Agent 最終回復(fù)發(fā)送給用戶之前,AgentDoG 1.5 會(huì)讀取完整執(zhí)行軌跡,包括用戶輸入、工具調(diào)用、工具結(jié)果、環(huán)境觀察和最終草稿,并判斷是否允許放行。

這樣既能利用比 prompt-level 或 output-only guardrail 更完整的上下文,又避免在每一次工具調(diào)用后都插入檢測(cè),從而降低對(duì) agent loop 的延遲影響。

在 OpenClaw 在線評(píng)測(cè)中,AgentDoG 1.5 能有效降低 unsafe final deliveries。AgentDoG 1.5-4B 將 ClawSafety 的 ASR 從 56.25% 降至 18.75%,將 AgentHazard Prompt Intelligence Theft 的 ASR 從 41.92% 降至 26.92%,并在 CIK-Bench retained cases 上將 ASR 從 94.29% 降至 42.86%。受益于 Pre-Reply 的設(shè)計(jì),AgentDoG 1.5 整體延遲在可部署范圍內(nèi)。



為什么這件事重要?

AI Agent 的能力正在從「生成內(nèi)容」走向「執(zhí)行任務(wù)」。當(dāng) Agent 能夠調(diào)用真實(shí)工具、訪問真實(shí)文件、觸達(dá)真實(shí)系統(tǒng)時(shí),安全問題也隨之升級(jí):它不再只是內(nèi)容審核問題,而是執(zhí)行過(guò)程中的行為診斷、風(fēng)險(xiǎn)歸因和在線干預(yù)問題。

AgentDoG 1.5 的貢獻(xiàn)在于,它把這些環(huán)節(jié)串成了一個(gè)完整閉環(huán):用三維 taxonomy 描述風(fēng)險(xiǎn),用 ATBench Family 評(píng)測(cè)不同 Agent 場(chǎng)景,用 taxonomy-guided data engine 構(gòu)造訓(xùn)練數(shù)據(jù),用 influence-function purification 訓(xùn)練輕量模型,并進(jìn)一步支持 agentic safety SFT、RL 和 online guardrail。隨著 Agent 系統(tǒng)繼續(xù)演進(jìn),這種可診斷、可擴(kuò)展、可部署的安全框架,將成為 Agent 走向真實(shí)工作場(chǎng)景的重要基礎(chǔ)。

如果說(shuō)未來(lái)的 AI Agent 會(huì)越來(lái)越像一個(gè)能夠行動(dòng)的數(shù)字助手,那么 AgentDoG 1.5 想做的,就是讓它在行動(dòng)之前、行動(dòng)之中、行動(dòng)之后,都有一套可診斷、可擴(kuò)展、可部署的安全機(jī)制。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
巴西足協(xié)主席被指控帶情婦參加世界杯,隨后他和妻子一同出席開幕式

巴西足協(xié)主席被指控帶情婦參加世界杯,隨后他和妻子一同出席開幕式

懂球帝
2026-06-17 02:08:09
霍爾木茲的倒計(jì)時(shí):當(dāng)整個(gè)海灣都在為伊朗“辦后事”

霍爾木茲的倒計(jì)時(shí):當(dāng)整個(gè)海灣都在為伊朗“辦后事”

民間胡扯老哥
2026-06-14 10:55:53
32歲男子羅布泊徒步失聯(lián),一周后找到,他說(shuō)的話所有人都不明白

32歲男子羅布泊徒步失聯(lián),一周后找到,他說(shuō)的話所有人都不明白

農(nóng)村情感故事
2026-05-24 06:52:31
不滿美伊協(xié)議,以色列人遷怒內(nèi)塔尼亞胡

不滿美伊協(xié)議,以色列人遷怒內(nèi)塔尼亞胡

參考消息
2026-06-16 17:14:16
伊朗:霍爾木茲海峽航運(yùn)服務(wù)將收費(fèi)

伊朗:霍爾木茲海峽航運(yùn)服務(wù)將收費(fèi)

環(huán)球網(wǎng)資訊
2026-06-16 06:14:46
“我挺郁悶的!”諾思蘭德董事長(zhǎng):看不懂創(chuàng)新藥行情,等了22年的基因療法獲批,股價(jià)卻下跌超40%

“我挺郁悶的!”諾思蘭德董事長(zhǎng):看不懂創(chuàng)新藥行情,等了22年的基因療法獲批,股價(jià)卻下跌超40%

每日經(jīng)濟(jì)新聞
2026-06-16 21:08:08
世界杯最大不公!伊朗隊(duì)賽前百般刁難,賽后連夜被驅(qū)逐,主帥怒喊最委屈

世界杯最大不公!伊朗隊(duì)賽前百般刁難,賽后連夜被驅(qū)逐,主帥怒喊最委屈

生活新鮮市
2026-06-16 20:22:35
亞洲賽場(chǎng):中國(guó)隊(duì)2勝4平出局含金量高,日韓伊沙澳均第二

亞洲賽場(chǎng):中國(guó)隊(duì)2勝4平出局含金量高,日韓伊沙澳均第二

王稱吃吃喝喝
2026-06-16 12:12:14
許晉亨夫婦真的很窮,擁有420億信托里每月只能領(lǐng)200萬(wàn)港幣

許晉亨夫婦真的很窮,擁有420億信托里每月只能領(lǐng)200萬(wàn)港幣

西樓知趣雜談
2026-06-01 21:30:19
2026港姐大熱門宣布退賽,官方說(shuō)辭難服眾,內(nèi)情引全網(wǎng)熱議

2026港姐大熱門宣布退賽,官方說(shuō)辭難服眾,內(nèi)情引全網(wǎng)熱議

最美的筆觸
2026-06-16 05:41:18
從副部級(jí)降為副處級(jí)8年后,王鐵再次被查

從副部級(jí)降為副處級(jí)8年后,王鐵再次被查

齊魯壹點(diǎn)
2026-06-16 07:34:25
斯諾克新消息:中國(guó)8勝6負(fù),江俊5-3擊敗十冠王,3位世界冠軍落敗

斯諾克新消息:中國(guó)8勝6負(fù),江俊5-3擊敗十冠王,3位世界冠軍落敗

小七說(shuō)籃球
2026-06-16 10:08:30
姆巴佩雙球創(chuàng)紀(jì)錄超越梅西,法國(guó)3-1旗開得勝

姆巴佩雙球創(chuàng)紀(jì)錄超越梅西,法國(guó)3-1旗開得勝

墨史軒
2026-06-17 05:42:20
6只科技牛股集體辟謠:概念熱炒脫離基本面

6只科技牛股集體辟謠:概念熱炒脫離基本面

算力游俠
2026-06-17 00:36:48
身價(jià)5萬(wàn)歐元零封5億歐元豪門,40歲佛得角門將沃齊尼亞一戰(zhàn)封神,賽后落淚:“我這一生都在為這一刻努力”;其社交賬號(hào)一夜暴漲百萬(wàn)粉絲

身價(jià)5萬(wàn)歐元零封5億歐元豪門,40歲佛得角門將沃齊尼亞一戰(zhàn)封神,賽后落淚:“我這一生都在為這一刻努力”;其社交賬號(hào)一夜暴漲百萬(wàn)粉絲

揚(yáng)子晚報(bào)
2026-06-16 11:22:16
劉濤彎腰7秒上熱搜:娛樂圈人設(shè)塌了,真實(shí)值錢了?

劉濤彎腰7秒上熱搜:娛樂圈人設(shè)塌了,真實(shí)值錢了?

庭小娛
2026-05-16 16:47:07
北京,第一批“爛尾娃”悄悄出現(xiàn):砸光幾百萬(wàn)學(xué)區(qū)房,最后一場(chǎng)空

北京,第一批“爛尾娃”悄悄出現(xiàn):砸光幾百萬(wàn)學(xué)區(qū)房,最后一場(chǎng)空

愛看劇的阿峰
2026-06-15 17:11:00
16款蘋果設(shè)備將停止更新,Apple Watch將遭遇該產(chǎn)品歷史上最大規(guī)模的一次淘汰

16款蘋果設(shè)備將停止更新,Apple Watch將遭遇該產(chǎn)品歷史上最大規(guī)模的一次淘汰

都市快報(bào)橙柿互動(dòng)
2026-06-16 12:35:51
為什么去過(guò)朝鮮回來(lái)就沉默的人,不是隱瞞,是真的說(shuō)不出

為什么去過(guò)朝鮮回來(lái)就沉默的人,不是隱瞞,是真的說(shuō)不出

老特有話說(shuō)
2026-05-12 15:41:08
嫁豪門5年生下4胎!如今30歲住杭州豪華別墅,專屬團(tuán)隊(duì)貼身伺候

嫁豪門5年生下4胎!如今30歲住杭州豪華別墅,專屬團(tuán)隊(duì)貼身伺候

小正說(shuō)娛樂
2026-06-09 15:24:26
2026-06-17 07:27:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13280文章數(shù) 142670關(guān)注度
往期回顧 全部

科技要聞

DeepSeek融資500億,梁文鋒牢牢握住控制權(quán)

頭條要聞

美被指拒絕以色列看美伊諒解備忘錄 以總理發(fā)聲

頭條要聞

美被指拒絕以色列看美伊諒解備忘錄 以總理發(fā)聲

體育要聞

身價(jià)5萬(wàn)的門將,擋住了12億歐元的狂轟濫炸

娛樂要聞

吳文忻葬禮:2個(gè)女兒在靈堂內(nèi)茫然失措

財(cái)經(jīng)要聞

從123美元到62美元 白銀價(jià)格上演過(guò)山車

汽車要聞

三車齊發(fā) 零跑全新C10/C11/C16上市12.58萬(wàn)元起

態(tài)度原創(chuàng)

本地
親子
手機(jī)
健康
公開課

本地新聞

這屆年輕人為什么都在找心流時(shí)刻?

親子要聞

童裝巨頭轉(zhuǎn)型背后:一代人有一代人品牌,育兒觀正重塑市場(chǎng)

手機(jī)要聞

2028年的高端iPhone將首發(fā)1.4nm A22 Pro芯片 考慮由臺(tái)積電與英特爾共同代工

粽子一次吃多少不傷胃?專家講解

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版