網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

當(dāng)AI Agent開始工作，安全該如何跟上？AgentDoG 1.5開源發(fā)布

2026-06-16 18:34:50　來(lái)源: 機(jī)器之心Pro

天津舉報(bào)

分享至

最近，同事.skill（colleague.skill）在社區(qū)中的快速傳播，讓很多人開始直觀地感受到：AI Agent 正在從「聊天助手」走向「工作伙伴」。

Agent 不再只是回答問題，而是可以繼承一個(gè)人的工作習(xí)慣、任務(wù)流程、知識(shí)背景和決策方式，并在 Claude Code、Hermes、OpenClaw、Codex 等 Agent 宿主中被調(diào)用。

換句話說(shuō)，Agent 正在逐漸成為一種新的工作單元：它可以協(xié)助人類完成任務(wù)，也可能在某些場(chǎng)景中接管一部分具體工作。

與此同時(shí)，安全問題也變得更加復(fù)雜。過(guò)去討論大模型安全，很多時(shí)候是在判斷一段用戶輸入是否有害，或者一段模型輸出是否合規(guī)。但進(jìn)入 Agent 時(shí)代后，風(fēng)險(xiǎn)不再只存在于一句 prompt 或一個(gè)最終回復(fù)里。它可能隱藏在工具描述中，出現(xiàn)在環(huán)境反饋里，被寫入長(zhǎng)期記憶或會(huì)話狀態(tài)，也可能通過(guò)一次錯(cuò)誤的工具調(diào)用、一次未經(jīng)驗(yàn)證的命令執(zhí)行、一次跨應(yīng)用操作，影響真實(shí)文件、賬戶、代碼倉(cāng)庫(kù)甚至業(yè)務(wù)系統(tǒng)。

因此，Agent 安全不再只是「內(nèi)容安全」，而是完整執(zhí)行過(guò)程中的行為診斷、風(fēng)險(xiǎn)歸因和在線干預(yù)問題。

圍繞這一問題，上海人工智能實(shí)驗(yàn)室發(fā)布 AgentDoG 1.5：一個(gè)面向 AI Agent 的輕量化、可擴(kuò)展安全診斷與在線護(hù)欄框架。論文已上線 arXiv，代碼、模型與數(shù)據(jù)均已開源。

論文鏈接：https://arxiv.org/abs/2605.29801
項(xiàng)目鏈接：https://github.com/AI45Lab/AgentDoG
Hugging Face：https://huggingface.co/collections/AI45Research/agentdog15

從「看輸出」到「看軌跡」

AgentDoG 1.5 的核心出發(fā)點(diǎn)是：Agent 的安全風(fēng)險(xiǎn)往往發(fā)生在完整執(zhí)行過(guò)程中，而不是只發(fā)生在 Agent 的最終回復(fù)里。一個(gè) Agent 可能在最終回復(fù)中看起來(lái)正常，但此前已經(jīng)錯(cuò)誤調(diào)用了工具、泄露了信息、執(zhí)行了危險(xiǎn)命令，或者被外部環(huán)境中的惡意內(nèi)容誘導(dǎo)發(fā)生目標(biāo)偏移。

因此，面向 Agent 的安全評(píng)測(cè)，不能只看最終輸出，而應(yīng)該把完整 agent trajectory 作為判斷對(duì)象。

在 AgentDoG 1.5 中，模型會(huì)綜合分析用戶請(qǐng)求、Agent 中間響應(yīng)、工具調(diào)用、環(huán)境反饋和最終回復(fù)，對(duì)整條軌跡進(jìn)行安全診斷。它不僅判斷一條軌跡是 safe 還是 unsafe，還進(jìn)一步輸出三類細(xì)粒度診斷信息：Risk Source，即風(fēng)險(xiǎn)從哪里來(lái)；Failure Mode，即 Agent 是如何失敗的；Real-world Harm，即這種失敗會(huì)造成什么現(xiàn)實(shí)危害。

通過(guò)這種三維診斷，安全判斷不再只是一個(gè)二分類結(jié)果，而可以進(jìn)一步支持風(fēng)險(xiǎn)定位、模型訓(xùn)練、benchmark 構(gòu)建和部署階段的在線攔截。

面向快速變化的 Agent 平臺(tái)，taxonomy 也必須可擴(kuò)展

Agent 系統(tǒng)的發(fā)展速度很快，不同執(zhí)行平臺(tái)面對(duì)的風(fēng)險(xiǎn)也并不相同。通用 tool-use agent、OpenClaw 這類跨應(yīng)用執(zhí)行 Agent、Codex 這類面向代碼倉(cāng)庫(kù)和命令執(zhí)行的 Agent，在執(zhí)行環(huán)境、工具邊界、狀態(tài)管理和潛在危害上都有明顯差異。如果每出現(xiàn)一個(gè)新 Agent 平臺(tái)，就重新設(shè)計(jì)一套安全標(biāo)簽和評(píng)測(cè)任務(wù)，整個(gè) guardrail 體系會(huì)很快碎片化。

AgentDoG 1.5 采用的方式是：保持 Risk Source、Failure Mode、Real-world Harm 這三個(gè)高層維度不變，在不同執(zhí)行場(chǎng)景下擴(kuò)展和細(xì)化 leaf categories。

例如，在 OpenClaw 場(chǎng)景中，風(fēng)險(xiǎn)可能來(lái)自持久會(huì)話、審批繞過(guò)、技能或插件供應(yīng)鏈、跨工具攻擊鏈、跨通道路由錯(cuò)誤，或者無(wú)人值守自動(dòng)化執(zhí)行；在 Codex 場(chǎng)景中，風(fēng)險(xiǎn)則可能來(lái)自倉(cāng)庫(kù)文件注入、依賴或 MCP 供應(yīng)鏈問題、危險(xiǎn) shell/script 執(zhí)行、破壞性工作區(qū)修改，以及未經(jīng)驗(yàn)證的測(cè)試或成功聲明。

基于這一思路，論文進(jìn)一步構(gòu)建了 ATBench Family。ATBench 面向通用 tool-use agent，ATBench-Claw 面向 OpenClaw 執(zhí)行場(chǎng)景，ATBench-Codex 面向 Codex 執(zhí)行場(chǎng)景。三者共享同一個(gè) trajectory-level diagnosis task 和三維 taxonomy 框架，同時(shí)針對(duì)不同執(zhí)行環(huán)境擴(kuò)展具體風(fēng)險(xiǎn)類別。這使得 AgentDoG 1.5 能夠在保持跨場(chǎng)景可比性的同時(shí)，持續(xù)適配新的 Agent 平臺(tái)。

只用約 1k 高質(zhì)量樣本，訓(xùn)練輕量 AgentDoG 1.5

在訓(xùn)練 AgentDoG 1.5 時(shí)，論文沒有簡(jiǎn)單依賴大規(guī)模數(shù)據(jù)堆疊，而是構(gòu)建了 taxonomy-guided data engine，通過(guò)三維 taxonomy 控制數(shù)據(jù)生成過(guò)程。換言之，風(fēng)險(xiǎn)從哪里進(jìn)入、Agent 如何失敗、會(huì)造成什么 real-world harm，都在數(shù)據(jù)構(gòu)造階段被系統(tǒng)性建模。隨后，團(tuán)隊(duì)使用 GPT-5.4 作為 teacher，為訓(xùn)練樣本補(bǔ)充 chain-of-thought rationale，讓學(xué)生模型不僅學(xué)習(xí)最終 judgment，也學(xué)習(xí)從軌跡證據(jù)到安全判斷的推理過(guò)程。

由于原始合成數(shù)據(jù)往往存在噪聲、冗余和低價(jià)值樣本，AgentDoG 1.5 進(jìn)一步引入 influence function-based data purification，從原始數(shù)據(jù)中篩選最有助于學(xué)習(xí) guardrail 行為的高質(zhì)量樣本。

最終，AgentDoG 1.5 僅使用約 1k 條高信息量樣本，訓(xùn)練了 0.8B、2B、4B 和 8B 等多個(gè)輕量模型版本。

實(shí)驗(yàn)結(jié)果顯示，AgentDoG 1.5 在軌跡級(jí)安全判斷和細(xì)粒度風(fēng)險(xiǎn)診斷上均取得了強(qiáng)表現(xiàn)。

以 4B 模型為例，其在 R-Judge 上達(dá)到 92.2% Accuracy 和 92.7% F1，在 ATBench 上達(dá)到 72.4% Accuracy 和 74.3% F1；在 fine-grained risk diagnosis 上，AgentDoG 1.5-4B 在 Risk Source、Failure Mode、Real-world Harm 三個(gè)維度的平均得分達(dá)到 55.2%，相比 AgentDoG 1.0 有明顯提升。

這些結(jié)果表明，貼近 Agent 風(fēng)險(xiǎn)結(jié)構(gòu)的數(shù)據(jù)和監(jiān)督信號(hào)，可以把可靠的 agent safety judgment 能力蒸餾到較小規(guī)模的模型中。

構(gòu)建輕量級(jí) Agent 訓(xùn)練管線，支持超一萬(wàn)并發(fā)

AgentDoG 1.5 不只用于離線評(píng)測(cè)，也被進(jìn)一步接入到 agentic safety training pipeline 中。該訓(xùn)練 pipeline 包含兩個(gè)部分：一是面向 SFT 的高質(zhì)量安全數(shù)據(jù)過(guò)濾，二是面向 RL 的輕量化交互環(huán)境與安全 reward 構(gòu)造。通過(guò)這一 pipeline，AgentDoG 1.5 可以把軌跡級(jí)安全診斷能力轉(zhuǎn)化為訓(xùn)練階段的監(jiān)督信號(hào)，支持更低成本、更可擴(kuò)展的 Agent 安全對(duì)齊。

在 SFT 階段，團(tuán)隊(duì)使用 ATBench data engine 構(gòu)造 agentic safety 數(shù)據(jù)，并利用 AgentDoG 1.5 過(guò)濾高質(zhì)量 safe trajectories。過(guò)濾后得到 28,705 條高質(zhì)量 agentic safety trajectories，并與 50,000 條 benign tool-use trajectories 混合，以避免模型學(xué)成過(guò)度保守的拒絕策略。

實(shí)驗(yàn)顯示，加入 AgentDoG 1.5 過(guò)濾后的安全數(shù)據(jù)后，模型在多個(gè)安全指標(biāo)上明顯改善。例如，在 AgentHarm 上，harm score 從 57.49% 降至 20.32%，refusal rate 從 28.41% 提升至 75.00%；在 AgentSafetyBench 上，safe rate 從 34.37% 提升至 53.23%。

這說(shuō)明AgentDoG 1.5 不只是一個(gè)評(píng)測(cè)模型，也可以作為數(shù)據(jù)質(zhì)量控制模塊參與安全訓(xùn)練流程。

在 RL 階段，論文構(gòu)建了輕量化 finite-state Python simulator 環(huán)境，用于支持 scalable agentic safety RL。相比依賴完整 Docker-level 環(huán)境的真實(shí)執(zhí)行訓(xùn)練，這類輕量環(huán)境通過(guò)有限狀態(tài)模擬、工具接口和規(guī)則化反饋來(lái)構(gòu)造可擴(kuò)展的交互任務(wù)，并結(jié)合 AgentDoG 1.5 提供的軌跡級(jí)安全判斷形成 reward signal。

實(shí)驗(yàn)中，該環(huán)境可同時(shí)加載 10,000 個(gè)環(huán)境、維護(hù) 1,000 個(gè)活躍實(shí)例，并支持 1,000 個(gè)并發(fā)工具調(diào)用，峰值內(nèi)存保持在 2.5GB 以下。這一設(shè)計(jì)顯著降低了 agentic safety RL 的環(huán)境部署成本，使大規(guī)模安全訓(xùn)練更加可行。

構(gòu)筑 Agent 最后防線：在線安全護(hù)欄

AgentDoG 1.5 不僅可以支持 Agent 訓(xùn)練，還可以部署為 online guardrail。論文提出一種Pre-Reply 介入機(jī)制：在 Agent 最終回復(fù)發(fā)送給用戶之前，AgentDoG 1.5 會(huì)讀取完整執(zhí)行軌跡，包括用戶輸入、工具調(diào)用、工具結(jié)果、環(huán)境觀察和最終草稿，并判斷是否允許放行。

這樣既能利用比 prompt-level 或 output-only guardrail 更完整的上下文，又避免在每一次工具調(diào)用后都插入檢測(cè)，從而降低對(duì) agent loop 的延遲影響。

在 OpenClaw 在線評(píng)測(cè)中，AgentDoG 1.5 能有效降低 unsafe final deliveries。AgentDoG 1.5-4B 將 ClawSafety 的 ASR 從 56.25% 降至 18.75%，將 AgentHazard Prompt Intelligence Theft 的 ASR 從 41.92% 降至 26.92%，并在 CIK-Bench retained cases 上將 ASR 從 94.29% 降至 42.86%。受益于 Pre-Reply 的設(shè)計(jì)，AgentDoG 1.5 整體延遲在可部署范圍內(nèi)。

為什么這件事重要？

AI Agent 的能力正在從「生成內(nèi)容」走向「執(zhí)行任務(wù)」。當(dāng) Agent 能夠調(diào)用真實(shí)工具、訪問真實(shí)文件、觸達(dá)真實(shí)系統(tǒng)時(shí)，安全問題也隨之升級(jí)：它不再只是內(nèi)容審核問題，而是執(zhí)行過(guò)程中的行為診斷、風(fēng)險(xiǎn)歸因和在線干預(yù)問題。

AgentDoG 1.5 的貢獻(xiàn)在于，它把這些環(huán)節(jié)串成了一個(gè)完整閉環(huán)：用三維 taxonomy 描述風(fēng)險(xiǎn)，用 ATBench Family 評(píng)測(cè)不同 Agent 場(chǎng)景，用 taxonomy-guided data engine 構(gòu)造訓(xùn)練數(shù)據(jù)，用 influence-function purification 訓(xùn)練輕量模型，并進(jìn)一步支持 agentic safety SFT、RL 和 online guardrail。隨著 Agent 系統(tǒng)繼續(xù)演進(jìn)，這種可診斷、可擴(kuò)展、可部署的安全框架，將成為 Agent 走向真實(shí)工作場(chǎng)景的重要基礎(chǔ)。

如果說(shuō)未來(lái)的 AI Agent 會(huì)越來(lái)越像一個(gè)能夠行動(dòng)的數(shù)字助手，那么 AgentDoG 1.5 想做的，就是讓它在行動(dòng)之前、行動(dòng)之中、行動(dòng)之后，都有一套可診斷、可擴(kuò)展、可部署的安全機(jī)制。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.