網易首頁 > 網易號 > 正文申請入駐

斬獲15個頂級零日漏洞:0G Lab聯(lián)合新國立,北大等構建智能體框架

2026-06-11 14:26:37　來源: 機器之心Pro

河北舉報

分享至

機器之心發(fā)布

分布式系統(tǒng)的 “圣杯”—— 共識協(xié)議（Consensus Protocols），長久以來都是頂級基礎設施工程師的 “Bug 地獄”。由于其狀態(tài)極其復雜、多節(jié)點交織，傳統(tǒng)測試和單體 LLM 對硬核的Deep Bug（深層邏輯漏洞）幾乎束手無策。

近日，最新 ICML 2026 中稿論文，來自0G Labs以及新加坡國立大學、北京大學、北京郵電大學等頂尖學術與產業(yè)團隊的研究人員提出首個將領域知識與大模型多 Agent 協(xié)同深度融合的自動化測試框架 ——Agora

該框架通過創(chuàng)新的架構，直擊協(xié)議痛點，在 Raft、EPaxos、HotStuff、BullShark 等工業(yè)級和學術界核心協(xié)議中，一口氣狂砍 15 個前所未知的協(xié)議級 Deep Bug！相比之下，強如 GPT-5.2、Claude 4.5 等原生大模型紛紛折戟，掛了零蛋。在多智能體（Multi-Agent）系統(tǒng)與” 智能體化安全審計”（Agentic Quality Control）雙雙成為 2026 年最熱賽道的當下，Agora 給出的不只是一篇論文，更是一套可落地的工業(yè)級解法。

論文：《Agora: Toward Autonomous Bug Detection in Production-Level Consensus Protocols with LLM Agents》
鏈接：https://arxiv.org/abs/2605.29910v1

1. 背景

0G 與 NUS 強強聯(lián)手，長期系統(tǒng)知識積累與 Multi-Agent 范式的跨界跨代融合

分布式共識協(xié)議的演進，既是天才的創(chuàng)新史，又是無數(shù)頂尖工程師血淋淋的踩坑史。正如圖靈獎得主 Lamport 所言，保證分布式協(xié)議實現(xiàn)的正確性，其難度不亞于在一座不斷晃動的迷宮中蒙眼穿行。而就在這條” 地獄級” 賽道上，市場正悄然轉向：據 Gartner 觀察，多智能體系統(tǒng)的企業(yè)咨詢量在一年多內暴漲逾十倍，多智能體平臺市場也步入每年近翻倍的高速擴張期 —— 把” 多 Agent 協(xié)同” 用于最硬核的底層系統(tǒng)驗證，正從前沿設想變成產業(yè)剛需。

面對這一地獄級賽道，頭頂光環(huán)的科技巨頭們率先展開了重資產式的探索。例如行業(yè)頂尖的 Anthropic 近期在Claude Code中內部推進的Glasswing項目，雖然嘗試用 Agent 觸碰底層基礎設施測試，但其架構依然極度依賴最高規(guī)格的頭部商業(yè)大模型，項目細節(jié)語宛不詳，且僅定向與極少數(shù)大科技機構和跨國巨頭開展閉門合作。更致命的是，這類巨頭方案可能在運行中展現(xiàn)出恐怖的 Token 吞噬量，這種高昂的算力壁壘和重資產路線，直接將預算有限的初創(chuàng)公司和中小企業(yè)拒之門外。

難道小公司、開源社區(qū)就注定用不起頂級的自動化漏洞審計工具嗎？

來自 0G Labs 的工程師們和新加坡國立大學的劉祥、北京郵電大學的宋颯，孫勇老師聯(lián)合北京大學智能學院的博士生張釗為和研究員張策堯將自己 Agent 領域的深厚知識賦能系統(tǒng)，展開了一場 “以小博大” 的顛覆式創(chuàng)新，其工作已經中稿 2026AI 頂會 ICML。

學術界的 “長期系統(tǒng)知識沉淀”，遇到了產業(yè)界的 “痛點與敏銳嗅覺”，如何才能引爆下一代系統(tǒng)安全革命？

0G 團隊在區(qū)塊鏈共識協(xié)議落地中積累了極為豐富的生產級攻防經驗；而團隊在高性能分布式系統(tǒng)、底層并發(fā)控制以及系統(tǒng)形式化驗證領域有著極為深厚的學術沉淀。他們深知傳統(tǒng)方法（如 Fuzzing 模糊測試）在面對工業(yè)級代碼庫時常常受限于狀態(tài)空間爆炸。多方研究人員決定，將長期積累的分布式系統(tǒng)全局 invariants（不變性）邏輯推演知識作為 “靈魂”，注入到最前沿的多智能體協(xié)同范式與自動化 Harness 架構之中，推出了開源平權的 Agora 框架。

與此同時，作為行業(yè)前沿的模塊化 AI 基礎設施與高性能去中心化數(shù)據可用性網絡，0G 團隊在區(qū)塊鏈共識協(xié)議、高并發(fā) BFT（拜占庭容錯）架構的產業(yè)落地中，積累了極為豐富的生產級攻防經驗與真實世界的協(xié)議缺陷樣本。

這種跨界融合徹底改變了游戲規(guī)則：它既不是盲目的暴力測試，也不是缺乏領域常識的大模型 “盲人摸象”，而是通過專業(yè)化的 Agent 分工，將老道系統(tǒng)專家?guī)资甑倪壿嬐蒲葜庇X，轉化為 Agent 之間的博弈與協(xié)同，從而具備了降維打擊傳統(tǒng)測試工具的硬核實力。

與 Glasswing 動輒吞噬巨額頂級 Token 的重資產路線不同，Agora 帶來了一種對中小企業(yè)極其友好的平替方案 —— 它證明了即使在基座模型 “差一點”、性價比更高的情況下，通過精妙的領域感知多 Agent 協(xié)同架構，依然能夠把硬核的 Deep Bug 揪出來！

2. 痛點

單體 LLM 難越雷池，分布式系統(tǒng)高懸 “深層邏輯達摩克利斯之劍”

在大數(shù)據、區(qū)塊鏈與分布式數(shù)據庫只手遮天的今天，共識協(xié)議（如 Paxos、Raft、PBFT 等）就是整個數(shù)字世界的底層地基。然而，共識協(xié)議的實現(xiàn)是出了名的 “地獄級難度”。哪怕是像 etcd 這樣經過全球無數(shù)頂尖工程師錘煉、運行多年的工業(yè)級標桿項目，依然隱藏著讓人冷汗直流的Deep Bug（深層邏輯漏洞）

這類漏洞不同于內存泄漏、整數(shù)溢出等普通的低級實現(xiàn)漏洞（Implementation Bugs），它們橫跨多個執(zhí)行階段、依賴復雜的并發(fā)狀態(tài)。一旦被惡意觸發(fā)，不僅會導致核心數(shù)據損壞，甚至會引發(fā)災難性的金融級損失。

近年大火的大語言模型（LLM）雖然在普通代碼分析上表現(xiàn)亮眼，但面對分布式共識時卻顯得 “智商捉急”。它們頂多能找出局部代碼的淺層缺陷，而面對依賴全局狀態(tài)的協(xié)議級邏輯漏洞，單體 LLM 往往陷入局部代碼的泥潭，完全無法進行全局時序推理。

3. 破局

Agora 的三 Agent 乾坤大挪移與核心 Harness 架構

為了打破這一僵局，Agora 首次將學術界經典的假說驅動測試（Hypothesis-Driven Testing, HDT）范式引入到大模型 Agent 系統(tǒng)中。為了實現(xiàn)高效的全局推理，Agora 徹底摒棄了傳統(tǒng)的 “單兵作戰(zhàn)” 模式，將工作流精妙地解耦為三個各司其職的高度專業(yè)化 Agent：

Orchestrator Agent（協(xié)調者）：負責全局狀態(tài)維護與已知漏洞舉一反三的 “漏洞剝削”；
Strategy Agent（策略家）：負責注入分布式領域知識，針對 CFT 和 BFT 協(xié)議生成極具攻擊性的異常場景。
TestGen Agent（代碼官）：實干派。而讓 Agora 真正能夠落地、閉環(huán)生成有效測試的關鍵，在于其核心的自動化測試架構。

其架構如圖所示：

Agora的整體設計中，這種 “以小博大” 的平權魔法并非憑空而來，而是源于其精妙的智能體交互機制與測試 Harness 架構的深度融合

研究團隊在系統(tǒng)框架內部專門設計了一套極簡、高效的通信與內存機制（Succinct Memory & Communication），在保證各 Agent 專注于自身核心任務的同時，將冗余的上下文傳輸開銷降到了最低。在這種極致的通信約束下，Orchestrator Agent（負責全局協(xié)調與狀態(tài)控制）Strategy Agent（負責分布式異常環(huán)境與場景生成）以及TestGen Agent（負責代碼測試與動態(tài)評估 Evaluation）完美交織，共同驅動并滿足了Harness 架構

雙劍合璧的自動化閉環(huán)：當 Strategy Agent 推演出抽象的分布式攻擊場景后，依托于高度解耦的交互框架，TestGen Agent 能夠立刻拉起底層的測試。該架構不僅具備強大的環(huán)境自適應能力，能夠跨越 Go、Rust 等不同編程語言環(huán)境，將攻擊假說轉化為真實可運行的單元測試，更內置了高效的反射循環(huán)（Reflection-Loop）技術。
一旦測試在環(huán)境中運行報錯，系統(tǒng)會精準、實時地捕捉調用棧和執(zhí)行日志，并將其精簡地回傳給 Agent 進行定向自我修正。這種 “多 Agent 極簡交互 + 動態(tài) Harness 閉環(huán)” 的有機結合，不僅讓 Agora 能夠以極低的 Token 成本精準捕捉到最隱蔽的深層邏輯 Bug，更產出了誤報率極低的詳盡分析報告。

其最終運行的 overview 如圖所示：

4. 戰(zhàn)果

斬獲 15 個頂級零日 Deep Bug，大模型 baseline 全線掛零

評估結果令人震撼。研究團隊在四個大名鼎鼎的共識協(xié)議庫（包括生產級的 etcd 和新興公鏈核心 Sui 的底層組件）上展開了全方位的大閱兵，并對比了 GPT-5.2、Gemini 3.0 Pro Preview、Claude Sonnet 4.5 以及 Qwen3 Coder 等地表最強模型。

結果不僅僅使得 0G 本身運行的共識系統(tǒng)更加安全，而且呈現(xiàn)出壓倒性的降維打擊：

15 個全新 Logic Deep Bug 浮出水面：Agora 成功發(fā)現(xiàn)了15 個先前無人知曉的協(xié)議級深層邏輯漏洞。這些漏洞橫跨執(zhí)行分歧、單調性違反、拓撲缺陷、簽名漏洞等高危領域。
原生大模型全線剃光頭：反觀基線模型（哪怕配備了先進的 ReAct 動態(tài)工具鏈），在面對這類深層邏輯漏洞時全部開天窗（0/15）。它們消耗了大量的 Token，卻只能在低級代碼實現(xiàn) Bug 上打轉。
極低的誤報率與超高性價比：在 Agora 產出的所有 Bug 報告中，真實邏輯漏洞占比高達73.9%（誤報率僅 26.1%）。更令人驚嘆的是，平均每挖出一個讓資深架構師掉光頭發(fā)的頂級邏輯 Bug，僅需消耗約 5.32M tokens（約合 40 美元），性價比極高。

在多個 LLM 上的結果如下所示：

5. 未來

高可推廣性，進軍更多底層硬核 “無人區(qū)”

Agora 的成功，不僅給分布式系統(tǒng)的安全性打了一劑強心針，更為大模型落地垂直工業(yè)級應用指明了方向。

尤為關鍵的是，Agora 的架構設計展現(xiàn)出了極高的可推廣性與通用性。研究團隊強調，Agora 還可以以插件或者 skill 的形式迅速被廣大用戶復現(xiàn)使用，我們的代碼中(github.com/0gfoundation/agora)提供了相應的 skills 幫助復現(xiàn)。不僅僅如此Agora 的 “大模型 + 多 Agent 協(xié)同 + 假說驅動 “范式并非僅能用于共識協(xié)議。由于其底層工作流控制與上層領域知識庫、測試實現(xiàn)了深度解耦。這意味著該架構不僅僅可以幫助眾多用戶迅速利用進行共識協(xié)議 debug，還可以以 “插拔式”（Plug-and-Play）的方式快速推廣到其他同樣飽受 “深層邏輯漏洞地獄” 折磨的硬核領域：

數(shù)據庫并發(fā)控制（Concurrency Control）：用于測試分布式數(shù)據庫在極端隔離級別（如串行化 Serializable）下的復雜事務沖突缺陷。
操作系統(tǒng)內核 / 并發(fā)系統(tǒng)：深入發(fā)現(xiàn)多線程基礎設施中隱蔽的死鎖與競態(tài)條件。
Web3 智能合約審計：針對涉及復雜經濟模型的跨鏈協(xié)議和 DeFi 邏輯進行深度安全邊界探查。區(qū)塊鏈安全市場預計 2026 年規(guī)模已達約 85 億美元，且已出現(xiàn)以” 多智能體安全系統(tǒng)” 做智能合約審計、將審計周期從數(shù)周壓縮到數(shù)小時的商業(yè)產品，市場需求正在爆發(fā)。

工業(yè)級底層基礎設施的 AI 自動化安全時代，或許正由 Agora 和它的 Harness 架構正式開啟。

我們有理由相信，Agora 可以通過在各個領域發(fā)現(xiàn)的更多地 deep bug 幫助更好地測試 coding LLM 的能力，其發(fā)現(xiàn)的 deep bug 用例也可以幫助 coding LLM 提升代碼理解能力。

gora 可以大大提升共識協(xié)議、并發(fā)控制、智能合約等等作為金融安全交易的基礎的代碼倉庫的安全。而且 Agora 也可以幫助更多的科技公司發(fā)現(xiàn)更深的 logic bug, 但是消耗更少的 tokens, 節(jié)約資金卻更加高效！

更重要的是，這恰好踩中了當下最熱的兩條賽道：一是多智能體系統(tǒng)正從實驗走向生產——Gartner 預計到 2028 年將有超過三成企業(yè)軟件內置 agentic AI，多智能體平臺市場規(guī)模數(shù)年內將從百億美元級別沖向數(shù)百億美元；二是” 用智能體審查智能體” 的智能體化質量管控（Agentic Quality Control）正成為 2026 年的行業(yè)標配。

在 Veracode 2025 報告指出約 45% 的 AI 生成代碼含有安全漏洞、agentic AI 安全市場以約 42% 年復合增速狂奔的背景下，Agora 讓科技公司能以更低的 token 成本挖出更深的 Logic Bug，把安全審計從” 按周計費的人力活” 升級為” 按小時交付的自動化能力”。

而當這條賽道的格局逐漸清晰，真正占住先機的，往往不是聲量最大的巨頭，而是那支最早把方法論跑通、并能持續(xù)復制的團隊。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.