網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

在中國(guó)文言文面前，全球頂級(jí)模型全線潰敗

2026-03-11 07:32:20　來源: 硅基星芒AI

北京舉報(bào)

分享至

OpenClaw大火之際，工信部的安全預(yù)警接踵而至，讓這場(chǎng)跟風(fēng)的潮流稍微冷靜了一些。

在AI智能體接管電腦的時(shí)代，安全是每個(gè)人都無法忽視的問題。

而智能體是否安全，很大程度上取決于充當(dāng)“大腦”的大語言模型是否安全。

若是安全限制不夠，模型很容易輸出有害的信息，國(guó)外因?yàn)锳I而引起訴訟已經(jīng)不再稀奇。

若是安全限制過度，模型的能力又會(huì)大打折扣，想要AI輸出有創(chuàng)意的想法就成了癡人說夢(mèng)。

而在這個(gè)問題上，國(guó)產(chǎn)的DeepSeek和馬斯克的Grok可以說是兩個(gè)極端。

Grok主打一個(gè)來者不拒，對(duì)于大部分內(nèi)容都沒有做出任何限制，這使它成為了娛樂領(lǐng)域的一把好手，在X平臺(tái)上可以隨意調(diào)用更是讓它無處不在。

DeepSeek則正好與之相反，只要用戶的提問中包含任何疑似敏感的詞匯，它都會(huì)直接拒絕回答，確保不會(huì)生成任何有害信息，安全第一。但這樣做的代價(jià)，是讓模型的功能受到了極大的限制。

為了繞開限制，很多AI愛好者也提出了不同的辦法，比如更換為英文、調(diào)整語序、修改表達(dá)方式等，但隨著對(duì)齊機(jī)制的升級(jí)，這些方法也逐漸被成功防御。

但是，中國(guó)傳統(tǒng)文化博大精深。

近期，在一篇被人工智能頂級(jí)會(huì)議ICLR 2026接收的重磅論文中，提出了一個(gè)令人意想不到的結(jié)論：

文言文可以輕松繞過當(dāng)前最先進(jìn)大模型的安全防御機(jī)制，實(shí)現(xiàn)接近100%的“越獄”成功率！

用魔法打敗魔法，中國(guó)流傳下來的古老智慧對(duì)現(xiàn)代AI安全機(jī)制實(shí)現(xiàn)了降維打擊。

大模型的“文化盲區(qū)”

拋開Grok不談，隨著大語言模型普及并成為智能體的底層基礎(chǔ)設(shè)施，國(guó)內(nèi)外的AI企業(yè)普遍提升了對(duì)AI安全的重視程度。

國(guó)內(nèi)模型自然不必多說，國(guó)外的Anthropic和Google也經(jīng)常會(huì)發(fā)布安全相關(guān)的文章和規(guī)則，時(shí)刻更新AI的對(duì)齊機(jī)制以防止其生成有害、暴力的內(nèi)容。

就像前面說的，黑客們最常用的手段就是用復(fù)雜的英文提示詞去套路AI，但面對(duì)頂級(jí)的模型，這個(gè)辦法如今已經(jīng)接近失效。

跨語言的安全研究表明，非英語環(huán)境往往是AI的軟肋，因?yàn)榇蟛糠帜Ｐ驮谟?xùn)練時(shí)都使用了大量的英文語料。

然而，如果語料太少，像是某些已經(jīng)沒有多少人在使用的小語種，大模型其實(shí)根本聽不懂，更別提繞開安全限制了。

但這個(gè)時(shí)候，文言文這個(gè)流傳了上千年的語言，成為了完美的漏洞。

作為中國(guó)古代長(zhǎng)期使用的正式書面語言，文言文擁有大量的歷史文獻(xiàn)可用作大模型的訓(xùn)練語料。

在大語言模型普及的過程中，我們?cè)诟鞔笊缃黄脚_(tái)上應(yīng)該都刷到過AI生成的文言文，這就證明大模型已經(jīng)具備對(duì)文言文的理解能力。

至于為什么文言文能夠作為完美漏洞，讓針對(duì)現(xiàn)代語言設(shè)計(jì)的安全機(jī)制幾乎完全失效，主要是因?yàn)橐韵氯筇匦裕?/p>

一是語義高度凝練：文言文雖然篇幅短，但往往包含龐大的信息量；

二是多義與歧義：同一句話甚至同一個(gè)詞都可以有多種解讀方式，非黑即白的規(guī)則很難判定一句話是否違規(guī)；

三是隱喻與修辭：借代、典故、象征都是寫文言文再常見不過的方式，古代的詞語也可以包含現(xiàn)代的含義。

如此一來，大模型就變成了高考語文考場(chǎng)上對(duì)文言文束手無策的學(xué)生。它或許能理解用戶危險(xiǎn)的意圖，但內(nèi)置的“安全警報(bào)器”卻看不懂文言文中的暗藏玄機(jī)。

CC-BOS框架制造完美“越獄”

為了測(cè)試這個(gè)漏洞，研究團(tuán)隊(duì)提出了名為CC-BOS（基于文言文語境的仿生搜索越獄）的框架，同時(shí)涵蓋了語文和生物兩方面知識(shí)。

面對(duì)構(gòu)建在復(fù)雜神經(jīng)網(wǎng)絡(luò)之上的大模型，枚舉法顯得過于盲目。

研究團(tuán)隊(duì)首先把大模型現(xiàn)有的弱點(diǎn)拆分成八個(gè)維度，并針對(duì)不同的維度設(shè)計(jì)策略組合來考驗(yàn)大模型是否能堅(jiān)守安全底線。

這個(gè)研究思路的本質(zhì)其實(shí)就是提示詞工程，比如其中的一些維度：

角色認(rèn)同（Role Identity）：給大模型指定一個(gè)古代身份；

行為引導(dǎo)（Behavioral Guidance）：引導(dǎo)大模型用類似獻(xiàn)計(jì)的方式輸出回復(fù)；

隱喻映射（Metaphor Mapping）：將現(xiàn)代的敏感概念替換為古代詞匯；

表達(dá)風(fēng)格（Expression Style）：要求大模型用辭、賦等特定的文體和句式作答；

除此之外，還有觸發(fā)模式、機(jī)制、知識(shí)關(guān)聯(lián)和情景設(shè)置維度。

簡(jiǎn)單來說，就是用各種限制讓大模型穿越到古代，再以古人的身份和它交流，以此混淆現(xiàn)代安全檢測(cè)器的視聽。

當(dāng)8個(gè)維度結(jié)合在一起，就產(chǎn)生了上萬種策略組合，新的問題又出現(xiàn)了：如何尋找那些最有效的繞開安全防御機(jī)制的策略？

研究人員此時(shí)又利用了生物學(xué)的一種高效尋覓機(jī)制：仿生果蠅算法（Fruit Fly Optimization）。

一群賽博果蠅，要在幾萬種提示詞生成策略中“大海撈針”，就必須有高效的分工合作機(jī)制。

第一步是嗅覺上的搜索，也就是讓果蠅依靠嗅覺判斷水果的哪個(gè)部分更香，本質(zhì)上則是局部微調(diào)。

原理很簡(jiǎn)單，系統(tǒng)先隨機(jī)生成幾個(gè)提示詞丟給大模型進(jìn)行測(cè)試，一旦其中的一條能讓安全機(jī)制稍顯懈怠，算法就可以在這條提示詞的基礎(chǔ)上開始微調(diào)。

微調(diào)的方式，或是改變其中的部分詞匯，或是調(diào)整提示詞語序，但整體變動(dòng)幅度必須被控制在一個(gè)較小的區(qū)間內(nèi)。這個(gè)過程將重復(fù)多次，系統(tǒng)將會(huì)持續(xù)觀察效果是否有所提升。

第二步是視覺上的搜索，一只果蠅發(fā)現(xiàn)了美食后會(huì)迅速引導(dǎo)同伴前來享用。

系統(tǒng)一旦發(fā)現(xiàn)一個(gè)相對(duì)有效的提示詞組合，算法就會(huì)立刻做出調(diào)整，所有新生成的提示詞都會(huì)向這個(gè)“高分答案”靠攏，在此基礎(chǔ)上繼續(xù)優(yōu)化提示詞，直至攻破大模型的安全防御機(jī)制。

最后，如果經(jīng)過數(shù)次優(yōu)化的提示詞還是繞不開安全防御機(jī)制該怎么辦？研究團(tuán)隊(duì)還考慮到了柯西突變，簡(jiǎn)單來說就是掀桌子重來。

這種情況實(shí)際上相當(dāng)常見，即使黑客們現(xiàn)有的攻擊手段失效，但大模型的安全防御機(jī)制存在漏洞的事實(shí)大家心知肚明。

因此，算法在遇到這種情況時(shí)，會(huì)果斷拋棄當(dāng)前的思路，重新嘗試一種與原先截然不同的策略，這種超大跨度的轉(zhuǎn)變反而往往能命中大模型意想不到的安全盲區(qū)。

CC-BOS這種“基于語文知識(shí)的生物學(xué)方法”堪稱藝術(shù)，因?yàn)樗鼧O大程度模仿了生物行動(dòng)的邏輯，卻又完全不需要人工干預(yù)。

微調(diào)試探、集群攻擊，實(shí)在不行就及時(shí)換賽道，這些賽博果蠅能夠在上萬種文言文提示詞中持續(xù)進(jìn)行迭代和優(yōu)化，而在海量的嘗試中，總會(huì)有一次精準(zhǔn)命中大模型的軟肋，最終徹底摧毀其安全防線。

頂級(jí)模型的全線潰敗

看似有些荒唐的想法，卻帶來了讓人大跌眼鏡的結(jié)果。

研究團(tuán)隊(duì)選用了去年撰寫論文時(shí)最先進(jìn)的六款大模型：GPT-4o、Claude-3.7-Sonnet、Gemini-2.5-Flash、Grok-3、DeepSeek-Reasoner和Qwen3。

而這些曾經(jīng)的頂級(jí)模型，在最具權(quán)威性的有害行為基準(zhǔn)測(cè)試AdvBench中的表現(xiàn)令人十分擔(dān)憂：

首先是攻擊成功率達(dá)到了100%。

無論是反復(fù)強(qiáng)調(diào)安全策略的OpenAI，還是經(jīng)常進(jìn)行安全研究的Anthropic，在CC-BOS的文言文攻擊下，六款大模型的防線全部被洞穿。

即便是中文能力更強(qiáng)、理應(yīng)更能理解文言文的兩款國(guó)產(chǎn)模型，也未能幸免。

更可怕的是接近于“一擊必殺”的攻擊效率。

過去的自動(dòng)化越獄攻擊算法更多依靠頻繁的嘗試實(shí)現(xiàn)突圍，往往要對(duì)模型進(jìn)行50-90次以上的反復(fù)試探才能成功。

但CC-BOS的平均查詢次數(shù)是恐怖的1.12-2.38次。換句話說，不超過3次就能成功的攻擊手段，意味著算力成本接近于零，同時(shí)具備極強(qiáng)的隱蔽性，在大量正常對(duì)話中很難被識(shí)別出來。

研究人員最后還測(cè)試了提示詞的可遷移性。

用GPT-4o作為陪練生成的“文言文攻擊”提示詞，放到那些沒參加這次攻防演練的大模型身上同樣適用，成功率仍然保持在80%-96%的超高水平。

因此，文言文越獄絕不是部分模型存在的特定Bug，而是大語言模型的通用底層漏洞。

結(jié)語：智能體時(shí)代的“生死大考”

兩千年來竹簡(jiǎn)中流傳下來的智慧，輕松黑掉了迄今為止人類最先進(jìn)的硅基大腦。

結(jié)合當(dāng)下AI時(shí)代的現(xiàn)實(shí)來看，它敲響的是一聲刺耳的行業(yè)警鐘。

論文雖然寫的是大語言模型，但別忘了，AI已經(jīng)不再是那個(gè)只能聊天的網(wǎng)頁對(duì)話框。

說到這里，就又不得不提到OpenClaw。

對(duì)于這個(gè)產(chǎn)品的看法，先前的文章中已經(jīng)寫過，這里不再多談，我們只看事實(shí)。

各大互聯(lián)網(wǎng)巨頭瘋狂下場(chǎng)布局，國(guó)內(nèi)部分省市甚至出臺(tái)專項(xiàng)政策扶持技術(shù)落地。

可以推斷，在不久的未來，無論是主動(dòng)擁抱還是被動(dòng)升級(jí)，智能體深度接管電腦、手機(jī)和各類終端設(shè)備，必然是不可逆轉(zhuǎn)的常態(tài)。

只要當(dāng)下智能體的設(shè)計(jì)范式不發(fā)生根本性轉(zhuǎn)變，大語言模型在智能體中的核心地位就穩(wěn)如泰山。

過去，行業(yè)內(nèi)總在擔(dān)憂智能體的安全問題，曾經(jīng)爆出來的智能體誤刪Gmail郵件事件也總是被當(dāng)成意外，一笑而過。

但這次的文言文越獄，直接觸及了底層的安全機(jī)制，令人細(xì)思極恐：一個(gè)大模型可以被文言文輕松騙過，卻擁有用戶電腦的操作系統(tǒng)級(jí)權(quán)限。

有心之人根本不需要編寫復(fù)雜的木馬病毒，只需要通過網(wǎng)頁、郵件甚至PDF在屏幕上顯示一段精心構(gòu)造的文言文指令，原本負(fù)責(zé)保護(hù)用戶隱私的安全機(jī)制就會(huì)瞬間土崩瓦解。

原本用來自動(dòng)工作的智能體，談笑之間就會(huì)不自覺地把電腦上各種私密文件打包發(fā)送出去。防線一旦在語言理解層面崩潰，物理世界的資產(chǎn)就如同探囊取物。

更令人不寒而栗的事實(shí)在于，文言文絕非大語言模型唯一的底層漏洞。

復(fù)雜的神經(jīng)網(wǎng)絡(luò)把AI變成了難以窺探的黑盒，文言文只是恰好被研究人員探明的一個(gè)角落，其他地方大概率還隱藏著無數(shù)個(gè)尚未被發(fā)現(xiàn)的安全盲區(qū)。

文言文越獄成功，證明了現(xiàn)有的安全對(duì)齊機(jī)制還處于淺層過濾階段。

在我們將數(shù)字生活的最高權(quán)限徹底交給智能體之前，如何設(shè)計(jì)更有效的安全機(jī)制，已經(jīng)成為整個(gè)AI行業(yè)必須共同面對(duì)的生死大考。

然而，如今養(yǎng)蝦的浪潮，總讓我覺得下面這段話早晚會(huì)成為現(xiàn)實(shí)。

注：計(jì)算機(jī)領(lǐng)域最臭名昭著的

Linux/Unix

刪庫(kù)跑路命令

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

時(shí)薪800、學(xué)歷碩士起：大廠熱搶的AI數(shù)據(jù)“煉金師”到底在做什么？

智東西 2026-05-20 22:23:12
0 跟貼 0
AI巨頭算經(jīng)濟(jì)賬！微軟據(jù)報(bào)考慮采用開源模型降低智能體費(fèi)用

財(cái)聯(lián)社 2026-06-17 04:47:11
0 跟貼 0

從貝葉斯到大語言模型：一文詳解「時(shí)序點(diǎn)過程」近年進(jìn)展

機(jī)器之心Pro 2026-06-17 02:12:15
0 跟貼 0

“AI領(lǐng)域最被濫用的術(shù)語”李飛飛終于把世界模型講明白了

量子位 2026-06-07 04:37:43
0 跟貼 0
00后小哥復(fù)刻Claude最強(qiáng)神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0

省實(shí)驗(yàn)名師解析高考語文試題：打破模塊壁壘突出高階思維與育人導(dǎo)向

黑龍江網(wǎng) 2026-06-16 14:42:43
0 跟貼 0

這么低級(jí)的作弊手段？安徽女生帶字典進(jìn)考場(chǎng)，山河四省都看傻了！

世界圈 2026-06-16 08:50:24
23 跟貼 23
一張高考試卷的分?jǐn)?shù)如何出爐

中國(guó)青年報(bào) 2026-06-17 06:20:00
0 跟貼 0

直擊浙江高考閱卷現(xiàn)場(chǎng)！每道試題這樣給分→

臺(tái)州行 2026-06-17 07:37:56
0 跟貼 0
十年吟誦以詩育人

中國(guó)網(wǎng) 2026-06-16 16:09:27
0 跟貼 0
徐晶說；一字藏天地，一探青色的古今之美！

肇歲初十 2026-06-15 11:26:09
2 跟貼 2
一份高考試卷如何打分？

新浪財(cái)經(jīng) 2026-06-17 05:24:31
0 跟貼 0
不用向量數(shù)據(jù)庫(kù)，Agent也能會(huì)搜索：給它一個(gè)grep就夠了？

機(jī)器之心Pro 2026-06-11 17:06:46
0 跟貼 0
楊奇函：清華本碩教作文從來都不是浪費(fèi)！

楊若星剪輯設(shè) 2026-06-15 01:29:20
0 跟貼 0
6月14日（發(fā)布）央視曝光!爛梗"侵入"校園，學(xué)生張嘴就是"那咋了""受著唄"，作文全是"絕絕子"語

中安在線 2026-06-14 18:08:48
6 跟貼 6
察言觀色是藝術(shù)，心領(lǐng)神會(huì)是智慧#閱讀提升認(rèn)知 #強(qiáng)者思維邏輯

叫我金主編 2026-06-15 22:13:10
2 跟貼 2
打破固化的規(guī)則，才是當(dāng)代人的新出路，才是頂級(jí)生存智慧

故事范賣機(jī) 2026-06-16 23:24:06
0 跟貼 0
當(dāng)年寫出高考滿分作文赤兔之死的蔣昕捷，人生比作文還逆天

大張的自留地 2026-06-14 17:59:37
94 跟貼 94
山姆中國(guó)被約談當(dāng)日變更董事長(zhǎng)

瀟湘晨報(bào) 2026-06-16 18:15:10
41036 跟貼 41036
2026中考語文考試結(jié)束，考生：“作文主題是耕耘與收獲的關(guān)系”

蚌埠日?qǐng)?bào) 2026-06-14 12:04:47
0 跟貼 0
疑似出題人被語文氣瘋

娛樂呆小姐 2026-06-16 09:13:56
0 跟貼 0
男子和同事買了同款藍(lán)牙小蜜蜂，兩人在不同班上課時(shí)擴(kuò)音器串臺(tái)了，學(xué)生：物理老師怎么在講語文

蓬勃資訊 2026-06-16 15:14:12
1 跟貼 1
紅旗-16F首次實(shí)彈打靶現(xiàn)場(chǎng)視頻公開

環(huán)球網(wǎng)資訊 2026-06-16 09:27:04
7127 跟貼 7127
智能體ERP轉(zhuǎn)型五步法：評(píng)估、排序、量化與實(shí)施

算力游俠 2026-06-17 03:26:23
0 跟貼 0
國(guó)產(chǎn)萬億級(jí)模型技術(shù)報(bào)告公開！螞蟻這樣攻克能力成本延遲“不可能三角”

智東西 2026-06-16 20:32:58
1 跟貼 1
持刀傷人案后，算法如何撕裂貝爾法斯特的舊傷

薛定諤的BUG 2026-06-17 00:15:37
0 跟貼 0
一夜?jié)q粉557萬，40歲門將爆紅的流量邏輯

爬蟲飼養(yǎng)員 2026-06-17 01:53:17
0 跟貼 0
2026世界杯冠軍算法預(yù)測(cè)：西班牙領(lǐng)跑，14.5%的骰子游戲

競(jìng)技風(fēng)云錄 2026-06-17 00:15:46
0 跟貼 0
用AI翻拍八上文言文《記承天寺夜游》，酒逢知己飲，詩向會(huì)人吟

山海覓知音 2026-06-12 21:01:40
3 跟貼 3
佛得角隊(duì)逼平西班牙隊(duì)：有人贏了470萬美元，也有人100萬美元一夜歸零

紅星新聞 2026-06-16 12:54:45
4549 跟貼 4549
智能體從「單兵作戰(zhàn)」到「精銳團(tuán)隊(duì)」 -2

機(jī)器之心Pro 2026-04-28 16:56:00
0 跟貼 0
監(jiān)控曝光：加拿大女農(nóng)場(chǎng)主飛腳踢退美洲獅，從血口中救下自家山羊

新京報(bào) 2026-06-17 01:53:53
7 跟貼 7
韓語、越南語都擺脫了漢字，日語為何始終無法成功“去漢字化”？

環(huán)球情報(bào)員 2026-06-16 15:36:00
0 跟貼 0
毛熊危機(jī)解密：中立策略大揭秘

媽媽的保鏢來了 2026-06-15 20:16:36
4 跟貼 4
上海鏈家通報(bào)調(diào)查細(xì)節(jié)：未吃差價(jià)！已主動(dòng)聯(lián)系主管部門指導(dǎo)

澎湃新聞 2026-06-16 15:26:29
1056 跟貼 1056
骨科認(rèn)證：這項(xiàng)運(yùn)動(dòng)對(duì)膝蓋很友好，還能養(yǎng)護(hù)心腦

貓大夫醫(yī)學(xué)科普 2026-06-17 06:47:17
0 跟貼 0
首位萬億美元富翁馬斯克又創(chuàng)紀(jì)錄 SpaceX重新定義科技估值邏輯

觀武論烽煙 2026-06-14 13:22:00
0 跟貼 0
日本網(wǎng)民：中國(guó)人玩游戲時(shí)經(jīng)常發(fā)的“1”，到底是什么意思?。?/a>

許三歲 2026-06-17 07:46:10
0 跟貼 0
高中英語 | 選擇性必修二nit2知識(shí)解讀（人教版）學(xué)霸筆記

綠卡圖書 2026-06-16 11:35:24
0 跟貼 0
比利時(shí)自行車手沖刺時(shí)舉起雙手慶祝摔倒在地滑過終點(diǎn)線奪冠

海外網(wǎng) 2026-06-16 09:57:49
118 跟貼 118

硅基星芒AI

錦緞旗下人工智能研究與媒體服務(wù)平臺(tái)

73文章數(shù) 7關(guān)注度

往期回顧全部

監(jiān)控披露：醫(yī)生1分鐘開完4名病人的藥手握70張醫(yī)?？?/a>

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

房產(chǎn)

本地

旅游

軍事航空

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

在中國(guó)文言文面前，全球頂級(jí)模型全線潰敗

美國(guó)給Anthropic新模型上了“芯片級(jí)管制”

超越吉魯、超越梅西 27歲的姆巴佩這夜把紀(jì)錄破了個(gè)遍

超越吉魯、超越梅西 27歲的姆巴佩這夜把紀(jì)錄破了個(gè)遍

身價(jià)5萬的門將，擋住了12億歐元的狂轟濫炸

吳文忻葬禮：2個(gè)女兒在靈堂內(nèi)茫然失措

美媒曝光美伊諒解備忘錄草案完整版

三車齊發(fā) 零跑全新C10/C11/C16上市12.58萬元起

態(tài)度原創(chuàng)

高考正是展示女子新字的好機(jī)會(huì)！忮賢忌能這種“好詞”只用在游戲

最新房?jī)r(jià)：海口、三亞；新房、二手房全線下跌！

這屆年輕人為什么都在找心流時(shí)刻？

章丘公園的荷花盛開

美被指拒絕以色列看美伊諒解備忘錄

超越吉魯、超越梅西 27歲的姆巴佩這夜把紀(jì)錄破了個(gè)遍

最新房?jī)r(jià)：海口、三亞；新房、二手房全線下跌！

這屆年輕人為什么都在找心流時(shí)刻？