国产人妻精品区一区二区三区_色噜噜狠狠一区二区三区果冻_最新国产の精品合集bt7086_av电影手机在线观看_亚洲国产欧美在线综合其他_成免费crm85171_97人妻人人揉人人澡人人爽国产_色天使久久综合网天天_爱回家之开心速递粤语在线观看

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Kimi“打破Transformer架構(gòu)”真相

0
分享至


本周,一篇題為《Attention Residuals》的論文,將Kimi推至全球人工智能領(lǐng)域的聚光燈下。論文作者之一,甚至是一名年僅十七歲的高中生。xAI首席執(zhí)行官埃隆·馬斯克與Google高級人工智能產(chǎn)品經(jīng)理Shubham Saboo,亦公開發(fā)文祝賀。后者更宣稱,Kimi正在觸及Transformer架構(gòu)中“長達十年無人觸碰的部分”。


一時間,輿論場喧囂四起。諸如“打破Transformer架構(gòu)”、“硅谷破防”、“改寫行業(yè)規(guī)則”等標題,迅速占據(jù)頭條。

本文結(jié)論先行:這是一項天才般的構(gòu)想,一次極其硬核的研究,但其本質(zhì)并未脫離Transformer架構(gòu)的基本框架。至于那些聳人聽聞的標簽,大多出自營銷號之手,缺乏事實依據(jù)。

事實上,針對殘差連接的探索并非孤例。從2022年的DeepNorm到2024年的DenseFormer,優(yōu)化這一深度神經(jīng)網(wǎng)絡(luò)的基石,始終是業(yè)界持續(xù)發(fā)力的方向。Kimi研究團隊并非此技術(shù)路線的開辟者,卻在這條既有路徑上,貢獻了一個兼具激進性、優(yōu)雅性與工程潛能的解決方案。

01

深層Transformer的結(jié)構(gòu)性困境

在規(guī)?;▌t的驅(qū)動下,提升模型性能的路徑愈發(fā)依賴于參數(shù)與規(guī)模的擴張,神經(jīng)網(wǎng)絡(luò)層數(shù)的激增成為必然。然而,研究團隊注意到一個關(guān)鍵現(xiàn)象:數(shù)據(jù)在神經(jīng)網(wǎng)絡(luò)層間傳遞時,存在著“PreNorm稀釋問題”。PreNorm作為一種歸一化技術(shù),因其能有效穩(wěn)定訓(xùn)練、加速收斂,已成為現(xiàn)代架構(gòu)的主流選擇。

為便于直觀理解,不妨將一個大模型比作一條由一百名程序員組成的流水線。每位程序員對應(yīng)一層神經(jīng)網(wǎng)絡(luò),共同協(xié)作完成一個大型軟件項目。

在傳統(tǒng)的標準殘差連接模式下,層與層之間的狀態(tài)更新遵循如下公式:

當前層的輸出,等于上一層輸出與該層自身“修改部分”(即變換函數(shù)輸出)的直接相加。類比而言,每位程序員接收前一位的代碼,附上自己的修改后,傳遞給下一位。


這種簡單累加的方式,在實踐中會引發(fā)連鎖問題。從數(shù)學(xué)視角審視,它將導(dǎo)致兩個互為因果的訓(xùn)練困境:

其一,早期信息被稀釋掩埋。首層神經(jīng)網(wǎng)絡(luò)提取的原始特征——例如token的初始語義——在經(jīng)歷數(shù)十層累加后,其相對權(quán)重被逐層消解,面目模糊。流水線末端的程序員,無從知曉源頭究竟起草了怎樣的底層邏輯。模型越深入,對早期低級特征的精確檢索與利用便越困難。

其二,數(shù)值尺度膨脹與梯度失衡。殘差的持續(xù)累加,如同項目代碼庫的無休止擴充。后期加入的程序員若想使自己的改動產(chǎn)生可見影響,不得不添加更大量的代碼。對應(yīng)到網(wǎng)絡(luò),深層必須輸出數(shù)值規(guī)模更大的信號,才能在累加中占據(jù)一席之地。這一現(xiàn)象在正向傳播中或許尚可容忍,但在反向傳播中則潛藏危機:淺層梯度可能劇烈震蕩,深層梯度卻趨于微小,整個網(wǎng)絡(luò)的梯度分布極度不均,訓(xùn)練極易失穩(wěn)。

因此,研究的核心命題便凝練為:如何讓處于網(wǎng)絡(luò)最深層的“程序員”,依然能夠清晰辨識并調(diào)用首位“程序員”所撰寫的基礎(chǔ)代碼?

02

時間維度與深度維度的對偶映射

Kimi研究團隊的關(guān)鍵洞見,在于識別出神經(jīng)網(wǎng)絡(luò)演進史中,時間序列處理與網(wǎng)絡(luò)深度構(gòu)建之間存在的對偶關(guān)系。

Transformer并非神經(jīng)網(wǎng)絡(luò)的初始形態(tài)。約在2018年前,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)主導(dǎo)著序列建模。RNN以時序方式逐詞處理文本,將歷史信息壓縮為單一隱藏狀態(tài)向后傳遞。其后果是,后序單元只能接收一個混雜了過往信息的“壓縮包”,早期輸入極易被遺忘——這一過程,與標準殘差連接的信息傳遞機制驚人地相似。

Transformer則憑借注意力機制,顛覆了這一范式。在自回歸解碼中,每一位置的詞元,都能直接“回望”序列中所有前置詞元,并通過加權(quán)聚焦關(guān)鍵信息。在時間維度上,注意力機制完美消解了信息壓縮與遺忘的難題。

一個自然的類比由此浮現(xiàn):能否在網(wǎng)絡(luò)的深度維度上,揚棄殘差連接所隱含的“RNN式思維”,轉(zhuǎn)而引入注意力機制?

這正是Kimi論文的核心創(chuàng)新——注意力殘差(Attention Residuals, AttnRes)。傳統(tǒng)殘差累加公式被重塑為一個基于Softmax的注意力加權(quán)形式:


新公式不再將淺層輸出簡單相加,而是為每一層配備一個“偽查詢向量”,使其能夠動態(tài)掃描之前所有層的輸出,并為那些包含關(guān)鍵信息的層賦予極高的Softmax權(quán)重。無關(guān)信息層的權(quán)重則被壓至近零。

這套內(nèi)容感知、輸入依賴的選擇機制,本質(zhì)上是將Transformer的核心理念橫向遷移至殘差路徑的設(shè)計中。殘差連接由此從被動的“信息搬運”,轉(zhuǎn)變?yōu)橹鲃拥摹鞍葱铏z索”,有效規(guī)避了深層信息稀釋的痼疾。

03

從理論構(gòu)想到系統(tǒng)級工程

若僅止步于此,注意力殘差仍可能囿于實驗室的理想圖景。真實的大模型工程實踐,尤其面對千億參數(shù)、分布式訓(xùn)練的嚴苛環(huán)境,直接套用該機制將引發(fā)顯存與通信的“爆炸”。

在分布式訓(xùn)練普遍采用激活重算、流水線并行等技術(shù)的前提下,若強行實現(xiàn)跨層全連接,深層網(wǎng)絡(luò)將不得不跨物理GPU節(jié)點,獲取所有淺層完整的輸出張量。隨著層數(shù)L增加,跨階段數(shù)據(jù)傳輸量與顯存占用將以O(shè)(Ld)規(guī)模急劇膨脹,對算力集群構(gòu)成災(zāi)難性負擔(dān)。

因此,Kimi團隊為解決工程落地而提出的分塊注意力殘差,展現(xiàn)出極高的實用智慧。

為將理論付諸實踐,Kimi團隊設(shè)計了一套精妙的降維方案:

核心思路是“分塊降維”。

回到程序員流水線的比喻:要求末位程序員洞悉每一位前序同事的具體貢獻,意味著每位前序程序員都需保留完整的“草稿箱”——這在物理空間上是不可行的。解決方案是,將程序員劃分為N個部門。部門內(nèi)部沿用標準殘差,并將多層的輸出壓縮成一個單一的“塊級表征”。部門之間則啟用注意力殘差機制,只需關(guān)注這N個塊級表征,而無需追溯每個具體層級的輸出。

這一簡單而大膽的策略,直接將顯存與通信的復(fù)雜度從O(Ld)降至O(Nd),為理論落地掃除了最大障礙。

其次,訓(xùn)練階段的跨階段緩存設(shè)計進一步優(yōu)化了通信開銷。在主流的交錯式流水線調(diào)度模式下,每個物理GPU常需處理多個計算階段。團隊為此設(shè)計了本地緩存機制,確保先前接收到的塊級表征駐留于本地顯存,從而避免跨節(jié)點重復(fù)傳輸。此舉大幅壓縮了流水線并行的通信峰值,并使跨塊通信時間可被計算過程有效掩蓋。

最后,推理階段的雙階段計算與在線Softmax融合,緩解了內(nèi)存帶寬瓶頸。推理時反復(fù)讀取大量歷史塊級表征,易導(dǎo)致嚴重的內(nèi)存帶寬壓力。研究團隊采用雙階段策略:第一階段以批處理方式計算跨塊注意力,攤銷內(nèi)存讀取成本;第二階段順序計算塊內(nèi)局部注意力。兩階段結(jié)果通過在線Softmax技術(shù)無縫合并,并與RMSNorm等算子進行內(nèi)核融合。

技術(shù)細節(jié)無需贅述,但結(jié)果令人印象深刻:上述復(fù)雜的跨層注意機制疊加后,Block AttnRes帶來的額外訓(xùn)練開銷幾乎可以忽略;在典型自回歸推理場景中,端到端延遲增幅低于2%。Kimi團隊在改寫大模型底層網(wǎng)絡(luò)拓撲的同時,實現(xiàn)了如此程度的優(yōu)化,堪稱工程上的奇跡。

04

實證效果與產(chǎn)業(yè)意義

最終,Kimi研究團隊將這套架構(gòu)部署至一個參數(shù)規(guī)模為48B(激活3B)的小型MoE模型,并使用高達1.4萬億token的數(shù)據(jù)進行真實環(huán)境預(yù)訓(xùn)練。


規(guī)?;▌t曲線顯示:在同等算力投入下,應(yīng)用Block AttnRes的模型始終獲得更低的損失值。簡單換算,該架構(gòu)使模型能達到傳統(tǒng)基線模型需耗費1.25倍算力方可實現(xiàn)的性能。對于耗資動輒千萬美元級的預(yù)訓(xùn)練階段而言,“白嫖”25%的算力增益,蘊含著巨大的商業(yè)價值。

下游能力測試中,需要多步驟邏輯推理的任務(wù)獲益最為顯著:


GPQA-Diamond提升7.5%,Math提升3.6%,HumanEval提升3.1%。這一結(jié)果在邏輯上高度自洽:數(shù)學(xué)推導(dǎo)與代碼生成皆要求模型具備長時間推理與信息保持能力,AttnRes的深度檢索機制恰好契合了這種“不忘初衷”的內(nèi)在需求。

月之暗面創(chuàng)始人楊植麟在2026年英偉達GTC大會上的公開演講,也從側(cè)面印證了這套架構(gòu)的價值:“要推動大模型智能上限持續(xù)突破,必須對優(yōu)化器、注意力機制和殘差連接等底層基石進行重構(gòu)。”

當然,這項技術(shù)距離真正顛覆Transformer架構(gòu)或改寫行業(yè)規(guī)則,尚有顯著距離。核心工程代碼尚未完全開源,公開倉庫中僅提供偽代碼級別的演示。同時,論文中亮眼的實驗結(jié)果,全部出自月之暗面自有的模型結(jié)構(gòu)與私有數(shù)據(jù)。注意力殘差能否在其他主流大模型上復(fù)現(xiàn)出穩(wěn)定且顯著的收益,仍有待第三方獨立驗證。

客觀而言,在深度學(xué)習(xí)領(lǐng)域,對底層機制進行啟發(fā)式修改的嘗試并不鮮見。但一篇論文能獲得馬斯克的“光速”點贊,本身已說明其分量。


最準確的論斷或許是:這是一個兼顧了學(xué)術(shù)美學(xué)與工程實用性、值得全行業(yè)深入跟蹤的殘差機制新設(shè)計。它并非推翻Transformer的神話,而是為這座大廈添上了一塊關(guān)鍵的磚石。

而月之暗面借此向世界展示:在底層架構(gòu)創(chuàng)新的“深水區(qū)”,中國AI企業(yè)同樣有能力交出極具技術(shù)含量、堪稱世界級水準的答卷。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
北京“退衣姐”被刑拘!換賬號調(diào)包退貨她干了4年|大象夜讀

北京“退衣姐”被刑拘!換賬號調(diào)包退貨她干了4年|大象夜讀

大象新聞
2026-06-16 19:23:35
“購車后一個星期就發(fā)現(xiàn)空調(diào)噴白色粉末”,速騰“噴粉”波及寶來!一汽-大眾稱顆粒無害、免費換空調(diào)蒸發(fā)器,多位車主陷“拆修”兩難

“購車后一個星期就發(fā)現(xiàn)空調(diào)噴白色粉末”,速騰“噴粉”波及寶來!一汽-大眾稱顆粒無害、免費換空調(diào)蒸發(fā)器,多位車主陷“拆修”兩難

每日經(jīng)濟新聞
2026-06-16 21:40:50
尷尬!巴西男球迷看臺上緊盯女伴胸部看 被轉(zhuǎn)播鏡頭拍到后生無可戀

尷尬!巴西男球迷看臺上緊盯女伴胸部看 被轉(zhuǎn)播鏡頭拍到后生無可戀

風(fēng)過鄉(xiāng)
2026-06-16 13:11:30
山東3億北斗工程現(xiàn)“脆皮底座”,官方組成聯(lián)合調(diào)查組

山東3億北斗工程現(xiàn)“脆皮底座”,官方組成聯(lián)合調(diào)查組

界面新聞
2026-06-17 08:03:46
必勝客,被賣了

必勝客,被賣了

澎湃新聞
2026-06-16 23:59:03
特朗普直言不想為臺海開戰(zhàn),國會立馬立法鎖死對臺強硬路線

特朗普直言不想為臺海開戰(zhàn),國會立馬立法鎖死對臺強硬路線

健身狂人
2026-06-16 20:29:01
五月的消費數(shù)據(jù)爆了

五月的消費數(shù)據(jù)爆了

大何日拱一卒
2026-06-16 18:33:13
76歲上海阿婆被星探邀約做代言人,還差點參加春晚彩排?警方緊急攔停3次!

76歲上海阿婆被星探邀約做代言人,還差點參加春晚彩排?警方緊急攔停3次!

新民晚報
2026-06-16 10:49:59
給伊朗的3000億賠款,特朗普一分不出,要讓叫最歡的海灣國家買單

給伊朗的3000億賠款,特朗普一分不出,要讓叫最歡的海灣國家買單

共工之錨
2026-06-17 00:31:30
日本國腳竟是輪奸犯?主教練曾回應(yīng):只是失誤!此前多名日本前國腳陷入性侵丑聞

日本國腳竟是輪奸犯?主教練曾回應(yīng):只是失誤!此前多名日本前國腳陷入性侵丑聞

新民周刊
2026-06-16 15:05:47
高校,瘋狂擴招了

高校,瘋狂擴招了

城市財經(jīng)
2026-06-15 11:45:40
這個小女孩火了!大聲吐槽雷軍:吃早飯還要拍照,評論區(qū)替她擔(dān)心

這個小女孩火了!大聲吐槽雷軍:吃早飯還要拍照,評論區(qū)替她擔(dān)心

譚談社會
2026-06-16 19:46:45
寶媽誤發(fā)私密視頻風(fēng)波未停:最該譴責(zé)的,從來不是失手的當事人

寶媽誤發(fā)私密視頻風(fēng)波未停:最該譴責(zé)的,從來不是失手的當事人

千言娛樂記
2026-06-15 16:54:12
雷軍被罵東施效顰!都是在街邊,都是吃面,遭嘲諷模仿黃仁勛翻車

雷軍被罵東施效顰!都是在街邊,都是吃面,遭嘲諷模仿黃仁勛翻車

譚談社會
2026-06-16 18:34:43
樂山一事業(yè)單位招考2名臨聘人員進面試,崗位被質(zhì)疑為“蘿卜崗”,涉事單位否認

樂山一事業(yè)單位招考2名臨聘人員進面試,崗位被質(zhì)疑為“蘿卜崗”,涉事單位否認

瀟湘晨報
2026-06-16 21:11:02
山東一村莊老齡化率近50%!老兩口月收入僅436元,全靠2元集體食堂存活

山東一村莊老齡化率近50%!老兩口月收入僅436元,全靠2元集體食堂存活

風(fēng)向觀察
2026-06-16 09:09:46
4.6萬婚宴上預(yù)制菜后續(xù):黑料被扒,新郎身份曝光,踢到鐵板了

4.6萬婚宴上預(yù)制菜后續(xù):黑料被扒,新郎身份曝光,踢到鐵板了

阿纂看事
2026-06-16 18:41:03
拿清華全額獎學(xué)金留學(xué),印度女學(xué)生回國瘋狂吐槽:中國是封閉社會

拿清華全額獎學(xué)金留學(xué),印度女學(xué)生回國瘋狂吐槽:中國是封閉社會

小徐講八卦
2026-06-16 14:59:41
世界杯神助攻!24歲巨星加冕MVP:1腳穿透4人 姆巴佩感謝他

世界杯神助攻!24歲巨星加冕MVP:1腳穿透4人 姆巴佩感謝他

葉青足球世界
2026-06-17 06:54:26
伊朗戰(zhàn)爭是美國最重大的戰(zhàn)略失誤之一,特朗普戰(zhàn)前宣布的5個目標全部失敗

伊朗戰(zhàn)爭是美國最重大的戰(zhàn)略失誤之一,特朗普戰(zhàn)前宣布的5個目標全部失敗

互聯(lián)網(wǎng)大觀
2026-06-16 10:35:36
2026-06-17 08:40:49
硅基星芒AI
硅基星芒AI
錦緞旗下人工智能研究與媒體服務(wù)平臺
73文章數(shù) 7關(guān)注度
往期回顧 全部

科技要聞

美國給Anthropic新模型上了“芯片級管制”

頭條要聞

超越吉魯、超越梅西 27歲的姆巴佩這夜把紀錄破了個遍

頭條要聞

超越吉魯、超越梅西 27歲的姆巴佩這夜把紀錄破了個遍

體育要聞

身價5萬的門將,擋住了12億歐元的狂轟濫炸

娛樂要聞

吳文忻葬禮:2個女兒在靈堂內(nèi)茫然失措

財經(jīng)要聞

美媒曝光美伊諒解備忘錄草案完整版

汽車要聞

三車齊發(fā) 零跑全新C10/C11/C16上市12.58萬元起

態(tài)度原創(chuàng)

親子
房產(chǎn)
家居
本地
健康

親子要聞

1歲前多做這項運動,孩子上學(xué)后聽課專心、寫字端正,家長太省心

房產(chǎn)要聞

最新房價:???、三亞;新房、二手房全線下跌!

家居要聞

綠意盎然 自然之境

本地新聞

這屆年輕人為什么都在找心流時刻?

粽子一次吃多少不傷胃?專家講解

無障礙瀏覽 進入關(guān)懷版