国产人妻精品区一区二区三区_色噜噜狠狠一区二区三区果冻_最新国产の精品合集bt7086_av电影手机在线观看_亚洲国产欧美在线综合其他_成免费crm85171_97人妻人人揉人人澡人人爽国产_色天使久久综合网天天_爱回家之开心速递粤语在线观看

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

當(dāng)線性注意力學(xué)會「寫入前思考」:并行化的多步記憶寫入

0
分享至







該工作已被機(jī)器學(xué)習(xí)領(lǐng)域頂級會議 ICML 2026 錄用,論文題目 “PRISM: Parallel Residual Iterative Sequence Model”。

一、背景:從無限背包到有限背包

(一)Transformer 的無限背包與線性注意力的有限背包





背包容量有限,每來一個新 token,模型必須決定往里寫什么、同時擦掉什么。這個 "寫與擦" 的規(guī)則,決定了有限背包模型的天花板。但在深入討論 "寫與擦" 之前,我們先要回答一個更基本的問題。

(二)有限背包本質(zhì)上是 RNN,為何還能并行?

確實如此,有限背包模型的數(shù)學(xué)形式本質(zhì)上就是 RNN:





關(guān)鍵在于一個數(shù)學(xué)技巧:Parallel Scan(并行前綴掃描)。









(三)為什么并行這么重要?GPU 的 "搬運(yùn)工" 瓶頸

一個常見的誤解是將 "串行慢" 歸因于更多的浮點(diǎn)運(yùn)算。實際上,瓶頸在別處?,F(xiàn)代 GPU 的計算核心(Tensor Core / CUDA Core)算力極為充沛,A100 GPU 每秒能做 312 萬億次浮點(diǎn)運(yùn)算(312 TFLOPS)。真正的瓶頸不是 "算",而是 "搬"。

GPU 的存儲分為兩層:

  • HBM(High Bandwidth Memory,高帶寬顯存):容量大(40-80 GB),但讀寫速度 "慢"(約 2 TB/s)。模型參數(shù)、state 矩陣 S、中間 activation 都存在這里。
  • SRAM(片上緩存):容量小(每個 SM 約 192 KB),但讀寫速度極快(約 19 TB/s,快 10 倍)。GPU 的計算核心只能直接訪問 SRAM。

打個比方:SRAM 像工作臺(小但觸手可及),HBM 像倉庫(大但每次取貨要走一趟)。

所以每一次計算都要經(jīng)歷一個 "搬運(yùn)" 流程:把數(shù)據(jù)從 HBM 搬進(jìn) SRAM,在 SRAM 里算完,再把結(jié)果搬回 HBM。這個搬運(yùn)的時間往往遠(yuǎn)超計算本身,這就是所謂的 memory-bound(存儲帶寬瓶頸)。





能否適配parallel scan 不僅是算法設(shè)計上的美學(xué)選擇,更直接決定了 10-100 倍的實際運(yùn)行速度差異。

(四)Rank-1 寫入的瓶頸

以 GDN (Gated DeltaNet)為代表的線性注意力模型,每個 token 對 S 做的是一次 rank-1 更新:





如果一個 token 攜帶的語義是多維度的(它同時是某個句法結(jié)構(gòu)的成分、某個語義角色的載體、某個 topic 的關(guān)鍵詞),rank-1 的一行寫入無法同時在這些維度上做精細(xì)調(diào)整。信息在壓縮寫入時不可避免地丟失。

核心矛盾:背包有限,每次卻只允許寫一行。這是當(dāng)前所有線性復(fù)雜度模型的共有瓶頸。

(五)TTT 的突破與代價

既然 rank-1 寫入太淺,一個自然的想法是:讓模型學(xué)會更深的寫入規(guī)則。

TTT(Test-Time Training)系列工作采取了一種根本性不同的策略:把記憶狀態(tài)從一個 linear 矩陣 S 升級為一個 MLP 的權(quán)重矩陣。每來一個 token,對 MLP 的權(quán)重做多步梯度下降(multi-step GD),逐步精煉寫入內(nèi)容。這帶來了顯著的質(zhì)量提升。





二、分析:TTT-MLP 為什么效果好,但速度慢?

在設(shè)計 PRISM 之前,我們首先深入分析 TTT-MLP 的梯度結(jié)構(gòu),弄清楚它的高表達(dá)力到底從何而來。

(一)步長 × 殘差 × 方向 模式的涌現(xiàn)



每步更新具有一個結(jié)構(gòu)模式:



TTT-MLP 的高表達(dá)力正來自這個 步長 × 殘差 × 方向 模式:多步殘差遞減提供了優(yōu)化深度(depth),W? 多行提供多個方向則提供了表達(dá)寬度(width /rank-L)(即同時修改 S 矩陣的 L 個獨(dú)立維度)。

(二)高表達(dá)力與串行是同一根因的兩面



具體來說,它造成了兩個維度的串行瓶頸:

1. Token 間串行(Inter-token Seriality)





2. Step 間串行(Intra-step Seriality)

瓶頸 C(方向與殘差的同步):在多步 GD 中,第 l+1 步的寫入方向必須等待第 l 步的權(quán)重更新完畢才能確定,殘差也必須等上一步算完才能得到,強(qiáng)制引入一個無法展開的循環(huán)。

瓶頸 C 是最核心的矛盾:它同時是 rank-L 表達(dá)力的載體和步間串行的根源。因此消除瓶頸 C 不能簡單取消迭代,必須在取消同步耦合的同時保留多方向和殘差遞減帶來的表達(dá)力。

三、方法:PRISM 的設(shè)計與實現(xiàn)

基于上述分析,PRISM 的策略非常明確:在兼容 parallel scan 的線性狀態(tài) S 上顯式重建 TTT-MLP 的 步長 × 殘差 × 方向 模式,然后分維度消除串行。

(一)核心迭代形式:步長 × 殘差 × 方向

PRISM 顯式構(gòu)造了 TTT-MLP 的多步迭代模式:





與 TTT-MLP 的對應(yīng)關(guān)系:





(二)消除 Token 間串行:A/B 分離 + 局部 Anchor 代理





至此,序列級別的 parallel scan 已完全恢復(fù)。anchor 讓不同 token 的迭代可以同時啟動,但每個 token 內(nèi)部的 L 步之間仍需順序執(zhí)行(瓶頸 C)。

(三)消除 Step 間串行:解耦鏈 + 閉合式預(yù)計算

解決瓶頸 C。因為有了 anchor,兩條鏈自然解耦:







由此多步迭代推算得到閉合式:



L 步的串行循環(huán)被消解為單步閉合式計算。整個多步梯度下降計算過程可以編譯成一個 fused kernel,數(shù)據(jù)只需要從 HBM 搬進(jìn) SRAM 一次。

(四)架構(gòu)全貌與 GDN 退化

多步梯度下降計算過程的原始產(chǎn)出是 L 個 rank-1 迭代計算:







PRISM 可以視為一種多步殘差擬合計算過程,L=1 時精確退化為 GDN。 后續(xù)步只是在第一步的基礎(chǔ)上追加非線性修正,且可以使用 low rank 網(wǎng)絡(luò)增量,額外參數(shù)量不超過基礎(chǔ)模型的 10%。

四、實驗結(jié)果

(一)序列推薦

在公開序列推薦基準(zhǔn) Amazon 上,PRISM 表現(xiàn)與 Transformer baseline 效果接近,超過大多數(shù)線性注意力類方法。計算效率方面,PRISM 與 GDN 同級,比 TTT-MLP 快 174 倍。



(二)語言建模(基于 SlimPajama 2B 訓(xùn)練,130M 參數(shù))

在更大規(guī)模的語言建模實驗上(SlimPajama 2B tokens, Mistral tokenizer),PRISM 同樣取得了全面領(lǐng)先:



PRISM 在 WikiText PPL、LAMBADA PPL 和 9 項 Zero-Shot 下游任務(wù)平均準(zhǔn)確率上均為最優(yōu),領(lǐng)先 GDN 3.2 個百分點(diǎn)。

(三)組件消融



訓(xùn)練 PPL 差異極小,但下游泛化差異巨大。單步 solver (L=1) 的訓(xùn)練 PPL 幾乎等于完整版,但 Avg ACC 下跌 2.9 個百分點(diǎn) ——rank-L 的真正價值不在 next-token prediction 上,而在需要精確長程檢索的下游任務(wù)上。



五、延伸思考

(一)有限背包終究有限,混合架構(gòu)也許是必然



從 PRISM 的視角看,這個直覺有一個很好的技術(shù)解釋。PRISM 用短卷積(ShortConv)計算的局部 anchor 替代全局狀態(tài) S 來近似殘差。由于短卷積窗口通常只覆蓋最近 3-4 個 token,對于需要跨越數(shù)千步的長程依賴,近似質(zhì)量必然下降。

如果在 PRISM 層之間穿插少量 Transformer 層,后者就充當(dāng)了一種全局的、非線性的歷史狀態(tài)精確計算器,能補(bǔ)償 anchor 在長程上的近似誤差。從這個角度看,Transformer 本身就是 ShortConv anchor 的 "全局升級版":ShortConv 用固定窗口的局部卷積近似歷史狀態(tài),Transformer 用全局 attention 精確算歷史狀態(tài)。



(二)線性注意力的 LoRA?

PRISM 的最終形式有一個有趣的結(jié)構(gòu)特征:



這個 "基礎(chǔ)迭代過程 + low rank 旁路" 的形式,跟 LoRA(Low-Rank Adaptation) 非常相似,這啟發(fā)了一個微調(diào)場景下的有趣思路。

LoRA 的核心思想是:凍結(jié)預(yù)訓(xùn)練好的大模型權(quán)重,只在關(guān)鍵層旁邊加一條 low-rank 旁路來做微調(diào)。受 PRISM 形式的啟發(fā),我們可以設(shè)想一種面向 Linear Attention / SSM 模型的參數(shù)高效微調(diào)方法:對已訓(xùn)練好的模型,凍結(jié)基礎(chǔ)迭代過程,只在寫入支路上增加一條 PRISM 風(fēng)格的殘差擬合旁路,此外,這條旁路有閉合式(不增加訓(xùn)練時間),而且第一步退化為原模型的標(biāo)準(zhǔn)寫入(不破壞預(yù)訓(xùn)練知識)。這意味著它滿足 LoRA 的兩個關(guān)鍵要求:參數(shù)高效和不損害原模型能力。

結(jié)語

PRISM 驗證了 "寫入前思考" 范式在線性注意力模型中的可行性:通過分析 TTT-MLP 的梯度結(jié)構(gòu)揭示 步長 × 殘差 × 方向 迭代模式,在線性狀態(tài)上顯式重建該模式并通過 anchor 代理和閉合式預(yù)計算實現(xiàn)完全并行。最終架構(gòu)極簡 ——GDN + 非線性旁路,訓(xùn)練速度與 GDN 同級,參數(shù)增量不到 10%。在推薦和語言建模兩個場景上的驗證表明,這是一項通用的線性注意力增強(qiáng)技術(shù)。未來我們將進(jìn)一步探索 PRISM 在更大參數(shù)規(guī)模上的 scaling 行為和推薦系統(tǒng)上的應(yīng)用效果,以及其作為線性注意力模型參數(shù)高效微調(diào)方法的實際效果。

參考文獻(xiàn):

[1] Sun et al. “Learning to (Learn at Test Time): RNNs with Expressive Hidden States.” NeurIPS 2024.

[2] Yang et al. “Gated Delta Networks with Pairwise Tokenized Graphs.” NeurIPS 2024.

[3] Katharopoulos et al. “Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention.” ICML 2020.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
曝4瓜!湖南臺女主持愛買高仿、體重反彈、懷四胎,沈騰令人意外

曝4瓜!湖南臺女主持愛買高仿、體重反彈、懷四胎,沈騰令人意外

阿傖說事
2026-06-16 21:24:10
一絲不掛還不知廉恥!內(nèi)娛為藝術(shù)獻(xiàn)身的流氓真相,該打破了

一絲不掛還不知廉恥!內(nèi)娛為藝術(shù)獻(xiàn)身的流氓真相,該打破了

一盅情懷
2026-06-17 06:15:56
低飽和藍(lán)灰同調(diào)疊搭的運(yùn)動休閑造型,襯得女生從容松弛又有氣質(zhì)

低飽和藍(lán)灰同調(diào)疊搭的運(yùn)動休閑造型,襯得女生從容松弛又有氣質(zhì)

只要高興就好
2026-06-13 08:12:01
內(nèi)塔尼亞胡:對美伊協(xié)議條款不知情

內(nèi)塔尼亞胡:對美伊協(xié)議條款不知情

第一財經(jīng)資訊
2026-06-16 09:11:06
人民幣突然大漲!有存款的人偷著樂,4類人直接受益,2類人要留心

人民幣突然大漲!有存款的人偷著樂,4類人直接受益,2類人要留心

王二哥老搞笑
2026-06-16 15:09:16
隊報:韓媒嘲諷孫興慜引爭議,韓國球員隨后決定抵制國內(nèi)媒體

隊報:韓媒嘲諷孫興慜引爭議,韓國球員隨后決定抵制國內(nèi)媒體

懂球帝
2026-06-16 21:55:19
這張地鐵“偷拍照”火了,千萬家長圍觀:這才是最高級的“炫富”

這張地鐵“偷拍照”火了,千萬家長圍觀:這才是最高級的“炫富”

舞指飛揚(yáng)
2026-06-12 09:38:48
機(jī)關(guān)下設(shè)的事業(yè)單位,比如各種“中心”,名義上是獨(dú)立機(jī)構(gòu),實際上早成了機(jī)關(guān)的內(nèi)設(shè)處室?

機(jī)關(guān)下設(shè)的事業(yè)單位,比如各種“中心”,名義上是獨(dú)立機(jī)構(gòu),實際上早成了機(jī)關(guān)的內(nèi)設(shè)處室?

碧翰烽
2026-05-08 07:33:09
《年會不能停2》劇組上影節(jié)走紅毯,演員高葉兩次欲言又止,堅持讓張若昀、白客先發(fā)言,與片方演員表排序保持一致

《年會不能停2》劇組上影節(jié)走紅毯,演員高葉兩次欲言又止,堅持讓張若昀、白客先發(fā)言,與片方演員表排序保持一致

極目新聞
2026-06-14 20:06:31
“摸奶子”再惹爭議,OPPO的流量反噬開始了

“摸奶子”再惹爭議,OPPO的流量反噬開始了

品牌頭版
2026-05-13 10:18:15
官方公開!央視開箱測評QBZ191自動步槍,透露出哪些細(xì)節(jié)?

官方公開!央視開箱測評QBZ191自動步槍,透露出哪些細(xì)節(jié)?

軍武次位面
2026-06-16 15:47:21
人質(zhì)解救誤殺10歲女孩,巴基斯坦警方逮捕涉事警員

人質(zhì)解救誤殺10歲女孩,巴基斯坦警方逮捕涉事警員

全棧遛狗員
2026-06-16 00:34:51
近視防控鏡到底有多暴利:賣3280元的眼鏡進(jìn)貨價僅126元 用久還會加深近視

近視防控鏡到底有多暴利:賣3280元的眼鏡進(jìn)貨價僅126元 用久還會加深近視

快科技
2026-06-15 15:35:20
美論壇:沒經(jīng)過韓國的允許,中國怎么還敢擅自發(fā)射那么多衛(wèi)星?

美論壇:沒經(jīng)過韓國的允許,中國怎么還敢擅自發(fā)射那么多衛(wèi)星?

素衣讀史
2026-06-16 21:53:52
德仁天皇當(dāng)眾怒懟高市早苗:70年來頭一遭,日本皇室要變天了?

德仁天皇當(dāng)眾怒懟高市早苗:70年來頭一遭,日本皇室要變天了?

各生歡喜者
2026-06-16 17:55:08
加拿大待不下去,香港又回不來,曾驕傲無比的李婉華還有退路嗎

加拿大待不下去,香港又回不來,曾驕傲無比的李婉華還有退路嗎

黔鄉(xiāng)小姊妹
2026-05-31 08:36:34
美芯片價格暴跌90%!美媒破防:責(zé)任在中國,因為中國不買了

美芯片價格暴跌90%!美媒破防:責(zé)任在中國,因為中國不買了

果媽聊娛樂
2026-06-16 10:52:51
你是什么時候?qū)γ琅铟鹊??網(wǎng)友:妝前妝后判若兩人

你是什么時候?qū)γ琅铟鹊??網(wǎng)友:妝前妝后判若兩人

阿康四歲啦
2026-06-11 11:05:35
潘展樂再奪國內(nèi)比賽冠軍,亞洲第一,世界大賽卻沒了競爭力

潘展樂再奪國內(nèi)比賽冠軍,亞洲第一,世界大賽卻沒了競爭力

體娛一家親
2026-06-16 19:55:27
“賀峻霖本科平均學(xué)分績點(diǎn)3.84”沖上熱搜,本人曬三好學(xué)生、獎學(xué)金等多張證書,已成功保研中國傳媒大學(xué)研究生

“賀峻霖本科平均學(xué)分績點(diǎn)3.84”沖上熱搜,本人曬三好學(xué)生、獎學(xué)金等多張證書,已成功保研中國傳媒大學(xué)研究生

閃電新聞
2026-06-15 16:35:37
2026-06-17 08:23:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13280文章數(shù) 142670關(guān)注度
往期回顧 全部

科技要聞

借AI東風(fēng)燒赤壁,理想的糧草還夠嗎?

頭條要聞

副省部級"老虎"降職處分后二次被查 專家:涉兩個原因

頭條要聞

副省部級"老虎"降職處分后二次被查 專家:涉兩個原因

體育要聞

身價5萬的門將,擋住了12億歐元的狂轟濫炸

娛樂要聞

吳文忻葬禮:2個女兒在靈堂內(nèi)茫然失措

財經(jīng)要聞

從123美元到62美元 白銀價格上演過山車

汽車要聞

三車齊發(fā) 零跑全新C10/C11/C16上市12.58萬元起

態(tài)度原創(chuàng)

旅游
游戲
藝術(shù)
數(shù)碼
軍事航空

旅游要聞

不止于燈 一束光在南沙的N種打開方式

《黎明殺機(jī)》角色建模變更細(xì)節(jié)圖 更逼真了

藝術(shù)要聞

約旦最大的體育場開始建設(shè),計劃2029年完工!

數(shù)碼要聞

Snap旗下首款面向普通消費(fèi)者的AR眼鏡Specs發(fā)布,2195美元

軍事要聞

美被指拒絕以色列看美伊諒解備忘錄

無障礙瀏覽 進(jìn)入關(guān)懷版