国产人妻精品区一区二区三区_色噜噜狠狠一区二区三区果冻_最新国产の精品合集bt7086_av电影手机在线观看_亚洲国产欧美在线综合其他_成免费crm85171_97人妻人人揉人人澡人人爽国产_色天使久久综合网天天_爱回家之开心速递粤语在线观看

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

國產(chǎn)萬億級模型技術(shù)報告公開!螞蟻這樣攻克能力成本延遲“不可能三角”

0
分享至


智東西
編譯 楊京麗
編輯 李水青

智東西6月16日消息,今天,螞蟻百靈團(tuán)隊發(fā)布Ling-2.6-flash、Ling-2.6-1T 和 Ring-2.6-1T三款模型的Ling & Ring 2.6技術(shù)報告,系統(tǒng)公開百靈2.6系列模型在架構(gòu)、預(yù)訓(xùn)練、后訓(xùn)練與推理基礎(chǔ)設(shè)施等方面的技術(shù)細(xì)節(jié)。

此前,百靈已陸續(xù)開源Ling-2.6-flash、Ling-2.6-1T和Ring-2.6-1T。三個模型面向不同場景:Ling-2.6-flash主打低延遲、高吞吐和高頻調(diào)用,適合信息抽取、格式轉(zhuǎn)換、批處理、長輸出,以及Agent工作流中的輕量執(zhí)行節(jié)點(diǎn);Ling-2.6-1T面向更高能力密度和更強(qiáng)通用能力,重點(diǎn)提升即時響應(yīng)場景下單位輸出token的信息量;Ring-2.6-1T則面向復(fù)雜推理和Agent任務(wù),強(qiáng)調(diào)長鏈路規(guī)劃、工具調(diào)用、代碼執(zhí)行、搜索和環(huán)境交互能力。


▲百靈大模型地址(圖源:Hugging Face)

隨著大模型逐步進(jìn)入Agent、Coding、科研分析和企業(yè)工作流等復(fù)雜任務(wù)場景,模型需要具備可靠推理和穩(wěn)定使用工具的能力,還需要在成本和延遲可控的前提下持續(xù)執(zhí)行任務(wù)。

圍繞這一目標(biāo),報告重點(diǎn)展示了百靈2.6系列的技術(shù)路徑:架構(gòu)方面,百靈2.6系列模型采用混合線性注意力(Hybrid Linear Attention),將閃電注意力(Lightning Attention)與多頭潛在注意力(MLA)按7:1比例結(jié)合,降低長上下文訓(xùn)練、解碼和鍵值緩存(KV Cache)成本。

預(yù)訓(xùn)練上,團(tuán)隊在Ling-2.0基礎(chǔ)上進(jìn)行架構(gòu)遷移和繼續(xù)預(yù)訓(xùn)練,將上下文窗口擴(kuò)展至256K;后訓(xùn)練上,Ling-2.6圍繞token效率壓縮冗余推理,Ring-2.6則面向長程Agent任務(wù)強(qiáng)化工具調(diào)用、搜索和代碼執(zhí)行能力;基礎(chǔ)設(shè)施上,團(tuán)隊通過長上下文訓(xùn)練優(yōu)化、異步Agentic RL和推理側(cè)算子融合,支撐萬億參數(shù)模型在真實(shí)工作流中的訓(xùn)練與部署。

評測結(jié)果顯示,Ling-2.6-1T在Artificial Analysis Intelligence Index中以約16M輸出tokens取得約34分,接近GPT-5.4 Non-reasoning,并高于DeepSeek V3.2和上一代Ling-1T,體現(xiàn)出較高token效率。


▲Ling-2.6-1T與Ring-2.6-1T評測結(jié)果

Ring-2.6-1T則在部分復(fù)雜推理和Agent任務(wù)中表現(xiàn)突出:其xhigh配置在ARC-AGI-V2上取得66.18,高于Kimi-K2.6 Thinking和DeepSeek-V4-Pro Max;high配置在PinchBench上取得87.60,高于GPT-5.4和Gemini-3.1-Pro,在ClawEval上取得63.82,高于Kimi-K2.6 Thinking、DeepSeek-V4-Pro Max、GPT-5.4和Gemini-3.1-Pro。


技術(shù)報告地址:https://arxiv.org/abs/2606.15079

Ling-2.6-flash開源地址:https://huggingface.co/inclusionAI/Ling-2.6-flash

Ling-2.6-1T開源地址:https://huggingface.co/inclusionAI/Ling-2.6-1T

Ring-2.6-1T開源地址:https://huggingface.co/inclusionAI/Ring-2.6-1T

一、三大重點(diǎn):長上下文效率、token密度、原生Agent訓(xùn)練

為保證模型在萬億參數(shù)規(guī)模和真實(shí)Agent工作流下,仍能夠保持長上下文處理效率、輸出質(zhì)量與工具調(diào)用穩(wěn)定性,百靈2.6主要圍繞以下三方面進(jìn)行了系統(tǒng)優(yōu)化。

百靈2.6首先解決的是長上下文效率問題。報告提到,此前模型基于GQA(分組查詢注意力)架構(gòu),當(dāng)上下文長度超過32K tokens后,注意力計算會成為主要瓶頸。為此,Ling/Ring2.6采用混合線性注意力(Hybrid Linear Attention)架構(gòu),將閃電注意力(Lightning Attention)與多頭潛在注意力(MLA)按7:1比例結(jié)合,即每8層中約7層采用Lightning Attention、1層采用MLA


▲Ling-2.6-1T-base整體架構(gòu)

Lightning Attention將序列維度上的計算復(fù)雜度從O(n2)降到O(n),MLA則通過低秩隱空間壓縮KV Cache。二者結(jié)合后,模型更適合長上下文訓(xùn)練、長輸出和長鏈路Agent任務(wù)。

第二個重點(diǎn)則是提升token能力密度。Ling-2.6在后訓(xùn)練階段結(jié)合演化式思維鏈(Evolutionary Chain of Thought,Evo-CoT)、語言單元策略優(yōu)化(Linguistic Unit Policy Optimization,LPO)、雙向偏好對齊和最短正確回答蒸餾等方法,提升模型對有效推理步驟的選擇能力,減少重復(fù)、循環(huán)和低信息密度輸出。

在Artificial Analysis Intelligence Index榜單上,Ling-2.6-1T使用約16M輸出tokens取得34分。報告稱,這相比Ling-2.0-1T在reasoning workloads上實(shí)現(xiàn)約4倍token效率提升。

第三個重點(diǎn)是Agent能力的原生優(yōu)化。百靈2.6系列的Agent能力不是從普通對話數(shù)據(jù)中間接遷移而來,而是作為直接訓(xùn)練目標(biāo)優(yōu)化。團(tuán)隊構(gòu)建了覆蓋工具調(diào)用、代碼、搜索、工作流執(zhí)行和多輪交互的大規(guī)模Agentic Corpus(智能體語料庫),并將其與可驗(yàn)證任務(wù)、結(jié)構(gòu)化工具軌跡和環(huán)境反饋結(jié)合。

在Ring-2.6上,團(tuán)隊進(jìn)一步提出KPop,用對稱二元KL散度替代IcePop中的固定比例約束,以更穩(wěn)定地進(jìn)行MoE模型的Agentic RL訓(xùn)練。同時,團(tuán)隊還采用異步RL,將rollout采集與參數(shù)更新解耦,使編碼、搜索、工具調(diào)用和工作流執(zhí)行等長鏈路任務(wù),能夠在萬億參數(shù)規(guī)模下進(jìn)行更高效訓(xùn)練。

二、預(yù)訓(xùn)練:在Ling-2.0基礎(chǔ)上,擴(kuò)展至256K上下文

百靈2.6沒有從零訓(xùn)練萬億參數(shù)模型,而是在Ling-2.0基礎(chǔ)上進(jìn)行架構(gòu)遷移、繼續(xù)完成預(yù)訓(xùn)練和后訓(xùn)練。報告稱,Ling-2.0-1T此前已有約20T tokens訓(xùn)練投入,直接重新訓(xùn)練成本較高,因此團(tuán)隊選擇在已有checkpoint上完成架構(gòu)升級。

架構(gòu)遷移分為四個階段:第一階段是閃電注意力轉(zhuǎn)換(Lightning Attention Conversion),將部分原有GQA層替換為Lightning Attention,以降低長上下文計算成本;第二階段是線性預(yù)熱(Linear Warmup),主要用于對新增參數(shù)進(jìn)行訓(xùn)練和對齊,使模型逐步適應(yīng)新結(jié)構(gòu);第三階段是MLA轉(zhuǎn)換(MLA Conversion),包括去除QK歸一化(QK Norm removal)和適配部分旋轉(zhuǎn)位置編碼(Partial RoPE adaptation),為后續(xù)KV Cache壓縮和高效推理做準(zhǔn)備;最后是MLA預(yù)熱(MLA Warmup),通過小規(guī)模繼續(xù)訓(xùn)練將loss恢復(fù)到遷移前水平。整個遷移階段約使用400B tokens。

完成架構(gòu)遷移后,模型繼續(xù)進(jìn)行大規(guī)模全參數(shù)訓(xùn)練。報告中提到,Ling-2.6預(yù)訓(xùn)練總計處理約9.6T tokens,分為遷移預(yù)訓(xùn)練(Migration Pre-Training)、繼續(xù)預(yù)訓(xùn)練(Continue Pre-Training)和中期訓(xùn)練(Mid-Training)幾個階段。其中遷移預(yù)訓(xùn)練約 400B tokens,用于完成架構(gòu)遷移;繼續(xù)預(yù)訓(xùn)練約8T tokens,使用4K上下文窗口;中期訓(xùn)練約1.2T tokens,將上下文窗口逐步擴(kuò)展到32K,再擴(kuò)展到256K。


▲Ling-2.6多階段預(yù)訓(xùn)練流程

數(shù)據(jù)構(gòu)成上,團(tuán)隊增強(qiáng)了數(shù)學(xué)、代碼、Agentic Data、長上下文語料和多語言語料。Agentic Corpus覆蓋500多個真實(shí)MCP環(huán)境、3000多個工具,以及多種coding、bash、web QA和軟件倉庫任務(wù);Long-Context Corpus覆蓋數(shù)學(xué)、復(fù)雜網(wǎng)頁解析、長文檔摘要、RAG融合和多跳推理等任務(wù)。

在base model評測中,團(tuán)隊使用覆蓋數(shù)學(xué)、代碼、通用推理、語言理解、世界知識和長上下文理解的31個benchmark,對Ling-2.6-flash-base、Ling-2.6-1T-base與2.0代模型進(jìn)行對比。

整體來看,Ling-2.6-1T-base在世界知識、長上下文建模和推理能力上取得較穩(wěn)定提升,同時保持了數(shù)學(xué)和代碼能力。尤其是在SimpleQA、C-SimpleQA、MMMLU、LongBenchv2等知識和長上下文任務(wù)上,提升較為明顯。


▲Ling-2.6-base與Ling-2.0-base在多類基準(zhǔn)測試中的對比

三、Ling-2.6后訓(xùn)練:用更少token完成高質(zhì)量即時響應(yīng)

Ling-2.6的后訓(xùn)練,圍繞即時響應(yīng)和高頻調(diào)用兩方面展開。團(tuán)隊重點(diǎn)關(guān)注模型能否在更少輸出token內(nèi),給出更高質(zhì)量的回答。

為此,Ling-2.6沒有沿用Ling-2.0中相對統(tǒng)一的后訓(xùn)練流程,而是采用專家驅(qū)動的訓(xùn)練路線。模型先進(jìn)行cold-start SFT打底,再進(jìn)行推理和Agent任務(wù)方向的專家化訓(xùn)練;隨后,通過強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化專家模型,最后將這些專家能力蒸餾回統(tǒng)一的Ling-2.6模型中。


▲Ling-2.6后訓(xùn)練流程

在推理數(shù)據(jù)處理上,團(tuán)隊先讓專家模型生成多個候選答案,再篩選出最短的正確回答。同時,對于“答對后還在反思”的片段,團(tuán)隊進(jìn)一步用LLM judge進(jìn)行裁剪。報告稱,數(shù)據(jù)層面的處理,讓模型平均輸出長度減少約200到300個token。

進(jìn)入強(qiáng)化學(xué)習(xí)階段后,Ling-2.6在Evo-CoT基礎(chǔ)上加入動態(tài)長度懲罰和語義冗余懲罰。動態(tài)長度懲罰允許模型在難題上,保留必要推理空間,壓縮簡單任務(wù)中的過長輸出;語義冗余懲罰則用于抑制循環(huán)、重復(fù)和低價值反思。

四、Ring-2.6后訓(xùn)練:面向長程Agent任務(wù),強(qiáng)化工具使用

Ring-2.6的后訓(xùn)練目標(biāo)則偏向復(fù)雜、長程、工具密集型Agent任務(wù)。它以Ling-2.6-1T Base為基礎(chǔ),經(jīng)過cold-start SFT,再進(jìn)入由KPop算法驅(qū)動的推理與Agent專家訓(xùn)練階段,隨后進(jìn)行專家能力蒸餾,并最終形成high和xhigh兩種推理配置。

工具使用數(shù)據(jù)上,Ring-2.6重點(diǎn)覆蓋三類場景:倉庫級代碼任務(wù)、移動端/網(wǎng)頁搜索任務(wù),以及需要多步規(guī)劃和錯誤恢復(fù)的通用工具工作流。以Coding Agent為例,團(tuán)隊從GitHub中大規(guī)模挖掘PR-Issue pairs,并設(shè)置了較嚴(yán)格的篩選條件:倉庫star數(shù)超過100、PR已合并且關(guān)聯(lián)closed issue,同時PR中必須包含test patch以便驗(yàn)證。經(jīng)過篩選后,團(tuán)隊得到約300K raw pairs。


▲Ring-2.6后訓(xùn)練流程

在Agentic RL階段,團(tuán)隊構(gòu)建輕量級Agent框架,并提供execute_bash、search_replace和task_done三類核心工具。訓(xùn)練期間最大對話長度為200 turns,評估期間最大對話長度為500 turns。針對SWE類長程任務(wù),最終訓(xùn)練數(shù)據(jù)集包含約2500個實(shí)例,來自1550個倉庫,覆蓋Python、Java、C、Rust、JavaScript等30多種編程語言。

五、基礎(chǔ)設(shè)施:長上下文訓(xùn)練、異步RL與推理部署協(xié)同優(yōu)化

基礎(chǔ)設(shè)施方面,百靈2.6的優(yōu)化主要圍繞長上下文訓(xùn)練、大規(guī)模異步Agentic RL和推理serving展開。團(tuán)隊提出AllGather-based CP,使Lightning Attention能夠更高效地進(jìn)行超長上下文訓(xùn)練,在256K上下文長度下帶來約68%的端到端加速。RL基礎(chǔ)設(shè)施ASystem和ARouter則面向長序列rollout調(diào)度,報告稱在長序列場景下帶來超過80%的端到端性能提升。


▲Lightning Attention的上下文并行優(yōu)化

推理側(cè),團(tuán)隊將訓(xùn)練階段積累的融合算子(fused kernels)適配到真實(shí)部署場景,并盡可能保持訓(xùn)練與推理階段的數(shù)值行為一致。這不僅提升推理效率,也有助于減少強(qiáng)化學(xué)習(xí)采樣(RL rollout)中的訓(xùn)練-推理差異。推理側(cè)kernels能力已通過高性能算子庫linghe開源。


▲linghe開源地址:https://github.com/inclusionAI/linghe

結(jié)合算子融合(kernel fusion)、前綴緩存(prefix caching)與多token生成(multi-token generation),linghe優(yōu)化提升了整體吞吐、單用戶每秒生成token數(shù)和交互穩(wěn)定性。

結(jié)語:國產(chǎn)開源模型,公開更多技術(shù)細(xì)節(jié)

這份報告較完整地公開了百靈團(tuán)隊在萬億參數(shù)模型上的技術(shù)細(xì)節(jié)。從結(jié)果看,Ling/Ring2.6在部分復(fù)雜推理、工具調(diào)用和Agent任務(wù)上已有較強(qiáng)表現(xiàn),但與國際頂尖模型相比仍有追趕空間。

報告也提到,Ling-2.6-flash在高復(fù)雜任務(wù)中的推理深度和工具調(diào)用可靠性仍受思考預(yù)算限制;長程Agent在持續(xù)變化的工具狀態(tài)和異構(gòu)執(zhí)行環(huán)境中,可靠性仍可能下降。下一階段,百靈團(tuán)隊計劃繼續(xù)沿著架構(gòu)、系統(tǒng)、低精度訓(xùn)練推理、KV Cache管理和多模態(tài)Agent方向推進(jìn)。

對開源生態(tài)來說,模型開源和技術(shù)報告公開本身值得認(rèn)可。它讓外界能夠了解背后的數(shù)據(jù)構(gòu)建、訓(xùn)練方法、系統(tǒng)優(yōu)化等,期待更多國產(chǎn)大模型團(tuán)隊持續(xù)開放模型、工具與技術(shù)細(xì)節(jié),推動開源生態(tài)在真實(shí)應(yīng)用能力上繼續(xù)向前。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“好好的孩子,毀你倆手了!”夫妻倆不接老師電話,錯過中考繳費(fèi)

“好好的孩子,毀你倆手了!”夫妻倆不接老師電話,錯過中考繳費(fèi)

林林先生
2026-06-15 10:08:40
中國靈活就業(yè)者突破3.2億大關(guān),占就業(yè)人口比例高達(dá)44%。

中國靈活就業(yè)者突破3.2億大關(guān),占就業(yè)人口比例高達(dá)44%。

流蘇晚晴
2026-06-13 18:21:18
佘詩曼生日飯局古天樂現(xiàn)身,大合照企埋一邊依然咁搶眼

佘詩曼生日飯局古天樂現(xiàn)身,大合照企埋一邊依然咁搶眼

粵睇先生
2026-06-16 23:56:33
選中國,還是選日本?G7成員國亮出最新政策,高市早苗被釜底抽薪

選中國,還是選日本?G7成員國亮出最新政策,高市早苗被釜底抽薪

影孖看世界
2026-06-16 20:28:50
德國緊隨韓國之后,也發(fā)布了“中文標(biāo)語”,引起了中國游客的不滿

德國緊隨韓國之后,也發(fā)布了“中文標(biāo)語”,引起了中國游客的不滿

溫讀史
2026-04-03 09:46:40
央企“最牛女副處長”落馬:兩年與上司開房410次,細(xì)節(jié)曝光

央企“最牛女副處長”落馬:兩年與上司開房410次,細(xì)節(jié)曝光

西門老爹
2025-12-16 15:35:31
金價6月17日,大家要擦亮雙眼了,明后兩天,金價或?qū)⒅噩F(xiàn)歷史了

金價6月17日,大家要擦亮雙眼了,明后兩天,金價或?qū)⒅噩F(xiàn)歷史了

趣味萌寵的日常
2026-06-17 05:00:09
廣州一樓盤銷售,騙走購房款,幾十人上當(dāng)!地產(chǎn)公司:已報案

廣州一樓盤銷售,騙走購房款,幾十人上當(dāng)!地產(chǎn)公司:已報案

靚仔情感
2026-06-17 04:10:46
被員工在自家直播間爆料!老牌國貨創(chuàng)始人:已報警!很多深圳人買過

被員工在自家直播間爆料!老牌國貨創(chuàng)始人:已報警!很多深圳人買過

南方都市報
2026-06-16 19:52:55
楊天真曝經(jīng)紀(jì)人簽1000萬告訴藝人500萬,很多藝人知道但是沒辦法

楊天真曝經(jīng)紀(jì)人簽1000萬告訴藝人500萬,很多藝人知道但是沒辦法

韓小娛
2026-06-17 08:03:44
李連杰一家三口拜見仁波切,64歲利智許久不見,顏值回春如昔日!

李連杰一家三口拜見仁波切,64歲利智許久不見,顏值回春如昔日!

娛樂團(tuán)長
2026-06-02 15:09:12
《年會不能停2》劇組上影節(jié)走紅毯,演員高葉兩次欲言又止,堅持讓張若昀、白客先發(fā)言,與片方演員表排序保持一致

《年會不能停2》劇組上影節(jié)走紅毯,演員高葉兩次欲言又止,堅持讓張若昀、白客先發(fā)言,與片方演員表排序保持一致

極目新聞
2026-06-14 20:06:31
賴清德剛對大陸下戰(zhàn)書,兩岸就在廈門簽約,鄭麗文終于等來機(jī)會

賴清德剛對大陸下戰(zhàn)書,兩岸就在廈門簽約,鄭麗文終于等來機(jī)會

小影的娛樂
2026-06-16 17:05:04
他是大家熟悉的演員,娶小27歲央視主持人,快60歲才老來得女

他是大家熟悉的演員,娶小27歲央視主持人,快60歲才老來得女

史行途
2026-06-16 20:21:05
局勢已惡化,菲律賓全方位反華,連開3槍逼中國認(rèn)栽,中沒有退路

局勢已惡化,菲律賓全方位反華,連開3槍逼中國認(rèn)栽,中沒有退路

快看張同學(xué)
2026-06-16 19:36:35
莫言:如果你混到?jīng)]人找你吃飯,沒人喊你聚會,連電話也沒幾個,那慶祝了,你不是人緣變差,而是真正覺醒了

莫言:如果你混到?jīng)]人找你吃飯,沒人喊你聚會,連電話也沒幾個,那慶祝了,你不是人緣變差,而是真正覺醒了

品讀時刻
2026-05-27 09:00:58
震驚!女子得知被拒相親男娶“潮汕A9家庭”妻子,控訴他隱瞞家底

震驚!女子得知被拒相親男娶“潮汕A9家庭”妻子,控訴他隱瞞家底

火山詩話
2026-06-14 12:48:44
纖細(xì)身形 + 瑜伽褲穿搭文案|瘦小女生穿出別致線條美感

纖細(xì)身形 + 瑜伽褲穿搭文案|瘦小女生穿出別致線條美感

只要高興就好
2026-06-03 11:46:20
奧運(yùn)冠軍“拉拉鏈露胸”,讓耐克繃不住了!

奧運(yùn)冠軍“拉拉鏈露胸”,讓耐克繃不住了!

品牌營銷報
2026-02-23 11:31:10
吉林女子控訴前夫不給孩子生活費(fèi),只能吃泡面,轉(zhuǎn)頭曬海景房自拍

吉林女子控訴前夫不給孩子生活費(fèi),只能吃泡面,轉(zhuǎn)頭曬海景房自拍

搗蛋窩
2026-06-15 07:31:15
2026-06-17 08:43:00
智東西 incentive-icons
智東西
智東西,AI產(chǎn)業(yè)新媒體,專注報道人工智能的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來的千行百業(yè)產(chǎn)業(yè)變革。
12061文章數(shù) 117105關(guān)注度
往期回顧 全部

科技要聞

美國給Anthropic新模型上了“芯片級管制”

頭條要聞

超越吉魯、超越梅西 27歲的姆巴佩這夜把紀(jì)錄破了個遍

頭條要聞

超越吉魯、超越梅西 27歲的姆巴佩這夜把紀(jì)錄破了個遍

體育要聞

身價5萬的門將,擋住了12億歐元的狂轟濫炸

娛樂要聞

吳文忻葬禮:2個女兒在靈堂內(nèi)茫然失措

財經(jīng)要聞

美媒曝光美伊諒解備忘錄草案完整版

汽車要聞

三車齊發(fā) 零跑全新C10/C11/C16上市12.58萬元起

態(tài)度原創(chuàng)

時尚
房產(chǎn)
手機(jī)
健康
公開課

夏天最好看的6只包!照著搭美出新高度

房產(chǎn)要聞

最新房價:海口、三亞;新房、二手房全線下跌!

手機(jī)要聞

前五個月旗艦銷量排排座,蘋果霸占前三,華為國產(chǎn)第一

粽子一次吃多少不傷胃?專家講解

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版