国产人妻精品区一区二区三区_色噜噜狠狠一区二区三区果冻_最新国产の精品合集bt7086_av电影手机在线观看_亚洲国产欧美在线综合其他_成免费crm85171_97人妻人人揉人人澡人人爽国产_色天使久久综合网天天_爱回家之开心速递粤语在线观看

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

用國產(chǎn)GPU訓(xùn)練AI給自己寫內(nèi)核,摩爾線程刷榜硬核基準(zhǔn)

0
分享至



編輯|澤南

國產(chǎn)算力生態(tài)的難題,從此有了 AI 解。

最近,在比「AI 生成 GPU 內(nèi)核」的硬核基準(zhǔn) KernelBench 上,摩爾線程的模型拿下了第一。



在 MooreEval 執(zhí)行式驗證協(xié)議的加持下,摩爾線程的 MusaCoder-27B-RL 取得了領(lǐng)先業(yè)界的表現(xiàn),超越了 Claude Opus、GLM-5.1、Kimi K2.6 等一眾國內(nèi)外先進(jìn)大模型。

這次拿下成績的,是上周才正式發(fā)布并開源的 MusaCoder,這是一款面向 GPU 底層算子生成的專用大模型,能自動把 PyTorch 代碼轉(zhuǎn)換為 CUDA 與 MUSA 內(nèi)核,為 AI 訓(xùn)練等任務(wù)提供加速,旨在降低開發(fā)者手寫底層 GPU 算子的門檻。



  • 論文:《MusaCoder: Native GPU Kernel Generation with Full-Stack Training on Moore Threads GPU》
  • 論文地址:http://arxiv.org/abs/2606.04847
  • 模型權(quán)重:https://huggingface.co/MooreThreads/MusaCoder-27B

值得關(guān)注的是,MusaCoder 是業(yè)內(nèi)首個基于國產(chǎn) GPU 算力底座完成全鏈路訓(xùn)練與驗證的開源代碼大模型,其完整后訓(xùn)練流程均在基于 MTT S5000 的夸娥智算集群上完成。從 AI 模型到 GPU 硬件,全部國產(chǎn)化。

這是國產(chǎn) AI 算力領(lǐng)域的一次突破。

生成 GPU 內(nèi)核的競賽

比的是真實性能提升

用 AI 來生成 GPU 內(nèi)核(Kernel),是當(dāng)前大語言模型(LLM)最硬核的挑戰(zhàn)之一。

KernelBench 由斯坦福大學(xué)和普林斯頓大學(xué)于 2025 年推出,它被設(shè)計為一個「真實世界的工程環(huán)境」,專門用來衡量大模型編寫高效 GPU 內(nèi)核代碼的能力。

簡單來說,其核心任務(wù)是:

給定一個 PyTorch 模型架構(gòu),讓大模型生成一個定制的、內(nèi)嵌 C/C++ 的 CUDA 內(nèi)核,以替換原有的 PyTorch 算子,目標(biāo)是實現(xiàn)程序加速。

與其他代碼生成任務(wù)不同的是,該基準(zhǔn)不僅關(guān)注內(nèi)核能否正確運行,更看重其相對于基線能否帶來實際的性能提升

另一方面,讓 AI 自動化編寫高效、底層的 GPU/CUDA 代碼又是當(dāng)前突破算力瓶頸的關(guān)鍵。讓 AI 掌握這項能力不僅能推動生成代碼的研究,更會在實際應(yīng)用中為降低算力成本、提高能效提供直接可用的工具。

為了全面評估模型能力,KernelBench 包含了超過 250 個 PyTorch 機器學(xué)習(xí)任務(wù),并按復(fù)雜度和粒度分為 4 個遞進(jìn)難度級別,從 Level 1 的核心基礎(chǔ)算子如卷積、矩陣乘法、歸一化等,到 Level 4,Hugging Face 上的生產(chǎn)級模型優(yōu)化任務(wù)。

在這之上還有級化的評估流程,基于一個三階段的嚴(yán)格驗證流水線,以確保結(jié)果的可靠性。另外,KernelBench 還要求其加速比超過用戶可設(shè)定的閾值:AI 生成的代碼光「正確」還不夠,必須真正有提供加速效果的價值。

因此,KernelBench 被視為一個非常嚴(yán)苛的基準(zhǔn)。剛剛推出時,DeepSeek R1 在所有任務(wù)上的通過率也只有 30%,注意這只是「能用」的比例,還不是 AI 生成的代碼能帶來性能提升的比例。MusaCoder 現(xiàn)在已經(jīng)做到了通過率 88.6%,超越的個個都是以寫代碼能力著稱的大模型。

在論文中,研究人員報告了 MusaCoder 在 Level 1 到 Level 3 能力的各項指標(biāo):



可見大多數(shù)知名通用大模型在 GPU 內(nèi)核生成任務(wù)上的能力并不盡如人意,而 MusaCoder 不僅可以做到生成的代碼能用,部分代碼已可以做到「好用」:性能比基準(zhǔn)線高至少 1.1 倍。

那么,摩爾線程是如何用一款「小模型」做到的?

MusaCoder 的秘訣

讓 AI 自我改進(jìn)

在 KernelBench 上,MusaCoder 超越的模型參數(shù)量都在大幾千億到萬億級別,自己卻只有 270 億。能實現(xiàn)「以小博大」,其背后的方法創(chuàng)新是核心。

與通用的代碼生成任務(wù)不同,GPU 核心的生成對并行計算、線程組織、內(nèi)存訪問、索引映射和硬件執(zhí)行等特性要求很高,生成的代碼不僅要語法對,還要能通過編譯,不投機取巧,在真實執(zhí)行中獲得性能收益。

為此,KernelBench 構(gòu)建了一套專門針對 GPU 原生內(nèi)核生成任務(wù)的「全棧訓(xùn)練」方案,其中最關(guān)鍵的一環(huán)是MooreEval 執(zhí)行式驗證協(xié)議



MooreEval 的架構(gòu):這是一個基于執(zhí)行的可擴展評估環(huán)境,用于對生成的原生 GPU 內(nèi)核函數(shù)進(jìn)行編譯、驗證、性能分析及獎勵。

簡單來說,MooreEval 是研究人員為 GPU 內(nèi)核生成任務(wù)設(shè)計的一套自動化、分布式、結(jié)構(gòu)化的「考試評判系統(tǒng)」。它不像傳統(tǒng)方法只檢查代碼文本相似度或進(jìn)行簡單的靜態(tài)分析,而是通過真實地編譯、運行和評測模型生成的代碼,提供結(jié)構(gòu)化的反饋和獎勵信號,用于指導(dǎo)大模型的訓(xùn)練和評估。

對于模型生成的每個候選內(nèi)核代碼,MooreEval 都會執(zhí)行一個分階段的驗證管道,包括接口和編譯檢查、正確性驗證、反作弊檢測、以及性能測試。只有當(dāng)上一階段通過后,候選的方法才會進(jìn)入下一階段。

經(jīng)過流程審核的代碼會根據(jù)一個層次化的獎勵函數(shù)計算分?jǐn)?shù),除了用于判斷最終實力的分?jǐn)?shù),還會輸出豐富的結(jié)構(gòu)化信息,它們會自動轉(zhuǎn)化為可供模型理解的自然語言診斷,用于模型的進(jìn)一步訓(xùn)練。

為了能在強化學(xué)習(xí)訓(xùn)練中高效處理大批量代碼編譯和執(zhí)行,MooreEval 被設(shè)計成一個分布式異步流水線系統(tǒng),它將編譯與執(zhí)行進(jìn)行了解耦,CPU 密集型的編譯工作和 GPU 密集型的執(zhí)行工作被分配給不同類型的執(zhí)行器(Worker),彼此獨立伸縮,避免了 GPU 在等待編譯時的空閑。

在 GPU 內(nèi)核生成這件事上,MooreEval 就像是一個自動打分的考官,它通過真實地編譯、運行、反作弊檢測和性能測試,實現(xiàn)了高效率和大規(guī)模的驗證,并為模型提供了精準(zhǔn)的學(xué)習(xí)信號,是驅(qū)動 MusaCoder 實現(xiàn)高性能的關(guān)鍵引擎。

讓 AI 能 Know How

全棧后訓(xùn)練體系

MooreEval 只是 MusaCoder 模型特性的一小部分。

MusaCoder 的訓(xùn)練流程,包含利用多種原始數(shù)據(jù)源構(gòu)建面向 Kernel 的語料庫、數(shù)據(jù)增強、SFT 與 RFT、兩階段強化學(xué)習(xí)流程的優(yōu)化,以及 PrimeEcho、MirrorPop 和 Buffered Dynamic Retry 三種穩(wěn)定技術(shù)。



為了讓 AI 模型能夠真正學(xué)會寫 GPU 內(nèi)核,MusaCoder 構(gòu)建了一套面向 GPU 原生算子生成的全棧后訓(xùn)練體系。

在數(shù)據(jù)構(gòu)建階段,MusaCoder 通過一個三階段漸進(jìn)式的數(shù)據(jù)合成管道,系統(tǒng)地培養(yǎng)了模型理解 GPU 編程所需的「思維模式」:

  • 第一階段是通過 GitHub 真實代碼、NNSmith 自動生成圖等多種來源,構(gòu)建一個龐大的 PyTorch-CUDA/MUSA 任務(wù)集,并注入 GPU 編程基礎(chǔ)知識;
  • 第二階段是結(jié)構(gòu)化推理和顯式的 Shape 信息注入,其增強了模型對張量形狀、內(nèi)存布局和索引關(guān)系的理解,讓模型不僅知道要做什么,還要理解「怎么做」;
  • 第三階段是多輪的交互與環(huán)境反饋解析,通過接收編譯錯誤、運行時報錯、性能瓶頸等反饋,讓模型據(jù)此進(jìn)行針對性的修復(fù)和優(yōu)化,為后續(xù)的強化學(xué)習(xí)模擬多輪修復(fù)場景,緩解獎勵稀疏的問題。



SFT 數(shù)據(jù)構(gòu)建流水線的三階段演進(jìn)。

為提升強化學(xué)習(xí)的穩(wěn)定性,MusaCoder 又引入了 PrimeEcho、Buffered Dynamic Retry,以及 MirrorPop 三個機制。

為了防止模型獎勵作弊,為了「及格」而過度依賴多輪反饋,研究團(tuán)隊設(shè)計了基于首輪交互錨定的多輪獎勵機制 PrimeEcho。這是一個全新的軌跡級獎勵公式,將首輪生成質(zhì)量和整個過程中的最好表現(xiàn)按權(quán)重結(jié)合,確保了模型優(yōu)化的主要目標(biāo)始終是提升首輪生成質(zhì)量,多輪修復(fù)只是輔助。

緩沖動態(tài)重試(Buffered Dynamic Retry,BDR)用于從完全失敗的困難樣本中恢復(fù)信號,目標(biāo)是解決 GPU 內(nèi)核生成這種高難度任務(wù)中正樣本稀少的挑戰(zhàn)。一旦某輪任務(wù)徹底失敗,BDR 會將任務(wù)描述、失敗的代碼和報錯信息打包成一個新任務(wù),放入一個「動態(tài)緩存池」。模型會以較低概率從中學(xué)習(xí)如何修復(fù)自己的錯誤,從而挽救原本無學(xué)習(xí)價值的失敗樣本。

MirrorPop則用于解決強化學(xué)習(xí)過程中模型訓(xùn)練不穩(wěn)定的問題。它通過一個更精準(zhǔn)的過濾器,能夠精準(zhǔn)剔除高風(fēng)險樣本。

根據(jù)實驗數(shù)據(jù),這三項機制在提升模型最終性能上都獲得了明顯的性能提升效果。

國產(chǎn) AI 算力技術(shù)棧

全流程跑通

當(dāng)然,MusaCoder 的意義也不止于模型本身。

AI 模型的構(gòu)建,是一個硬件與軟件棧的復(fù)雜磨合過程,對編譯棧的兼容性、運行時穩(wěn)定性、調(diào)度系統(tǒng)的低延遲、評測基礎(chǔ)設(shè)施的魯棒性都提出了嚴(yán)苛的要求。

從監(jiān)督微調(diào)到強化學(xué)習(xí),MusaCoder 的整個訓(xùn)練流程全部運行在摩爾線程自己的「夸娥」智算集群上。能完整跑通這一套全流程,證明了國產(chǎn) GPU 集群已經(jīng)具備支撐此類復(fù)雜、動態(tài)、交互式訓(xùn)練任務(wù)的能力。

這在一定程度上打破了我們對于國產(chǎn) AI 算力「只能跑推理」的刻板印象。能夠穩(wěn)定承載代碼大模型的后訓(xùn)練全周期算力需求,意味著在 AI 基礎(chǔ)設(shè)施的關(guān)鍵環(huán)節(jié)上,國產(chǎn)硬件已經(jīng)從可用走到了好用的階段。MusaCoder 的成功實踐或許會成為可復(fù)用的工程范式,為未來更多復(fù)雜的 AI 研發(fā)提供參考價值和遷移路徑。

在大模型時代,「自主可控」不僅關(guān)乎芯片制造,更包括上層的軟件棧、訓(xùn)練平臺、評測體系和開源模型生態(tài)。MusaCoder 證明了在這些層面,國產(chǎn)力量已經(jīng)能夠形成閉環(huán)。

而對于廣大開發(fā)者來說,一個能直接從 PyTorch 自動生成高性能 MUSA 內(nèi)核的基礎(chǔ)模型,更是開啟了 AI 驅(qū)動開發(fā)的新路。

或許過不了多久,應(yīng)用國產(chǎn)算力的底層加速能力,會變得像用 AI 寫代碼一樣簡單。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
蔣介石前妻赴京拜見周總理,初見就為女婿辯解,懷疑其是共產(chǎn)黨人

蔣介石前妻赴京拜見周總理,初見就為女婿辯解,懷疑其是共產(chǎn)黨人

磊子講史
2026-06-11 19:34:18
兩性關(guān)系:55-65歲這十年,惜命最好的方式,不是鍛煉,做好這6點

兩性關(guān)系:55-65歲這十年,惜命最好的方式,不是鍛煉,做好這6點

三農(nóng)老歷
2026-04-13 17:10:06
丑聞!曝巴西足協(xié)主席用公款在紐約取悅情婦 隨后趕赴墨西哥陪老婆

丑聞!曝巴西足協(xié)主席用公款在紐約取悅情婦 隨后趕赴墨西哥陪老婆

風(fēng)過鄉(xiāng)
2026-06-16 08:03:22
又閃耀世界杯!姆巴佩殺瘋了:30分鐘雙響+15場轟14球,超越梅西

又閃耀世界杯!姆巴佩殺瘋了:30分鐘雙響+15場轟14球,超越梅西

侃球熊弟
2026-06-17 04:29:13
頭條世界杯|超越吉魯、超越梅西,姆巴佩這夜把紀(jì)錄破了個遍

頭條世界杯|超越吉魯、超越梅西,姆巴佩這夜把紀(jì)錄破了個遍

澎湃新聞
2026-06-17 07:04:31
法院不予“網(wǎng)貸” 立案的六大理由!

法院不予“網(wǎng)貸” 立案的六大理由!

侃故事的阿慶
2026-06-14 15:42:43
鬧大了!新加坡媒體抹黑《阿嬤》,官媒親自下場對線:你破防什么

鬧大了!新加坡媒體抹黑《阿嬤》,官媒親自下場對線:你破防什么

離離言幾許
2026-06-16 21:02:33
新型攀比正在學(xué)校興起,男孩子表現(xiàn)尤為明顯,家長表示無奈

新型攀比正在學(xué)校興起,男孩子表現(xiàn)尤為明顯,家長表示無奈

凌晨媽媽
2026-06-16 14:20:03
月銷7萬到幾乎絕跡!2026年最慘車型,去年還被封神,如今無人問津

月銷7萬到幾乎絕跡!2026年最慘車型,去年還被封神,如今無人問津

周哥一影視
2026-06-12 19:36:11
“短劇一哥”寶座易主!曾輝第10,張翅第5,第1名877萬斷層登頂

“短劇一哥”寶座易主!曾輝第10,張翅第5,第1名877萬斷層登頂

阿廢冷眼觀察所
2026-06-16 05:20:42
中國股市唯一賺錢最快思路:持有一只股,保留30%倉位,長期做T!

中國股市唯一賺錢最快思路:持有一只股,保留30%倉位,長期做T!

股經(jīng)縱橫談
2026-05-15 19:18:34
泰王親自主持法會!提幫功當(dāng)眾安慰姐姐,思蕊梵一把推開不領(lǐng)情

泰王親自主持法會!提幫功當(dāng)眾安慰姐姐,思蕊梵一把推開不領(lǐng)情

世界王室那些事
2026-06-16 20:06:10
小沈陽保女兒計劃落空,底褲被扒,咎由自取不冤

小沈陽保女兒計劃落空,底褲被扒,咎由自取不冤

老羴學(xué)科普
2026-06-17 06:16:58
一場3-1!讓法國隊完成復(fù)仇,姆巴佩反超梅西,劍指冠軍+最佳射手

一場3-1!讓法國隊完成復(fù)仇,姆巴佩反超梅西,劍指冠軍+最佳射手

等等talk
2026-06-17 05:33:23
褲衩開叉10厘米!被網(wǎng)暴5年!鐵三女神奪亞軍又被罵,裁判:合規(guī)

褲衩開叉10厘米!被網(wǎng)暴5年!鐵三女神奪亞軍又被罵,裁判:合規(guī)

番外行
2026-06-07 15:53:29
6只科技牛股排隊辟謠“求別炒”,資金無視估值背離“就是不信”

6只科技牛股排隊辟謠“求別炒”,資金無視估值背離“就是不信”

第一財經(jīng)資訊
2026-06-16 21:29:16
鋤頭被殺刑事立案后續(xù)!狗主人再錘惡行,夫妻倆全坐牢也難平眾怒

鋤頭被殺刑事立案后續(xù)!狗主人再錘惡行,夫妻倆全坐牢也難平眾怒

奇思妙想草葉君
2026-06-15 19:21:54
21輛貨車離奇“偏航”泌陽被扣:詭異背后,到底誰在守株待兔?

21輛貨車離奇“偏航”泌陽被扣:詭異背后,到底誰在守株待兔?

迷世書童
2026-06-16 05:45:13
現(xiàn)在誰都幫不了她:高市早苗人在歐洲,中國則在亞洲對她釜底抽薪

現(xiàn)在誰都幫不了她:高市早苗人在歐洲,中國則在亞洲對她釜底抽薪

領(lǐng)略快樂真諦
2026-06-17 03:56:47
許世友臨終前說出諒山那夜的真相:他下了一道無人敢記錄的絕命令

許世友臨終前說出諒山那夜的真相:他下了一道無人敢記錄的絕命令

徐徐道史
2026-05-28 09:06:58
2026-06-17 07:35:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13280文章數(shù) 142670關(guān)注度
往期回顧 全部

科技要聞

DeepSeek融資500億,梁文鋒牢牢握住控制權(quán)

頭條要聞

美被指拒絕以色列看美伊諒解備忘錄 以總理發(fā)聲

頭條要聞

美被指拒絕以色列看美伊諒解備忘錄 以總理發(fā)聲

體育要聞

身價5萬的門將,擋住了12億歐元的狂轟濫炸

娛樂要聞

吳文忻葬禮:2個女兒在靈堂內(nèi)茫然失措

財經(jīng)要聞

從123美元到62美元 白銀價格上演過山車

汽車要聞

三車齊發(fā) 零跑全新C10/C11/C16上市12.58萬元起

態(tài)度原創(chuàng)

藝術(shù)
時尚
親子
數(shù)碼
教育

藝術(shù)要聞

約旦最大的體育場開始建設(shè),計劃2029年完工!

中式坐月子,震撼歐美中產(chǎn)

親子要聞

童裝巨頭轉(zhuǎn)型背后:一代人有一代人品牌,育兒觀正重塑市場

數(shù)碼要聞

微軟發(fā)布第12代Surface Pro/第8代Surface Laptop,1499美元起

教育要聞

2026年的高考地理題,真是夯爆了!

無障礙瀏覽 進(jìn)入關(guān)懷版