中文字幕在线观看第三页,青草青视频,日韩在线你懂的

你的位置：首頁 > RF/微波 > 正文

摩爾線程MusaCoder開源：首個基于國產(chǎn)全功能GPU全棧訓(xùn)練的代碼大模型

發(fā)布時間：2026-06-11 來源：轉(zhuǎn)載責(zé)任編輯：lily

【導(dǎo)讀】近日，摩爾線程正式發(fā)布并開源面向GPU底層算子生成的專用代碼大模型MusaCoder。這是業(yè)內(nèi)首個基于國產(chǎn)GPU算力底座完成全鏈路訓(xùn)練與驗證的開源代碼大模型，其完整后訓(xùn)練流程均在基于MTT S5000構(gòu)建的夸娥智算集群上完成。在KernelBench嚴(yán)格評測中，MusaCoder-27B-RL以O(shè)verall Pass@8 93.2%、Avg.@8 88.60%的成績，超越Claude Opus 4.7、GLM-5.1、DeepSeek-V4 Pro、Kimi K2.6等主流SOTA代碼模型，展現(xiàn)出在GPU原生Kernel生成任務(wù)上的領(lǐng)先性能。

KernelBench準(zhǔn)確率（Avg.@8）對比

MusaCoder模型權(quán)重已開源：https://huggingface.co/MooreThreads/MusaCoder-27B

MusaCoder論文地址：http://arxiv.org/abs/2606.04847

MusaCoder：專為GPU設(shè)計的高性能算子生成模型

MusaCoder是摩爾線程面向GPU底層算子生成任務(wù)設(shè)計的專用代碼大模型，包含9B和27B兩個參數(shù)規(guī)模。該模型重點支持從PyTorch標(biāo)準(zhǔn)算子自動生成高性能CUDA/MUSA原生Kernel代碼，旨在降低開發(fā)者手寫底層GPU算子的門檻，提升GPU高性能計算場景下的代碼生成、驗證和優(yōu)化效率。

傳統(tǒng)代碼大模型雖然具備較強的通用編程能力，但在GPU Kernel生成任務(wù)中仍面臨顯著挑戰(zhàn)：一方面，GPU Kernel 對并行計算、線程組織、內(nèi)存訪問、索引映射和硬件執(zhí)行特性要求極高；另一方面，生成代碼不僅要語法正確，還必須能夠通過編譯、數(shù)值正確性驗證、反作弊檢測，并在真實執(zhí)行中獲得性能收益。

MusaCoder訓(xùn)練總流程

針對上述難點，MusaCoder構(gòu)建了一套面向GPU原生算子（CUDA/MUSA）生成的大模型全棧后訓(xùn)練方法論。該流程覆蓋數(shù)據(jù)構(gòu)建、執(zhí)行驗證、強化學(xué)習(xí)優(yōu)化等關(guān)鍵環(huán)節(jié)，使模型能夠從基礎(chǔ)代碼能力逐步進(jìn)化為具備底層算子生成與修復(fù)能力的專用模型。

在數(shù)據(jù)構(gòu)建階段，MusaCoder 通過結(jié)構(gòu)化推理過程和顯式 Shape 信息注入，增強模型對張量形狀、內(nèi)存布局和索引關(guān)系的理解，解決從通用代碼能力遷移到 GPU Kernel 生成任務(wù)時的冷啟動問題。

在評測與訓(xùn)練環(huán)境方面，摩爾線程構(gòu)建了 MooreEval 分布式執(zhí)行驗證系統(tǒng)。MooreEval 能夠?qū)δＰ蜕傻拇a進(jìn)行自動編譯、執(zhí)行、正確性驗證、性能測試和反作弊檢測，并將結(jié)果轉(zhuǎn)化為穩(wěn)定的訓(xùn)練反饋信號。這使得模型不僅能學(xué)習(xí)“寫出能運行的代碼”，還能夠進(jìn)一步學(xué)習(xí)“寫出正確、合法且更高效的原生 GPU Kernel”。

在強化學(xué)習(xí)階段，MusaCoder針對GPU Kernel生成任務(wù)中的多輪修復(fù)、訓(xùn)練穩(wěn)定性和長尾困難樣本等問題，引入了PrimeEcho、MirrorPop和BDR等機(jī)制，用于提升模型在多輪調(diào)試場景下的修復(fù)能力和訓(xùn)練穩(wěn)定性。通過這些方法，MusaCoder打通了從基礎(chǔ)代碼微調(diào)到執(zhí)行反饋強化學(xué)習(xí)的完整優(yōu)化閉環(huán)。

核心成果：正確率與真實加速能力雙提升

在MooreEval執(zhí)行式驗證協(xié)議下，MusaCoder-27B-RL在KernelBench評測中取得了顯著領(lǐng)先表現(xiàn)。

表1：KernelBench評估結(jié)果對比。Pass@8表示8個采樣代碼中至少有一個通過驗證，而Avg.@8則衡量8個樣本的平均正確率。

高準(zhǔn)確率超越SOTA：從正確率來看，MusaCoder-27B-RL的Overall Pass@8達(dá)到93.2%，Avg.@8達(dá)到88.60%，均超過Claude Opus 4.7的87.2%和77.30%。在更具挑戰(zhàn)性的Level 3任務(wù)上，MusaCoder-27B-RL的優(yōu)勢更加明顯。Level 3任務(wù)通常涉及復(fù)雜shape推導(dǎo)、索引映射和多算子組合，對模型的底層代碼理解能力和調(diào)試能力提出了更高要求。在該難度級別上，MusaCoder-27B-RL的Pass@8和Avg.@8分別領(lǐng)先Claude Opus 4.7的18個百分點和26.5個百分點。

真實加速能力突出：在MooreEval標(biāo)準(zhǔn)下，只有同時通過正確性驗證、合法性檢查，并且相比PyTorch baseline獲得有效加速的候選實現(xiàn)，才會被計入 Faster Rate。MusaCoder-27B-RL的Overall Faster Rate達(dá)到15.0%（vs. PyTorch Eager）和9.2%（vs. torch.compile），分別高于Claude Opus 4.7的 11.8%和7.5%。

這表明MusaCoder不僅能夠更穩(wěn)定地生成正確的GPU Kernel，也更有能力生成具備實際性能收益的原生算子代碼。

國產(chǎn)GPU完成全流程后訓(xùn)練，驗證夸娥智算集群能力

MusaCoder模型的SFT（監(jiān)督微調(diào)）、RFT（拒絕采樣微調(diào)）、RL（強化學(xué)習(xí)）、異步rollout、在線編譯執(zhí)行驗證及reward計算等全棧訓(xùn)練與驗證流程，均依托摩爾線程旗艦級AI訓(xùn)推一體智算卡MTT S5000所構(gòu)建的夸娥智算集群完成。

這一成果，充分驗證了國產(chǎn)GPU不僅能夠支撐大模型推理和常規(guī)微調(diào)任務(wù)，更能夠穩(wěn)定承載代碼大模型后訓(xùn)練全周期算力需求。尤其是在GPU Kernel生成這一類任務(wù)中，訓(xùn)練系統(tǒng)需要頻繁進(jìn)行代碼生成、編譯、執(zhí)行、驗證和反饋計算，對硬件、編譯棧、運行時、調(diào)度系統(tǒng)和評測基礎(chǔ)設(shè)施都提出了更高要求。

MusaCoder的成功實踐，將一次模型訓(xùn)練驗證沉淀為可復(fù)用的工程范式：不僅為AI Coding、AI Infra等基礎(chǔ)設(shè)施的自主可控提供了實踐范例，也展現(xiàn)了摩爾線程在AI軟件棧、訓(xùn)練平臺、評測系統(tǒng)和開源模型生態(tài)方面的完整工程支撐能力。

共建開放生態(tài)，推動國產(chǎn)AI創(chuàng)新與應(yīng)用

MusaCoder的正式開源，旨在為MUSA生態(tài)提供面向PyTorch到原生算子生成的基礎(chǔ)模型能力，幫助開發(fā)者更高效地完成GPU Kernel 的生成、驗證、修復(fù)和優(yōu)化，降低底層算子開發(fā)門檻。

同時，MusaCoder也為高校、科研機(jī)構(gòu)和開源社區(qū)提供了一個基于國產(chǎn)全功能GPU的代碼生成研究平臺，推動異構(gòu)計算編程、AI編譯優(yōu)化和自動化Kernel生成等方向的開放研究與技術(shù)交流。

未來，摩爾線程將持續(xù)增強MusaCoder在復(fù)雜任務(wù)上的生成與修復(fù)能力，并進(jìn)一步探索與IDE插件、自動調(diào)試工具、profiling工具等開發(fā)者工具鏈的結(jié)合，逐步形成從PyTorch參考實現(xiàn)到MUSA原生Kernel的自動生成、驗證、修復(fù)和優(yōu)化閉環(huán)，持續(xù)推動國產(chǎn)GPU生態(tài)建設(shè)與AI基礎(chǔ)設(shè)施創(chuàng)新。

上一篇：英飛凌攜手西門子：以碳化硅技術(shù)賦能數(shù)據(jù)中心及工廠電氣保護(hù)

下一篇：借助安全事項應(yīng)用筆記實現(xiàn)安全設(shè)計——第3部分：提升功能安全性能

特別推薦

噪聲中提取真值！瑞盟科技推出MSA2240電流檢測芯片賦能多元高端測量場景
10MHz高頻運行！氮矽科技發(fā)布集成驅(qū)動GaN芯片，助力電源能效再攀新高
失真度僅0.002%！力芯微推出超低內(nèi)阻、超低失真4PST模擬開關(guān)
一“芯”雙電！圣邦微電子發(fā)布雙輸出電源芯片，簡化AFE與音頻設(shè)計
一機(jī)適配萬端：金升陽推出1200W可編程電源，賦能高端裝備制造

技術(shù)文章更多>>

技術(shù)白皮書下載更多>>

熱門搜索

摩爾線程MusaCoder開源：首個基于國產(chǎn)全功能GPU全棧訓(xùn)練的代碼大模型

友情鏈接(QQ：317243736)