阿里發布Qwen3-Coder,為4800億參數開源代碼模型
關鍵詞: 阿里Qwen3-Coder 混合專家模型 代碼強化學習 代理式編程 開源模型
近日,阿里巴巴集團正式發布了全新開源代碼模型 Qwen3-Coder,引起了廣泛關注。此次發布的 Qwen3-Coder-480B-A35B-Instruct(以下簡稱 Qwen3-Coder)是該系列中最強大的版本,擁有高達4,800億的總參數量和350億的激活參數,原生支持256K token的上下文,并可擴展到1百萬token,支持358種編程語言。
Qwen3-Coder采用了混合專家(MoE)模型架構,配備了96個查詢(Q)注意力頭和8個鍵/值(KV)注意力頭,擁有160個專家,其中8個專家被激活。在預訓練階段,該模型從數據、上下文和合成數據三個角度進行擴展,以提升代碼能力;在后訓練階段,研究團隊通過在真實代碼任務上擴展代碼強化學習(Code RL)訓練,顯著提升了代碼執行成功率。
值得一提的是,Qwen3-Coder在代理式編碼、代理式瀏覽器使用和代理式工具使用上達到了開源模型的領先水平,媲美Claude Sonnet 4。其代碼庫上線一小時便收獲了5.1k Star,足見其受歡迎程度。此外,阿里還推出了基于Qwen3-Coder的命令行工具Qwen Code,進一步提升了其在代理式編程任務上的表現。
Qwen3-Coder的發布是阿里Qwen3系列模型的最新進展。三個月前,阿里發布了Qwen3系列,包括兩款MoE模型和六款密集模型。其中的旗艦模型Qwen3-235B-A22B,總參數量高達2,350億,激活參數為220億。此次發布的Qwen3-Coder取消了混合思維模式,專注于非思考模式,以獲得最佳質量。
