训练成本大降超九成!阿里开源下一代基础模型架构

智能应用 2025-09-12 14:24

阿里通义发布下一代基础模型架构Qwen3-Next和基于新架构的模型Qwen3-Next-80B-A3B,包含两个版本:更擅长理解和执行指令的指令(Insctruct)模型,以及更擅长多步推理和深度思考的推理(Thinking)模型。在训练成本方面,Qwen3-Next模型较今年4月发布的密集模型Qwen3-32B大降超90%,长文本推理吞吐量提升10倍以上。新模型在Qwen3预训练数据的子集15T tokens上进行预训练,仅需Qwen3-32B所用GPU计算资源的9.3%,便能训练出性能更好的Qwen3-Next-Base基座模型,大幅提升了训练效率。

简讯快报

更多