阿里巴巴旗下通义千问重磅发布下一代基础模型架构——Qwen3-Next,并正式开源基于该架构的Qwen3-Next-80B-A3B系列模型。此次发布的新一代MoE架构在Qwen3原有基础上实现多项重大核心升级,涵盖混合注意力机制、高稀疏度MoE结构、多项训练稳定性优化以及创新的多token预测推理加速技术。
基于Qwen3-Next架构,阿里成功训练出高性能基础模型Qwen3-Next-80B-A3B-Base。该模型总参数量高达800亿,实际推理时仅激活300亿参数,在多项性能测试中表现卓越——其综合性能媲美甚至小幅超越Qwen3-32B稠密模型,展现出极高的模型效率突破。
更值得关注的是,该模型以不到Qwen3-32B十分之一的训练成本(GPU小时),实现了远超后者的推理吞吐能力。尤其在32K以上长上下文场景中,推理吞吐性能达到Qwen3-32B的十倍以上,开创了训练成本与推理效能双优化的全新标杆。
对投资者的影响:
1. 技术领先性巩固阿里在AI领域的竞争优势,有利于增强资本市场信心
2. 大幅降低的训练成本预示AI模型商业化落地的盈利能力提升
3. 开源策略可能加速行业生态建设,创造新的价值链投资机会
4. 推理效率突破意味着云服务成本结构优化,直接利好云计算业务毛利率