📌 ZAYA1-8B Technical Report
ZAYA1-8B是基于MoE架构的高效推理模型,采用MoE++设计(700M激活参数/8B总参数),通过3阶段后训练流程显著提升数学与代码能力,在AIME 2025测试中超越Qwen3-8B和LLaMA 4 Maverick 7B,开源权重已发布。
💡 模型新进展,值得关注 | via arXiv AI
ZAYA1-8B是基于MoE架构的高效推理模型,采用MoE++设计(700M激活参数/8B总参数),通过3阶段后训练流程显著提升数学与代码能力,在AIME 2025测试中超越Qwen3-8B和LLaMA 4 Maverick 7B,开源权重已发布。
💡 模型新进展,值得关注 | via arXiv AI