📌 ZAYA1-8B Technical Report

ZAYA1-8B是基于MoE架构的高效推理模型,采用MoE++设计(700M激活参数/8B总参数),通过3阶段后训练流程显著提升数学与代码能力,在AIME 2025测试中超越Qwen3-8B和LLaMA 4 Maverick 7B,开源权重已发布。

💡 模型新进展,值得关注 | via arXiv AI