ZAYA1-8B：700M激活参数MoE推理模型发布

近日，Zayphra团队在arXiv上发布了ZAYA1-8B技术报告，展示了一款专注于推理能力的混合专家（MoE）模型。该模型总参数量为8B，但每次推理仅激活700M参数，这一设计使其在保持高性能的同时大幅降低了计算开销。ZAYA1-8B的核心预训练、中期训练和监督微调（SFT）均在AMD的全栈计算、网络和软件平台上完成，体现了开源硬件生态在AI前沿研究中的潜力。

在基准测试方面，ZAYA1-8B以不到1B的激活参数，在多个具有挑战性的数学和编程基准上达到或超越了DeepSeek-R1-0528，并与参数量大得多的开源推理模型保持竞争力。这一结果凸显了MoE架构在参数效率上的优势——通过稀疏激活，模型能够将有限的计算资源集中在最相关的专家路径上，从而在不显著增加推理成本的前提下提升推理能力。

ZAYA1-8B的训练过程从零开始，并从一开始就融入了推理数据。团队采用了一种“答案保留修剪方案”（answer-preserving trimming scheme），在预训练阶段就引入推理数据，确保模型在早期便学习到结构化的逻辑推导能力。后训练阶段则采用四阶段强化学习（RL）级联：首先是基于数学和谜题的推理热身；接着是包含400个任务的RLVE-Gym课程；然后针对数学和代码进行RL，结合测试时计算轨迹和从竞赛编程参考构建的合成代码环境；最后是面向对话和指令遵循的行为RL。这种分阶段、渐进式的训练策略，使模型逐步从基础推理过渡到复杂任务执行和自然交互。

报告中还提出了一种名为Markovian RSA的新型测试时计算方法。该方法递归地聚合并行推理轨迹，但每轮之间仅前向传递有限长度的“推理尾部”（bounded-length reasoning tails）。在实验中，Markovian RSA将ZAYA1-8B在AIME'25上的准确率提升至91.9%，在HMMT'25上达到89.6%，而每轮仅需携带4K token的尾部信息。这一技术显著缩小了ZAYA1-8B与更大模型（如Gemini-2.5 Pro、DeepSeek-V3.2和GPT-5-High）之间的差距，为轻量级模型通过更高效的测试时计算实现性能突破提供了新思路。

从更广泛的视角来看，ZAYA1-8B的成功不仅在于其出色的基准成绩，更在于它为资源受限环境下的AI部署提供了可行方案。700M激活参数意味着该模型可以在消费级GPU甚至边缘设备上运行，同时保持接近顶级模型的推理质量。此外，基于AMD平台的训练流程也表明，开放硬件生态正在成为AI研究的重要基础设施，有助于降低对特定供应商的依赖。

ZAYA1-8B的发布是推理优化领域的一个重要里程碑。它证明了通过精巧的架构设计、针对性的训练策略和高效的测试时计算方法，小型模型同样可以在复杂推理任务上挑战巨量参数模型。未来，随着MoE架构和测试时计算技术的进一步发展，我们有望看到更多高效、可部署的AI模型涌现，推动AI技术从实验室走向更广泛的实际应用场景。