技术进展

ZAYA1-8B:700M激活参数MoE推理模型发布

Heooo 05月08日12时18分 2 阅读

「ZAYA1-8B是一款基于MoE++架构的推理优化模型,仅700M激活参数即可在多项数学和编程基准上媲美DeepSeek-R1-0528,并引入Markovian RSA测试时计算方法。」

近日,Zayphra团队在arXiv上发布了ZAYA1-8B技术报告,展示了一款专注于推理能力的混合专家(MoE)模型。该模型总参数量为8B,但每次推理仅激活700M参数,这一设计使其在保持高性能的同时大幅降低了计算开销。ZAYA1-8B的核心预训练、中期训练和监督微调(SFT)均在AMD的全栈计算、网络和软件平台上完成,体现了开源硬件生态在AI前沿研究中的潜力。

在基准测试方面,ZAYA1-8B以不到1B的激活参数,在多个具有挑战性的数学和编程基准上达到或超越了DeepSeek-R1-0528,并与参数量大得多的开源推理模型保持竞争力。这一结果凸显了MoE架构在参数效率上的优势——通过稀疏激活,模型能够将有限的计算资源集中在最相关的专家路径上,从而在不显著增加推理成本的前提下提升推理能力。

ZAYA1-8B的训练过程从零开始,并从一开始就融入了推理数据。团队采用了一种“答案保留修剪方案”(answer-preserving trimming scheme),在预训练阶段就引入推理数据,确保模型在早期便学习到结构化的逻辑推导能力。后训练阶段则采用四阶段强化学习(RL)级联:首先是基于数学和谜题的推理热身;接着是包含400个任务的RLVE-Gym课程;然后针对数学和代码进行RL,结合测试时计算轨迹和从竞赛编程参考构建的合成代码环境;最后是面向对话和指令遵循的行为RL。这种分阶段、渐进式的训练策略,使模型逐步从基础推理过渡到复杂任务执行和自然交互。

报告中还提出了一种名为Markovian RSA的新型测试时计算方法。该方法递归地聚合并行推理轨迹,但每轮之间仅前向传递有限长度的“推理尾部”(bounded-length reasoning tails)。在实验中,Markovian RSA将ZAYA1-8B在AIME'25上的准确率提升至91.9%,在HMMT'25上达到89.6%,而每轮仅需携带4K token的尾部信息。这一技术显著缩小了ZAYA1-8B与更大模型(如Gemini-2.5 Pro、DeepSeek-V3.2和GPT-5-High)之间的差距,为轻量级模型通过更高效的测试时计算实现性能突破提供了新思路。

从更广泛的视角来看,ZAYA1-8B的成功不仅在于其出色的基准成绩,更在于它为资源受限环境下的AI部署提供了可行方案。700M激活参数意味着该模型可以在消费级GPU甚至边缘设备上运行,同时保持接近顶级模型的推理质量。此外,基于AMD平台的训练流程也表明,开放硬件生态正在成为AI研究的重要基础设施,有助于降低对特定供应商的依赖。

ZAYA1-8B的发布是推理优化领域的一个重要里程碑。它证明了通过精巧的架构设计、针对性的训练策略和高效的测试时计算方法,小型模型同样可以在复杂推理任务上挑战巨量参数模型。未来,随着MoE架构和测试时计算技术的进一步发展,我们有望看到更多高效、可部署的AI模型涌现,推动AI技术从实验室走向更广泛的实际应用场景。

# ZAYA1-8B # MoE # 推理模型 # 测试时计算 # AMD

来源:Heooo AI工具导航

📰

资讯不存在

该资讯可能已被删除或不存在

返回资讯列表