华为昇腾0 Day适配智谱GLM-5.2模型

近日，华为昇腾AI开发者官方宣布，昇腾平台已0 Day支持智谱GLM-5.2模型，并针对该模型的结构特点提供了全面的推理优化方案。这一举措标志着国产算力平台与前沿开源大模型的深度协同迈入新阶段。

据悉，目前昇腾A3系列产品已实现对GLM-5.2的单双机以及大EP（Expert Parallelism）推理部署。GLM-5.2专为长程任务能力而生，拥有Solid 1M超长上下文支持，在多个长程任务基准上表现介于Claude Opus 4.7与4.8之间，是排名最高的开源模型。其编程能力在主流基准上保持开源SOTA，与Claude Opus 4.8处于可比区间。

为了充分发挥GLM-5.2的潜力，昇腾围绕多项关键技术开展了高效推理优化。其中，MOE大融合算子将专家路由、加权计算与结果归约融合为统一算子，消除了中间张量的冗余读写，显著提升了计算效率。通信与计算融合方面，通过将AllReduce优化为ReduceScatter与AllGather通信原语，并与矩阵计算形成紧耦合流水线，有效隐藏了通信延迟。

此外，昇腾还引入了注意力前处理与多Token预测（MTP）优化，采用融合算子结合MTP加速机制，提升了单步生成效率。在高并发混合负载场景下，预填充延迟调度机制平滑了计算峰值，降低了Prefill阶段对Decode阶段的资源抢占。智能缓存与索引优化则结合IndexCache技术缓存高频专家路径与静态路由表，并采用Chunked Prefill、稀疏索引检索等方法，优化了长上下文推理性能。

PD分离与Prefix Cache技术也是此次优化的亮点之一。通过将Prefill与Decode阶段分离，并利用前缀缓存技术，压缩了解码时延抖动，提升了在线服务的吞吐稳定性。这些优化共同保障了GLM-5.2在国产算力平台上的高效运行。

智谱官方表示，GLM-5.2已在Day 0完成与华为昇腾、平头哥、摩尔线程、寒武纪、昆仑芯、沐曦、海光、壁仞等国产算力平台的推理适配。在1M上下文长度下，GLM-5.2将单位token的FLOPs降低至2.9倍。预计下半年昇腾950超节点上市后，也将成为GLM-5.2强劲的算力底座，进一步推动国产AI生态的发展。