技术进展

智谱GLM-5.1高速版API速度创新高

Heooo 05月23日03时58分 6 阅读

「智谱推出GLM-5.1高速版API,实测输出速度达400 tokens/s,刷新全球大模型API速度纪录,实现旗舰级能力与极致低延迟的融合。」

智谱近日面向企业客户正式上线了GLM-5.1高速版API(GLM-5.1-highspeed)。该模型在保留旗舰大模型完整基座能力的前提下,实测输出速度达到了惊人的400 tokens/s,刷新了当前全球大模型厂商官方API的速度上限。这意味着,一位创作者连续伏案数天才能码出的文字量,它在1分钟内便能交付完毕;原本需要工程师敲键盘3天的系统重构任务,它在一杯咖啡的时间里就能彻底跑完。

过去行业普遍默认“快意味着模型小/轻量级”,智谱首次在国产大模型中实现了“旗舰级全尺寸能力”与“极致低延迟”的完美并存。该模型支持200K超长上下文窗口,最大单次输出达128K标记,由智谱GLM团队与TileRT团队深度联合打造,重构了系统级推理生态。现已通过智谱MaaS开放平台向部分特定企业客户定向开放。

在速度敏感型场景中,400 tokens/s的体感是颠覆性的。在AI编程方面,传统智能体编程往往需要经历几十轮的跨文件调用与长文本对齐,单轮响应若卡顿几秒,整体任务就会拉长到十几分钟。在高速版加持下,写代码如同开启10倍速,函数、接口与底层调用链随着用户键盘敲击同步瞬时展开,大型工程重构无需任何空等。在实时交互与3D游戏场景中,极低延迟让模型能够完美胜任游戏世界内的实时动态生成、网页UI的即时构建,能够跟随用户的连续输入,毫无滞后地改变系统状态与界面反馈。在商业决策集群中,高速版支持“30秒内完成复杂网页Agent集群的多人格并行应答”,大幅拉高了高频量化与推演的效率天花板。在无缝实时语音场景中,极速响应能让语音识别到合成的链路延迟无限趋近于零,带来真正对等、自然的人类对话流。

这一全球速度纪录的诞生,核心在于智谱GLM团队与TileRT团队联合打造的系统级工程优化。400 tokens/s不是一个好看的“瞬间峰值”,而是一个稳定可用的生产级能力。其底层优化逻辑分为三个层面:在推理引擎层,团队针对GLM-5.1独有的网络架构特点,彻底重写了最核心的推理路径与底层算子,让单张显卡的吞吐能力和硬件执行效率逼近物理极限。在调度系统层,引入了极为激进的动态批处理、请求合并技术以及颠覆性的KV缓存调度优化,彻底解决了高并发、多用户调用状态下传统模型极易出现的拖尾延迟现象。在基础设施层,围绕推理集群的组网部署、网络链路拓扑以及超高频负载均衡进行了全方位的硬件级协同调优,确保算力在整条流水线上无损传递。

智谱GLM-5.1高速版的推出,通过将单次Token的产出成本与时间成本压缩到原来的数分之一,让企业在部署高频多Agent系统时,不再需要在“要高智能(选大模型却很慢)”和“要速度(选小模型却很笨)”之间做痛苦的妥协。随着智谱在MaaS平台上的定向铺开,这一低延迟、高智能的“生产级AI能力”,无疑将加速国内软件生态、自动化编程及游戏产业向全面“Agentic时代”的迭代升级。

# 智谱 # GLM-5.1 # API速度 # AI推理 # TileRT

来源:Heooo AI工具导航

📰

资讯不存在

该资讯可能已被删除或不存在

返回资讯列表