技术进展

智谱GLM-5.1高速版刷新全球大模型速度纪录

Heooo 05月22日18时00分 5 阅读

「智谱发布GLM-5.1高速版API,输出速度达400 tokens/s,打破速度与能力不可兼得的行业惯例,通过三大层面系统级优化实现旗舰性能与低延迟兼顾。」

国内知名人工智能团队智谱近日正式宣布,面向部分企业客户推出全新的 GLM-5.1 高速版 API。这款代号为“GLM-5.1-highspeed”的模型一经发布便震撼业界,其输出速度成功达到了惊人的 400 tokens/s。这一数据直接刷新了当前全球大模型厂商的 API 速度上限,展现出极强的技术统治力。

在过去的人工智能行业认知中,模型的运行速度与体积往往不可兼得,高速度通常意味着需要牺牲模型的能力。然而,GLM-5.1 高速版彻底打破了“快等于小”的行业惯例。该模型首次在国产大模型中实现了突破,成功将旗舰级的技术能力与极低的延迟体验同时带入到了实际生产环境中。

据悉,该模型由智谱 GLM 团队与 TileRT 团队联合打造。双方通过抛弃传统的动态调度,在推理引擎、调度系统以及底层基础设施三个层面进行了深度且彻底的系统级优化。在技术细节上,研发团队不仅针对模型架构重写了核心推理路径以提升单卡吞吐,还通过动态批处理等手段降低了高并发场景下的延迟。同时,围绕基础设施的协同优化,确保了 400 TPS 成为稳定可用的生产级能力。

这款高速模型拥有极其广泛的应用前景,特别适用于对响应延迟要求严苛的场景。无论是 AI 编程、实时语音交互,还是高频的商业决策,该模型目前均已在智谱 MaaS 平台面向部分企业开放服务。GLM-5.1 高速版的推出,不仅标志着国产大模型在推理效率上的重大突破,也为企业级 AI 应用提供了更高效、更可靠的底层能力支撑。

# 智谱 # GLM-5.1 # 高速模型 # API # 推理优化

来源:Heooo AI工具导航

📰

资讯不存在

该资讯可能已被删除或不存在

返回资讯列表