技术进展

小米MiMo-V2.5-Pro推出UltraSpeed模式,速度突破千tokens

Heooo 06月09日03时00分 1 阅读

「小米与TileRT联合发布MiMo-V2.5-Pro UltraSpeed模式,在通用GPU上实现万亿参数模型生成速度超1000 tokens/s,API定价为原版3倍,速度提升约10倍。」

小米MiMo官方近日宣布,与TileRT联合推出Xiaomi MiMo-V2.5-Pro的UltraSpeed模式。该模式通过模型与系统的极致协同设计(Codesign),在通用GPU上首次将万亿参数模型的生成速度突破1000 tokens/s,标志着大模型推理效率的重大进步。

同步上线的MiMo-V2.5-Pro-UltraSpeed API采用限时体验价,定价为MiMo-V2.5-Pro的3倍,同时提供约10倍的输出速度提升。作为参考,小米MiMo-V2.5-Pro每百万tokens输入价格为0.025元(缓存命中)或3元(未命中缓存),每百万tokens输出价格为6元。UltraSpeed模式仅支持API体验,不支持Token Plan,官方称之为“3倍价格提升,10倍输出体验”。

由于高速推理资源供给有限,本次UltraSpeed模式采取申请制限时开放,申请通过的用户可限时接入API体验,时间仅限2026年6月9日至6月23日。由于资源紧张,试用名额有限,提交申请后不承诺审核时效性和通过率;小米将优先审核具备真实业务需求的企业与专业开发者场景。

通过审核的用户可获得限时免费的Chat体验(两周开放窗口内有效)。为保障资源受限条件下的体验质量与使用公平性,试用服务规则包括:每个账号每日最多成功进入队列10次;单次会话时长上限30分钟;如会话空闲超过5分钟,系统将自动释放资源。

这一技术突破对于需要处理大规模语言模型的企业和开发者具有重要意义。UltraSpeed模式通过优化模型架构与硬件协同,显著降低了推理延迟,使得万亿参数模型在实时应用场景中成为可能。尽管定价较高,但10倍的速度提升为高吞吐量任务(如实时对话系统、大规模内容生成)提供了更具性价比的选择。

小米MiMo团队表示,未来将继续探索模型与系统的深度协同优化,推动大模型推理效率的持续提升。此次与TileRT的合作,也展示了开源生态与商业模型结合的巨大潜力。

# 小米 # MiMo # 大模型 # 推理速度 # API

来源:Heooo AI工具导航