AutoRound开源量化工具 赋能大模型超低比特部署
开源项目

AutoRound开源量化工具 赋能大模型超低比特部署

Heooo 05月03日02时55分 1 阅读

「Intel开源AutoRound大模型量化工具,支持2-4比特超低精度,兼容多框架与硬件,已融入主流大模型生态。」

在大模型部署场景中,量化技术是平衡模型性能与硬件资源的核心手段之一。近日,Intel推出的开源量化工具AutoRound凭借其在超低比特精度下的高精度表现,以及广泛的生态兼容性,成为大模型部署领域的热门解决方案。AutoRound专为大语言模型(LLMs)和视觉语言模型(VLMs)设计,基于符号梯度下降(Sign-gradient descent)技术,能够在2-4比特的超低比特宽度下实现高精度,同时仅需极少的调优成本。

AutoRound开源量化工具 赋能大模型超低比特部署

从版本迭代历程来看,AutoRound自发布以来持续更新,功能不断完善。2025年3月,该工具实现了INT2混合精度量化的DeepSeek-R1模型(约200GB)保留97.9%的精度,证明了其在极端低比特下的性能潜力;同年5月,AutoRound先后集成至Transformers和vLLM框架,进一步拓展了其应用场景;10月,工具完成与SGLang的集成,同时推出混合精度算法,可在数分钟内生成量化方案;11月,AutoRound正式加入LLM-Compressor生态,还新增了增强版GGUF量化算法。进入2026年3月,AutoRound又新增了Block-wise FP8量化支持以及MTP层量化功能,持续丰富技术矩阵。

AutoRound开源量化工具 赋能大模型超低比特部署

AutoRound的核心优势体现在多个维度。首先是高精度表现:在2-3比特的超低精度下仍能保持强性能,4比特精度下的基准测试结果处于行业领先水平;其次是广泛的生态集成,可无缝对接Transformers、vLLM、SGLang等主流大模型框架,降低用户的迁移成本;第三是多格式导出支持,兼容AutoRound、AutoAWQ、AutoGPTQ、GGUF等多种量化格式,适配不同的部署环境。

AutoRound开源量化工具 赋能大模型超低比特部署

除了核心功能,AutoRound还具备轻量化、低成本的特点。量化7B规模的模型仅需在单GPU上运行约10分钟,内存开销仅为模型BF16版本的1.1-1.5倍,大幅降低了量化的硬件门槛。用户还可以根据需求选择不同的量化方案:auto-round-best追求最高精度,auto-round兼顾性能与速度,auto-round-light则主打轻量化部署。此外,AutoRound支持多GPU量化、多校准数据集,适配10+运行时后端,还能为10+视觉语言模型提供开箱即用的量化支持。

AutoRound开源量化工具 赋能大模型超低比特部署

在技术迭代方面,AutoRound基于SignRoundV1和SignRoundV2论文持续优化,用户开启enable_alg_ext并使用AutoScheme API即可实现混合精度量化,复现论文中的实验结果。目前,AutoRound正在拓展更多数据类型的支持,包括MXFP、NVFP、W8A8等,逐步超越传统的仅权重量化模式,为大模型部署提供更多可能性。

AutoRound开源量化工具 赋能大模型超低比特部署

对于开发者来说,AutoRound的安装与使用十分便捷,仅需通过pip命令即可完成部署:pip install auto-round,也可安装nightly版本获取最新功能。用户可参考项目文档中的用户指南、量化食谱等内容,快速上手实现大模型的超低比特量化部署。

# 大模型量化 # 开源AI工具 # AutoRound # LLM部署

来源:Heooo AI工具导航

📰

资讯不存在

该资讯可能已被删除或不存在

返回资讯列表