中国首个1.58-bit大模型BitCPM-CANN开源发布
「面壁智能联合清华大学及OpenBMB开源社区发布中国首个基于华为昇腾平台的三值大模型BitCPM-CANN,实现低比特训练突破,显著降低推理显存需求。」
面壁智能联合清华大学及OpenBMB开源社区正式发布并开源了中国首个基于华为昇腾平台训练的三值(1.58-bit)大模型——BitCPM-CANN。这一成果标志着低比特大模型训练领域的重要突破,展示了国产算力平台在AI技术前沿的支撑能力。
BitCPM-CANN的发布实现了从量化算子到训练算法的全链路原生开发,覆盖0.5B、1B、3B和8B四个尺寸。在与同尺寸全精度家族MiniCPM4的逐项对照评测中,BitCPM-CANN表现卓越,验证了三值化模型在保持性能的同时大幅降低资源消耗的可行性。
该模型在推理阶段可释放约6倍的显存红利。以8B参数版本为例,它能够轻松运行在当前主流旗舰手机上,为移动端AI应用开辟了新的可能性。这一特性对手机产业意义重大,意味着更强大的AI能力可以直接部署在终端设备上,无需依赖云端算力。
面壁智能基于MindSpeed与Megatron-LM搭建了完整的低比特训练底座,涵盖环境适配、32K长序列支持、并行策略、融合算子等工程体系。官方表示,今后所有面向昇腾的低比特训练工作都可以依托这一套公共基础设施,从而降低开发门槛,加快技术迭代速度。
为了推动技术应用,BitCPM-CANN的所有模型权重均已开源,开发者可通过HuggingFace和ModelScope平台获取。这为AI社区提供了一个极具潜力的工具,有望激发更多创新应用在边缘计算、移动设备等场景中涌现。
BitCPM-CANN的发布不仅展示了国产AI基础设施的成熟度,也为低比特大模型的研究与落地提供了可复用的技术栈。随着开源生态的完善,未来AI模型的部署将更加高效、低成本,进一步加速智能技术的普及。
来源:Heooo AI工具导航