1.3B端侧多模态模型MiniCPM-V 4.6开源发布
技术进展

1.3B端侧多模态模型MiniCPM-V 4.6开源发布

Heooo 05月27日15时00分 3 阅读

「面壁智能联合清华及OpenBMB发布MiniCPM-V 4.6,1.3B参数模型在多项评测中超越同尺寸竞品,性能直逼更大参数模型,推动端侧AI落地。」

面壁智能联合清华大学及OpenBMB开源社区近日正式发布了新一代端侧多模态大模型MiniCPM-V 4.6。这款仅拥有1.3B参数的轻量级模型,凭借极致的智能密度与跨平台适配能力,成功挑战了更大参数模型的性能天花板,为端侧AI的落地应用按下了加速键。

MiniCPM-V 4.6推出了Instruct与Thinking两个版本。在Artificial Analysis(AA)榜单中,该模型以13分的优异成绩,不仅大幅领先同尺寸竞品(如阿里Qwen3.5-0.8B和谷歌Gemma4-E2B-it),性能更直逼更大参数的Qwen3.5-2B,成为1B级模型中的性能标杆。无论是在通用图文理解、复杂的STEM数理推理,还是极具挑战的文档OCR与视频时序理解方面,模型表现均展现出极高的智能水准。特别是在多图像推理与幻觉抑制方面,Thinking版表现尤为出色。

为了解决端侧部署的内存焦虑,MiniCPM-V 4.6在推理速度与资源占用上进行了深度优化。运行内存需求被压缩至6GB,使得主流智能手机、PC及智能家居设备均能流畅运行。基于vLLM的推理吞吐量达到竞品的1.5倍;在端侧处理3136²超高清大图时,首响延迟仅75.7ms,较竞品快出2.2倍。单卡即可实现7013token/s的文本生成能力,以及54.79张/秒的1344²图片处理能力,效率表现惊人。

1.3B端侧多模态模型MiniCPM-V 4.6开源发布

模型之所以能轻装上阵,离不开面壁智能与清华大学联合研发的LLaVA-UHD v4技术。通过重构ViT图像编码与浅层压缩模块,图像编码开销降低了50%,高分辨率浮点运算减少55.8%。创新支持4倍/16倍混合Token压缩,支持模型在性能优先与速度优先之间灵活切换。该技术此前已在快手的推荐大模型OneRec中经过验证,支撑了海量流量请求。

MiniCPM-V 4.6的开源不仅是技术的胜利,更是生态的胜利。模型深度适配ms-swift、LLaMA-Factory等微调框架,开发者单张RTX4090显卡即可实现全量微调。同时支持vLLM、Ollama等主流框架,并提供覆盖iOS、Android、HarmonyOS的测试版本,让AI触达更多形态的硬件终端。目前该系列已在汽车、PC、智能家居及工业检测等多领域落地,合作伙伴涵盖联想、吉利、上汽大众、小米、OPPO等行业头部企业。

随着MiniCPM-V 4.6的全面开源,端侧多模态大模型的门槛已被彻底拉平。未来,AI将不再仅仅依赖云端算力,而是真正融入每一个智能终端,成为个人日常生活中不可或缺的智慧大脑。

# MiniCPM-V # 多模态模型 # 端侧AI # 开源

来源:Heooo AI工具导航