1.3B端侧多模态模型MiniCPM-V 4.6开源发布

面壁智能联合清华大学及OpenBMB开源社区近日正式发布了新一代端侧多模态大模型MiniCPM-V 4.6。这款仅拥有1.3B参数的轻量级模型，凭借极致的智能密度与跨平台适配能力，成功挑战了更大参数模型的性能天花板，为端侧AI的落地应用按下了加速键。

MiniCPM-V 4.6推出了Instruct与Thinking两个版本。在Artificial Analysis（AA）榜单中，该模型以13分的优异成绩，不仅大幅领先同尺寸竞品（如阿里Qwen3.5-0.8B和谷歌Gemma4-E2B-it），性能更直逼更大参数的Qwen3.5-2B，成为1B级模型中的性能标杆。无论是在通用图文理解、复杂的STEM数理推理，还是极具挑战的文档OCR与视频时序理解方面，模型表现均展现出极高的智能水准。特别是在多图像推理与幻觉抑制方面，Thinking版表现尤为出色。

为了解决端侧部署的内存焦虑，MiniCPM-V 4.6在推理速度与资源占用上进行了深度优化。运行内存需求被压缩至6GB，使得主流智能手机、PC及智能家居设备均能流畅运行。基于vLLM的推理吞吐量达到竞品的1.5倍；在端侧处理3136²超高清大图时，首响延迟仅75.7ms，较竞品快出2.2倍。单卡即可实现7013token/s的文本生成能力，以及54.79张/秒的1344²图片处理能力，效率表现惊人。

模型之所以能轻装上阵，离不开面壁智能与清华大学联合研发的LLaVA-UHD v4技术。通过重构ViT图像编码与浅层压缩模块，图像编码开销降低了50%，高分辨率浮点运算减少55.8%。创新支持4倍/16倍混合Token压缩，支持模型在性能优先与速度优先之间灵活切换。该技术此前已在快手的推荐大模型OneRec中经过验证，支撑了海量流量请求。

MiniCPM-V 4.6的开源不仅是技术的胜利，更是生态的胜利。模型深度适配ms-swift、LLaMA-Factory等微调框架，开发者单张RTX4090显卡即可实现全量微调。同时支持vLLM、Ollama等主流框架，并提供覆盖iOS、Android、HarmonyOS的测试版本，让AI触达更多形态的硬件终端。目前该系列已在汽车、PC、智能家居及工业检测等多领域落地，合作伙伴涵盖联想、吉利、上汽大众、小米、OPPO等行业头部企业。

随着MiniCPM-V 4.6的全面开源，端侧多模态大模型的门槛已被彻底拉平。未来，AI将不再仅仅依赖云端算力，而是真正融入每一个智能终端，成为个人日常生活中不可或缺的智慧大脑。

1.3B端侧多模态模型MiniCPM-V 4.6开源发布

相关资讯

大语言模型赋能智能体建模新突破

上下文图谱驱动企业AI主动代理

AgentLens：代码智能体全轨迹评估新基准

叙事世界模型：长篇小说AI记忆新突破

Ghost Font：人类可读但AI无法破解的动态字体