编程 MiniCPM-V 4.6:参数砍到1.3B,多模态小钢炮拿下同级第一

2026-05-13 17:38:45 +0800 CST views 5

MiniCPM-V 4.6:参数砍到 1.3B,多模态小钢炮拿下同级第一

标签: MiniCPM-V / 面壁智能 / 多模态 / 端侧AI / 密度定律
原文: 微信公众号「AGI Hunt」https://mp.weixin.qq.com/s/Yb00dSpYFlQ0_tGvo7FvTA


核心亮点

面壁智能发布 MiniCPM-V 4.6,参数量仅 1.3B,却在 1B 级别多模态评测中拿下第一。仅用 Qwen3.5-0.8B 2.5% 的 token 量,就超过了对方得分。手机断网即跑,秒级响应。


为什么要做小?

8B 模型跑在服务器上没问题,但到了手机、车机、智能家居这些终端设备上,就有点跑不动了。参数越大,推理越慢,功耗越高,能适配的芯片越少。

打个比方:8B 像大巴车,宽敞但只能走大路;1B 像电动自行车,大街小巷随便钻。

做到 1B 级别,基本上市面所有手机和电脑都能高效运行。面壁智能此前更大的端侧模型,已经在联想、吉利、上汽大众等 B 端客户产品中落地。


小但能打

MiniCPM-V 4.6 在多模态综合评测中超过 Qwen3.5-0.8B 和 Gemma4-E2B-it,在 1B 级别所有模型中拿到最好成绩。

提供 InstructThinking 两个版本:

  • Instruct:快速响应日常任务
  • Thinking:遇到复杂推理时深度思考

效率碾压

在 Artificial Analysis 评测中,MiniCPM-V 4.6 仅用了 Qwen3.5-0.8B 2.5% 的 token 量,就超过了对方得分。

别人用一整本书讲完的事,它一页纸就说清楚了。

这个"智能密度"在同尺寸模型中排到最高,再次验证了面壁智能 2024 年提出并登上 Nature 子刊的「密度定律」。


超快推理

手机端侧实测

在面壁手机 APP 上下载模型后断网体验(MiniCPM-V 4.6 INT4 量化版):

文档识别:上传英文论文截图,约 5 秒完成识别——表格结构、数学公式、正文段落全部正确。表格输出 HTML,公式输出 LaTeX。

菜单问答:拍英文餐厅菜单,问"帮我把饮料翻译成中文"——秒回。追问"最便宜的主菜是哪个"——同样秒回:Cheese Sandwich, $2。

多轮对话、图片理解、中英翻译、价格比较,全在手机端侧完成,不需要联网。

服务端性能

指标MiniCPM-V 4.6Qwen3.5-0.8B对比
vLLM 单卡吞吐量2624 token/s1.5 倍
图片处理速度(1344²)14.3 张/秒1.5 倍
TTFT 高分辨率(3136²)75.7ms168.6ms快 2.2 倍

图片越大,MiniCPM-V 4.6 的优势越明显。16 倍视觉 token 压缩让序列更短、KV-Cache 更小,高分辨率下的计算膨胀被压住了。


两个架构创新

1. LLaVA-UHD v4:视觉 token 压缩前移

常规做法:ViT 编码完之后,再接压缩模块减少 token。但 ViT 内部计算量一点没省。

LLaVA-UHD v4 的核心思路:把视觉 token 压缩前移到 ViT 内部的浅层

关键技术:

  • 复用相邻预训练 ViT 层的参数来初始化压缩模块
  • 在 token 合并前引入窗口注意力(Window Attention),补偿上下文信息

效果:视觉编码阶段浮点运算量降低 55.8%,性能没掉。

2. 自适应压缩率:4 倍与 16 倍兼得

市面上大部分多模态模型用 4 倍压缩率。面壁从 2024 年就支持 16 倍压缩,但以前 4 倍和 16 倍只能二选一。

MiniCPM-V 4.6 实现兼得:需要高精度走 4 倍,需要极速推理切 16 倍。端侧和云端需求,一个模型覆盖。


开箱即用、天生爆改

微调

1.3B 参数量的直接好处:一张 RTX 4090 就能跑完全量微调。独立开发者、高校团队、初创公司验证一个多模态 idea 的成本大幅降低。

官方原生支持 ms-swiftLLaMA-Factory,准备好数据改几行配置就能跑。

部署

全家桶适配:vLLM、SGLang、llama.cpp、Ollama

  • 云端:vLLM 跑高并发
  • 端侧:llama.cpp 或 Ollama 跑离线

还有端侧部署指南,手机、平板、开发板都能轻松接入。


密度定律

MiniCPM-V 系列从 2024 年 4 月至今已迭代六个版本:

版本参数量定位
初代2.8B起步
3.08B越级超 GPT-4V
后续4B性能反升
4.61.3B系列最小,同级最强

两年下来,开源累计下载量近 3000 万次,相关成果登上 Nature 子刊。

越做越小,越做越强。参数越小,能跑的设备越多;能跑的设备越多,AI 能触达的场景就越广。


项目信息

属性详情
模型MiniCPM-V 4.6
参数量1.3B
版本Instruct + Thinking
开发方面壁智能 × 清华大学
HuggingFacehttps://huggingface.co/openbmb/MiniCPM-V-4.6
GitHubhttps://github.com/OpenBMB/MiniCPM-V
ModelScopehttps://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6
Web Demohttps://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-Demo
App Demohttps://github.com/OpenBMB/MiniCPM-V-Apps

本文整理自微信公众号「AGI Hunt」,原文链接:https://mp.weixin.qq.com/s/Yb00dSpYFlQ0_tGvo7FvTA

推荐文章

php指定版本安装php扩展
2024-11-19 04:10:55 +0800 CST
Vue 中如何处理跨组件通信?
2024-11-17 15:59:54 +0800 CST
前端如何给页面添加水印
2024-11-19 07:12:56 +0800 CST
nuxt.js服务端渲染框架
2024-11-17 18:20:42 +0800 CST
智能视频墙
2025-02-22 11:21:29 +0800 CST
Python 微软邮箱 OAuth2 认证 Demo
2024-11-20 15:42:09 +0800 CST
10个极其有用的前端库
2024-11-19 09:41:20 +0800 CST
程序员茄子在线接单