编程 MiniCPM-V 4.6 手机实测:1.3B参数跑满端侧推理,输入框还没缩回结果就出来了

2026-05-13 17:56:16 +0800 CST views 6

MiniCPM-V 4.6 手机实测:1.3B 参数跑满端侧推理,输入框还没缩回结果就出来了

标签: MiniCPM-V / 面壁智能 / 端侧AI / 手机AI / 多模态
原文: 微信公众号「逛逛GitHub」https://mp.weixin.qq.com/s/sRu7eN9CzjXH2V1nuX-ZXw


核心亮点

面壁智能 MiniCPM-V 4.6 手机实测:输入框还没收起来,结果已经输出完了。1.3B 参数,仅用 Qwen3.5-0.8B 2.5% 的 token 量就超越对方得分,推理版本更是 1/43 的消耗量。LLaVA-UHD v4 架构让视觉编码运算量砍掉 55.8%。


手机实测:快到离谱

在面壁手机 APP 上直接体验 MiniCPM-V 4.6,完全跑在手机端侧(不经过任何云端 API),使用 INT4 量化版本。

实测感受:输入框还没缩下去,结果就输出完了。

5 段演示视频,分别展示不同场景下的响应速度,最长 20 秒,最短 3 秒。


成绩对比

MiniCPM-V 4.6 提供两个版本:

  • Instruct:直接回答,快速响应日常任务
  • Thinking:深度推理,复杂问题深度思考

综合能力

大部分图文理解任务上,4.6 超过了 Qwen3.5-0.8B 和 Gemma4-E2B-it。不是单项强,是综合能力强。

智能密度

版本MiniCPM-V 4.6 Token 消耗Qwen3.5-0.8B Token 消耗倍数差距
非推理5.4M101M1/19
推理233M1/43

非推理版只用了 Qwen3.5-0.8B 1/19 的 token,推理版更是 1/43。用 2.5% 的 token 量就超过了对方,效率差距非常夸张。

推理效率

指标MiniCPM-V 4.6对比
vLLM token 吞吐量2624 token/sQwen3.5-0.8B 的 1.5 倍
图片处理(1344²)14.3 张/秒Qwen3.5-0.8B 的 1.4 倍
TTFT 高清大图(3136²)75.7msQwen3.5-0.8B 快 2.2 倍

最离谱的是延迟曲线——分辨率从低到高,延迟几乎是平的。分辨率翻倍,延迟几乎不涨。


为什么这么快?

LLaVA-UHD v4:视觉编码效率翻倍

传统方案在 ViT 之后做 Token 压缩,只减轻了下游 LLM 的负担,视觉编码器内部计算量一点没少。

LLaVA-UHD v4 的思路:把 Token 压缩前移到 ViT 内部浅层。越早压缩,后面需要处理的 Token 越少,整体计算量越低。

技术难点在于:ViT 浅层已经学到大量视觉表征,直接插入随机初始化的下采样模块会破坏表征。

解决方案:

  • 在 Token 合并前引入窗口注意力(Window Attention),增强邻近 Token 上下文交互
  • 复用相邻预训练 ViT 层的参数,减小对视觉表征的扰动

结果:视觉编码阶段浮点运算量降低 55.8%,性能不掉点。相比传统 ViT 节约了约一半的图像编码开销。

4 倍/16 倍混合压缩

市面上大部分模型只支持 4 倍压缩。面壁从 2024 年就开始做 16 倍压缩,但以前只能二选一。

MiniCPM-V 4.6 把两者都做进去了:要精度用 4 倍,要速度用 16 倍。一个模型,两种模式。

16 倍压缩不是噱头,已被快手验证:

快手 2025 年推出的 OneRec 推荐大模型,用 MiniCPM-V-8B(16 倍压缩)处理视频字幕、标签、ASR、OCR、封面图等多模态表征,承接了快手短视频推荐主场景 25% 的请求。日活几亿的产品,16 倍压缩扛住了。


门槛降到了最低

微调

1.3B 参数意味着 RTX 4090 就能全量跑通微调流程。独立开发者、高校团队不需要租算力集群就能做垂类定制。

部署

生态全打通:

  • 微调:ms-swift、LLaMA-Factory
  • 推理:vLLM、SGLang、llama.cpp、Ollama

准备好数据,改几行配置,一键拉起训练。


MiniCPM-V 进化路线

版本参数量时间
2.02.8B2024 年 4 月
2.58B2024 年 5 月
2.68B2024 年 8 月
4.04.1B2025 年 8 月
4.58B2025 年 8 月
4.61.3B2026 年 5 月

不是越做越大,是越做越密。

面壁 2024 年提出的「密度定律」:不是模型越大越好,是智能密度越高越好。这项研究登上了 Nature 子刊。

截至 2026 年 3 月,MiniCPM-V 系列开源累计下载量近 3000 万次


项目信息

属性详情
模型MiniCPM-V 4.6
参数量1.3B
开发方面壁智能 × 清华大学
HuggingFacehttps://huggingface.co/openbmb/MiniCPM-V-4.6
GitHubhttps://github.com/OpenBMB/MiniCPM-V
ModelScopehttps://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6
Web Demohttps://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-Demo
App Demohttps://github.com/OpenBMB/MiniCPM-V-Apps
论文https://huggingface.co/papers/2605.08985

本文整理自微信公众号「逛逛GitHub」,原文链接:https://mp.weixin.qq.com/s/sRu7eN9CzjXH2V1nuX-ZXw

复制全文 生成海报 MiniCPM-V 面壁智能 端侧AI 手机AI 多模态

推荐文章

一个数字时钟的HTML
2024-11-19 07:46:53 +0800 CST
Elasticsearch 文档操作
2024-11-18 12:36:01 +0800 CST
php strpos查找字符串性能对比
2024-11-19 08:15:16 +0800 CST
如何在Vue3中处理全局状态管理?
2024-11-18 19:25:59 +0800 CST
MySQL 主从同步一致性详解
2024-11-19 02:49:19 +0800 CST
Vue3中如何进行异步组件的加载?
2024-11-17 04:29:53 +0800 CST
资源文档库
2024-12-07 20:42:49 +0800 CST
java MySQL如何获取唯一订单编号?
2024-11-18 18:51:44 +0800 CST
程序员茄子在线接单