案例 Mano-P + Cider：4B模型本地操控Mac，端侧GUI Agent新时代

2026-05-07 13:34:32 +0800 CST views 302

Mano-P + Cider：4B模型本地操控Mac，端侧GUI Agent新时代

Mano-P: https://github.com/Mininglamp-AI/Mano-P
Cider: https://github.com/Mininglamp-AI/cider
开发团队: 明略科技（Mininglamp-AI）
发布平台: 程序员茄子（chenxutan.com）
标签: GUI Agent, 端侧AI, Apple Silicon, MLX, 视觉理解, 本地运行

引言

你的 Mac 就是一个 AI Agent。

纯视觉理解桌面上的任何软件界面，像人一样去操作，而且全程跑在你自己电脑上，数据不上云。

Mano-P + Cider，把端侧 AI 从"能跑"推到了"跑得快、跑得好"。

一、项目概览

两个开源项目

项目	说明
Mano-P	GUI-VLA 模型，纯视觉理解和操作图形界面
Cider	推理加速框架，给 Apple Silicon MLX 模型加速

核心理念

不依赖 CDP 协议，不解析 HTML，直接看屏幕截图就能定位界面元素、执行点击输入、完成复杂操作。

二、Mano-P：本地 GUI Agent

什么是 GUI-VLA

GUI-VLA（Graphical User Interface - Vision Language Action Model）

用纯视觉的方式理解和操作图形界面。

传统方案	Mano-P
需要 CDP 协议	❌ 不需要
需要解析 HTML	❌ 不需要
需要 DOM 定位	❌ 不需要
直接看屏幕截图	✅ 就是这样

支持的场景

桌面软件 ✅
专业工具 ✅
浏览器 ✅
3D 应用 ✅
任何图形界面 ✅

不限于浏览器场景，桌面软件、专业工具、3D 应用都能操控。

三、训练数据

数据规模

指标	数值
GUI 轨迹数据	6 万条
动作数量	300 万+
覆盖场景	主流桌面和 Web 操作

数据类型

桌面软件操作
Web 浏览器交互
专业工具使用
3D 应用操控

四、性能数据

硬件表现

指标	数值
模型规模	4B 量化
测试设备	Apple M4 Pro
预填充速度	476 tokens/s
解码速度	76 tokens/s
峰值内存	4.3GB

准确性对比

方案	OSWorld 准确率	数据处理
Claude Computer Use	72.1%	云端
Mano-P	58.2%	本地

结论：Claude 云端准确率更高，但 Mano-P 完全本地运行，数据不出设备。

五、核心优势

1. 完全本地运行

所有截图和任务数据不出设备。

不上传到任何云端
隐私安全有保障
离线也能工作

2. 离线长任务自主规划

复杂业务流程可以完全不联网就完成自主决策和纠错。

3. 与云端大模型相当的准确率

一个 4B 的小模型，在 CUA 任务上实现了和云端大模型相当的准确率。

4. 低资源占用

资源	占用
模型大小	4B
峰值内存	4.3GB

六、安装配置

快速安装

# 添加 Homebrew 源
brew tap HanningWang/tap

# 安装 Mano-CUA
brew install mano-cua

基本使用

# 运行命令
mano-cua run "打开微信告诉xxx会议延期"

Skill 方式接入

也支持以 Skill 的方式接入现有系统。

七、Cider 推理加速框架

为什么需要 Cider

Apple MLX 原生框架缺失：

W8A8 量化计算能力
W4A8 量化计算能力

MLX 目前支持：

W4A16
W8A16

但缺少激活量化。

Cider 的解决方案

调用 Apple 底层 Metal 4 API，首次在 Apple GPU 上实现了硬件加速的 INT8 TensorOps 计算。

八、Cider 性能数据

算子速度提升

模式	相比 MLX 原生
W8A8	1.4x - 1.9x

具体速度提升取决于 batch size。

预填充加速实测

模型	FP16 原生	Cider W8A8	提升
Qwen3-8B	1695 tokens/s	2531 tokens/s	1.5x
Llama3-8B	1727 tokens/s	2520 tokens/s	1.46x

视觉语言模型加速

对于 Qwen3-VL-2B：

场景	加速比例
chunked prefill 端到端预填充	57% - 61%

九、Cider 接入方式

一行代码接入

from cider import convert_model, is_available

# 加载模型
model, proc = load("path/to/model")

# 智能加速
if is_available():
    convert_model(model)
    # CiderLinear 自动判断：
    # seq_len > 1 - W8A8 INT8 TensorOps（加速预填充）
    # seq_len == 1 - INT8 MV kernel（原生解码速度）
else:
    pass  # 在非 Apple Silicon 上回退标准 MLX 推理

智能判断逻辑

场景	计算方式	优化目标
seq_len > 1	W8A8 INT8 TensorOps	加速预填充
seq_len == 1	INT8 MV kernel	保证解码速度

不需要手动切换，自动选择最优计算方式。

十、Cider 适用模型

Cider 不只是给 Mano-P 用的。

模型家族	支持情况
Qwen	✅ 通用
Llama	✅ 通用
Mistral	✅ 通用
任何 MLX 模型	✅ 通用

只要你的模型跑在 MLX 上，都能用 Cider 加速。

十一、Mano-P 能干什么

场景1：全自动化应用构建流程

用自然语言描述需求，系统自动完成：

需求描述
    ↓
需求澄清
    ↓
架构设计
    ↓
代码生成
    ↓
本地部署
    ↓
多层级测试
    ├── API 接口测试
    ├── LLM 页面视觉检测
    └── VLA 模型端到端 GUI 测试
    ↓
自动定位问题
    ↓
修复代码
    ↓
重新部署
    ↓
循环迭代直到全部通过

整个流程不需要人工干预。

场景2：商业视频智能系统

下发指令
    ↓
自动完成
├── 视频生成
├── 上传
├── 分析
├── 剪辑
└── 二次评测
    ↓
自动操作网页和剪辑软件
    ↓
处理文件、修改字幕
    ↓
生成报告
├── 主观评价
└── 客观指标

核心特点

这些场景的核心特点是一样的：大量截图和界面操作数据，全部在本地处理，不上传到任何云端。

十二、成本分析

GUI 测试 token 消耗

全自动编程流水线里，GUI 测试消耗的云端 token 占比超过 59%。

为什么这么高

API 测试只能验证接口是否正常
软件是否真的可用，得有人打开界面操作一遍才知道
这个过程天然依赖多模态理解
模型要持续处理截图、定位元素、执行操作、判断结果
推理消耗非常大

Mano-P 的价值

把这部分开销直接归零：

❌ 不调 API
❌ 不传截图
❌ 不花一分钱

十三、对比 Claude Computer Use

维度	Claude Computer Use	Mano-P
OSWorld 准确率	72.1%	58.2%
数据处理	云端	本地
隐私安全	⚠️ 数据上传	✅ 完全本地
网络要求	需要联网	离线可用
成本	API 费用	免费

适用场景建议

场景	推荐方案
对隐私和安全有要求	✅ Mano-P
企业内部系统测试	✅ Mano-P
处理敏感数据的自动化流程	✅ Mano-P
追求最高准确率	Claude
不介意数据上传	Claude

十四、技术架构

Mano-P 架构

用户自然语言指令
        ↓
VLA 模型（4B 量化）
        ↓
视觉理解 → 界面元素定位
        ↓
动作规划 → 点击/输入/滑动
        ↓
执行反馈 → 截图 → 结果验证

Cider 加速架构

MLX 模型
    ↓
检测 seq_len
    ↓
├── seq_len > 1 → W8A8 INT8 TensorOps（Metal 4）
└── seq_len == 1 → INT8 MV kernel
    ↓
Apple GPU 硬件加速

十五、后续计划

团队还会继续开源：

mano-p 模型的训练方法，帮助开发者利用自己的数据训练定制化 GUI Agent 模型。

这意味着：

你可以用自己的数据训练
定制化 GUI Agent
针对特定场景优化

十六、团队背景

明略科技（Mininglamp-AI） 正在建设端侧 AI、私有化 AI 的基础设施能力：

产品	定位
Mano-P	端侧 GUI Agent
Cider	端侧推理加速

从 Agent 到加速框架，端到端打通。

十七、适用人群

人群	适用度
Mac 用户	⭐⭐⭐⭐⭐ 完美
需要本地 AI 隐私	⭐⭐⭐⭐⭐ 完美
企业内部自动化	⭐⭐⭐⭐⭐ 完美
开发者定制 Agent	⭐⭐⭐⭐⭐ 完美
Apple Silicon 用户	⭐⭐⭐⭐⭐ 完美

十八、总结

核心价值

价值	说明
本地运行	数据不出设备
4B 小模型	476 tokens/s 预填充
Cider 加速	1.5x 性能提升
离线可用	长任务自主规划
低成本	不调 API，不花一分钱

关键洞察

Mano-P 证明了端侧 GUI Agent 的应用价值，Cider 则解决了端侧 AI 落地最底层的问题：如何让模型在 Mac 上更快、更省内存、更接近真实可用。

本文首发于「程序员茄子」博客，原文链接：https://chenxutan.com