案例 Mano-P + Cider:4B模型本地操控Mac,端侧GUI Agent新时代

2026-05-07 13:34:32 +0800 CST views 10

Mano-P + Cider:4B模型本地操控Mac,端侧GUI Agent新时代

Mano-P: https://github.com/Mininglamp-AI/Mano-P
Cider: https://github.com/Mininglamp-AI/cider
开发团队: 明略科技(Mininglamp-AI)
发布平台: 程序员茄子(chenxutan.com)
标签: GUI Agent, 端侧AI, Apple Silicon, MLX, 视觉理解, 本地运行


引言

你的 Mac 就是一个 AI Agent。

纯视觉理解桌面上的任何软件界面,像人一样去操作,而且全程跑在你自己电脑上,数据不上云。

Mano-P + Cider,把端侧 AI 从"能跑"推到了"跑得快、跑得好"。


一、项目概览

两个开源项目

项目说明
Mano-PGUI-VLA 模型,纯视觉理解和操作图形界面
Cider推理加速框架,给 Apple Silicon MLX 模型加速

核心理念

不依赖 CDP 协议,不解析 HTML,直接看屏幕截图就能定位界面元素、执行点击输入、完成复杂操作。


二、Mano-P:本地 GUI Agent

什么是 GUI-VLA

GUI-VLA(Graphical User Interface - Vision Language Action Model)

用纯视觉的方式理解和操作图形界面。

传统方案Mano-P
需要 CDP 协议❌ 不需要
需要解析 HTML❌ 不需要
需要 DOM 定位❌ 不需要
直接看屏幕截图✅ 就是这样

支持的场景

  • 桌面软件 ✅
  • 专业工具 ✅
  • 浏览器 ✅
  • 3D 应用 ✅
  • 任何图形界面

不限于浏览器场景,桌面软件、专业工具、3D 应用都能操控。


三、训练数据

数据规模

指标数值
GUI 轨迹数据6 万条
动作数量300 万+
覆盖场景主流桌面和 Web 操作

数据类型

  • 桌面软件操作
  • Web 浏览器交互
  • 专业工具使用
  • 3D 应用操控

四、性能数据

硬件表现

指标数值
模型规模4B 量化
测试设备Apple M4 Pro
预填充速度476 tokens/s
解码速度76 tokens/s
峰值内存4.3GB

准确性对比

方案OSWorld 准确率数据处理
Claude Computer Use72.1%云端
Mano-P58.2%本地

结论:Claude 云端准确率更高,但 Mano-P 完全本地运行,数据不出设备。


五、核心优势

1. 完全本地运行

所有截图和任务数据不出设备。

  • 不上传到任何云端
  • 隐私安全有保障
  • 离线也能工作

2. 离线长任务自主规划

复杂业务流程可以完全不联网就完成自主决策和纠错。

3. 与云端大模型相当的准确率

一个 4B 的小模型,在 CUA 任务上实现了和云端大模型相当的准确率。

4. 低资源占用

资源占用
模型大小4B
峰值内存4.3GB

六、安装配置

快速安装

# 添加 Homebrew 源
brew tap HanningWang/tap

# 安装 Mano-CUA
brew install mano-cua

基本使用

# 运行命令
mano-cua run "打开微信告诉xxx会议延期"

Skill 方式接入

也支持以 Skill 的方式接入现有系统。


七、Cider 推理加速框架

为什么需要 Cider

Apple MLX 原生框架缺失:

  • W8A8 量化计算能力
  • W4A8 量化计算能力

MLX 目前支持:

  • W4A16
  • W8A16

但缺少激活量化

Cider 的解决方案

调用 Apple 底层 Metal 4 API,首次在 Apple GPU 上实现了硬件加速的 INT8 TensorOps 计算。


八、Cider 性能数据

算子速度提升

模式相比 MLX 原生
W8A81.4x - 1.9x

具体速度提升取决于 batch size。

预填充加速实测

模型FP16 原生Cider W8A8提升
Qwen3-8B1695 tokens/s2531 tokens/s1.5x
Llama3-8B1727 tokens/s2520 tokens/s1.46x

视觉语言模型加速

对于 Qwen3-VL-2B

场景加速比例
chunked prefill 端到端预填充57% - 61%

九、Cider 接入方式

一行代码接入

from cider import convert_model, is_available

# 加载模型
model, proc = load("path/to/model")

# 智能加速
if is_available():
    convert_model(model)
    # CiderLinear 自动判断:
    # seq_len > 1 - W8A8 INT8 TensorOps(加速预填充)
    # seq_len == 1 - INT8 MV kernel(原生解码速度)
else:
    pass  # 在非 Apple Silicon 上回退标准 MLX 推理

智能判断逻辑

场景计算方式优化目标
seq_len > 1W8A8 INT8 TensorOps加速预填充
seq_len == 1INT8 MV kernel保证解码速度

不需要手动切换,自动选择最优计算方式。


十、Cider 适用模型

Cider 不只是给 Mano-P 用的。

模型家族支持情况
Qwen✅ 通用
Llama✅ 通用
Mistral✅ 通用
任何 MLX 模型✅ 通用

只要你的模型跑在 MLX 上,都能用 Cider 加速。


十一、Mano-P 能干什么

场景1:全自动化应用构建流程

用自然语言描述需求,系统自动完成:

需求描述
    ↓
需求澄清
    ↓
架构设计
    ↓
代码生成
    ↓
本地部署
    ↓
多层级测试
    ├── API 接口测试
    ├── LLM 页面视觉检测
    └── VLA 模型端到端 GUI 测试
    ↓
自动定位问题
    ↓
修复代码
    ↓
重新部署
    ↓
循环迭代直到全部通过

整个流程不需要人工干预。

场景2:商业视频智能系统

下发指令
    ↓
自动完成
├── 视频生成
├── 上传
├── 分析
├── 剪辑
└── 二次评测
    ↓
自动操作网页和剪辑软件
    ↓
处理文件、修改字幕
    ↓
生成报告
├── 主观评价
└── 客观指标

核心特点

这些场景的核心特点是一样的:大量截图和界面操作数据,全部在本地处理,不上传到任何云端。


十二、成本分析

GUI 测试 token 消耗

全自动编程流水线里,GUI 测试消耗的云端 token 占比超过 59%。

为什么这么高

  • API 测试只能验证接口是否正常
  • 软件是否真的可用,得有人打开界面操作一遍才知道
  • 这个过程天然依赖多模态理解
  • 模型要持续处理截图、定位元素、执行操作、判断结果
  • 推理消耗非常大

Mano-P 的价值

把这部分开销直接归零

  • ❌ 不调 API
  • ❌ 不传截图
  • ❌ 不花一分钱

十三、对比 Claude Computer Use

维度Claude Computer UseMano-P
OSWorld 准确率72.1%58.2%
数据处理云端本地
隐私安全⚠️ 数据上传✅ 完全本地
网络要求需要联网离线可用
成本API 费用免费

适用场景建议

场景推荐方案
对隐私和安全有要求Mano-P
企业内部系统测试Mano-P
处理敏感数据的自动化流程Mano-P
追求最高准确率Claude
不介意数据上传Claude

十四、技术架构

Mano-P 架构

用户自然语言指令
        ↓
VLA 模型(4B 量化)
        ↓
视觉理解 → 界面元素定位
        ↓
动作规划 → 点击/输入/滑动
        ↓
执行反馈 → 截图 → 结果验证

Cider 加速架构

MLX 模型
    ↓
检测 seq_len
    ↓
├── seq_len > 1 → W8A8 INT8 TensorOps(Metal 4)
└── seq_len == 1 → INT8 MV kernel
    ↓
Apple GPU 硬件加速

十五、后续计划

团队还会继续开源:

mano-p 模型的训练方法,帮助开发者利用自己的数据训练定制化 GUI Agent 模型。

这意味着:

  • 你可以用自己的数据训练
  • 定制化 GUI Agent
  • 针对特定场景优化

十六、团队背景

明略科技(Mininglamp-AI) 正在建设端侧 AI、私有化 AI 的基础设施能力:

产品定位
Mano-P端侧 GUI Agent
Cider端侧推理加速

从 Agent 到加速框架,端到端打通。


十七、适用人群

人群适用度
Mac 用户⭐⭐⭐⭐⭐ 完美
需要本地 AI 隐私⭐⭐⭐⭐⭐ 完美
企业内部自动化⭐⭐⭐⭐⭐ 完美
开发者定制 Agent⭐⭐⭐⭐⭐ 完美
Apple Silicon 用户⭐⭐⭐⭐⭐ 完美

十八、总结

核心价值

价值说明
本地运行数据不出设备
4B 小模型476 tokens/s 预填充
Cider 加速1.5x 性能提升
离线可用长任务自主规划
低成本不调 API,不花一分钱

关键洞察

Mano-P 证明了端侧 GUI Agent 的应用价值,Cider 则解决了端侧 AI 落地最底层的问题:如何让模型在 Mac 上更快、更省内存、更接近真实可用。


本文首发于「程序员茄子」博客,原文链接:https://chenxutan.com

推荐文章

LLM驱动的强大网络爬虫工具
2024-11-19 07:37:07 +0800 CST
H5抖音商城小黄车购物系统
2024-11-19 08:04:29 +0800 CST
为什么要放弃UUID作为MySQL主键?
2024-11-18 23:33:07 +0800 CST
解决python “No module named pip”
2024-11-18 11:49:18 +0800 CST
Nginx rewrite 的用法
2024-11-18 22:59:02 +0800 CST
Elasticsearch 聚合和分析
2024-11-19 06:44:08 +0800 CST
Python 获取网络时间和本地时间
2024-11-18 21:53:35 +0800 CST
Golang 中你应该知道的 Range 知识
2024-11-19 04:01:21 +0800 CST
Vue3中如何处理跨域请求?
2024-11-19 08:43:14 +0800 CST
Manticore Search:高性能的搜索引擎
2024-11-19 03:43:32 +0800 CST
Vue 3 中的 Watch 实现及最佳实践
2024-11-18 22:18:40 +0800 CST
windows安装sphinx3.0.3(中文检索)
2024-11-17 05:23:31 +0800 CST
16.6k+ 开源精准 IP 地址库
2024-11-17 23:14:40 +0800 CST
php常用的正则表达式
2024-11-19 03:48:35 +0800 CST
程序员茄子在线接单