browser-harness:狂揽 11.9K Stars!让 AI Agent 真正丝滑操控浏览器
标签: browser-harness / AI Agent / CDP / Playwright / 浏览器自动化 / Claude Code / WebSocket
原文: https://mp.weixin.qq.com/s/XBBFCVmdlBEDRjppi9WJ-w
核心亮点
一直在用 AI Agent 的兄弟们应该会遇到过头疼的问题:这些 Agent 总是无法很好地操作浏览器。
- 11.9K GitHub Stars:让 AI Agent 真正丝滑操控浏览器的开源方案
- CDP 框架直连 Chrome:无需 Playwright 等中间层,完全模拟真实用户行为
- 绕过反爬虫检测:使用你的真实浏览器(已登录小红书?Agent 直接操作)
- WebSocket 直连:通过 WebSocket 连接到 Chrome,无需其他操作
- Claude Code 一句话安装:发送安装提示词,Agent 自动完成配置
- 支持文件上传等复杂任务:Agent 可自主编写 helper 扩展能力
一、痛点:AI Agent 操作浏览器的困境
一直在用 AI Agent 的兄弟们应该会遇到过头疼的问题——
这些 Agent 总是无法很好地操作浏览器。
比如:
- 让 AI Agent 模拟人的行为浏览网页
- 自动搜索资料、整理资料
- 通过 Playwright 等工具触发网站反爬机制
- 被检测为机器人,无法完成核心任务
今天要介绍的这个开源项目,能够通过 CDP 框架直接操作 Chrome 浏览器,完全模拟人的行为,可以适用于完全自由的浏览器任务。
二、browser-harness 是什么?
browser-harness 借助浏览器的开发者工具箱,使用轻量级、可编辑的 CDP(Chrome DevTools Protocol)框架,将 Agent 直接连接到了真实的浏览器。
核心原理
换句话说,就是让 AI Agent 使用你真实的浏览器。
比如:
- 你的浏览器已经登录了小红书
- Agent 就可以通过操作你的浏览器,浏览小红书
- 甚至发布笔记,不会受到反爬机制的干扰
原理是通过 WebSocket 连接到 Chrome,中间无需任何其他操作。
工作流程示例
● agent: wants to upload a file
│
● agent-workspace/agent_helpers.py → helper missing
│
● agent writes it agent_helpers.py
│ + custom helper
✓ file uploaded
当 Agent 发现缺少某个 helper 时,它会自动编写相应的 helper 代码,然后继续完成任务。这种自我扩展的能力让 browser-harness 远比其他浏览器自动化工具更灵活。
三、安装:Claude Code 一句话搞定
安装方式超级简单,直接在 Claude Code 中发送下面的内容即可:
Set up https://github.com/browser-use/browser-harness for me.
Read `install.md` and follow the steps to install browser-harness and connect it to my browser.
然后 Agent 就会自动安装 browser-harness。跟着 Agent 的提示操作就行了,完全不需要手动配置。
四、体验:让 Agent 真正操控浏览器
案例:让 Agent 查看 Google 股票数据
输入下面的提示词:
"通过浏览器帮我看下 Google 最近 10 年的股票信息,给出一些投资建议"
Agent 的执行过程
识别任务:Agent 识别到需要使用 browser-harness 来完成任务
自动选择数据源:通过浏览器打开了 Google 的股票页面,发现 Google 财经获取数据不太顺利
智能切换:自动判断改用 Yahoo Finance 查看
自动交互:自动滚动到了图表区域
时间范围选择:自动点击时间范围选择按钮,进行时间范围选择
反正就这样一顿操作吧,Agent 操作浏览器也算是完成了任务。
整个过程中,Agent 像真人一样操作浏览器——打开页面、滚动、点击、切换标签页,完全不会被反爬虫检测。
五、为什么 browser-harness 不同于传统方案?
传统方案的问题
| 方案 | 问题 |
|---|---|
| Playwright | 特征固定,容易被检测为机器人 |
| Selenium | 需要额外配置,反爬机制越来越严格 |
| 手动 API | 需要维护 Cookie、Token,复杂且易失效 |
browser-harness 的优势
| 特性 | 说明 |
|---|---|
| 真实浏览器 | 使用用户已登录的真实 Chrome,不会被检测 |
| CDP 直连 | 绕过 Playwright 等中间层,直接与浏览器通信 |
| WebSocket | 实时双向通信,支持复杂交互 |
| Agent 自主扩展 | 可自动编写 helper 扩展能力 |
| 零侵入 | 不修改浏览器,不影响正常使用 |
六、支持的任务类型
browser-harness 可以处理各种复杂的浏览器任务:
- ✅ 网页浏览与数据采集:搜索、整理、抓取数据
- ✅ 表单填写与提交:自动填写表单、提交申请
- ✅ 文件上传:Agent 可自主编写 upload helper
- ✅ 社交媒体操作:发微博、发小红书笔记(使用你的真实账号)
- ✅ 金融数据查询:查看股票、基金、汇率等信息
- ✅ 自动化测试:作为 AI 驱动的测试框架
七、项目信息
🔗 GitHub:https://github.com/browser-use/browser-harness
📊 Stars:11.9K+
🔧 技术栈:CDP / WebSocket / Chrome DevTools Protocol
写在最后
browser-harness 解决了一个长期困扰 AI Agent 开发者的痛点:如何在不触发反爬虫检测的情况下,让 Agent 真正操控浏览器?
答案是:让 Agent 使用你的真实浏览器。
这样一来,所有的问题都迎刃而解了:
- 不需要维护 Cookie 和 Token
- 不需要处理验证码
- 不会被反爬虫系统拦截
- 可以完成任何真实用户能完成的操作
如果你正在开发需要浏览器操作的 AI Agent,或者想让 Claude Code 等工具真正"看到"并操作网页,browser-harness 绝对值得一试。
本文整理自微信公众号「Jack Bytes」,原文链接:https://mp.weixin.qq.com/s/XBBFCVmdlBEDRjppi9WJ-w