案例 browser-harness:狂揽 11.9K Stars!让 AI Agent 真正丝滑操控浏览器

2026-05-11 10:18:42 +0800 CST views 17

browser-harness:狂揽 11.9K Stars!让 AI Agent 真正丝滑操控浏览器

标签: browser-harness / AI Agent / CDP / Playwright / 浏览器自动化 / Claude Code / WebSocket
原文: https://mp.weixin.qq.com/s/XBBFCVmdlBEDRjppi9WJ-w


核心亮点

一直在用 AI Agent 的兄弟们应该会遇到过头疼的问题:这些 Agent 总是无法很好地操作浏览器。

  • 11.9K GitHub Stars:让 AI Agent 真正丝滑操控浏览器的开源方案
  • CDP 框架直连 Chrome:无需 Playwright 等中间层,完全模拟真实用户行为
  • 绕过反爬虫检测:使用你的真实浏览器(已登录小红书?Agent 直接操作)
  • WebSocket 直连:通过 WebSocket 连接到 Chrome,无需其他操作
  • Claude Code 一句话安装:发送安装提示词,Agent 自动完成配置
  • 支持文件上传等复杂任务:Agent 可自主编写 helper 扩展能力

一、痛点:AI Agent 操作浏览器的困境

一直在用 AI Agent 的兄弟们应该会遇到过头疼的问题——

这些 Agent 总是无法很好地操作浏览器。

比如:

  • 让 AI Agent 模拟人的行为浏览网页
  • 自动搜索资料、整理资料
  • 通过 Playwright 等工具触发网站反爬机制
  • 被检测为机器人,无法完成核心任务

今天要介绍的这个开源项目,能够通过 CDP 框架直接操作 Chrome 浏览器,完全模拟人的行为,可以适用于完全自由的浏览器任务。


二、browser-harness 是什么?

browser-harness 借助浏览器的开发者工具箱,使用轻量级、可编辑的 CDP(Chrome DevTools Protocol)框架,将 Agent 直接连接到了真实的浏览器。

核心原理

换句话说,就是让 AI Agent 使用你真实的浏览器。

比如:

  • 你的浏览器已经登录了小红书
  • Agent 就可以通过操作你的浏览器,浏览小红书
  • 甚至发布笔记,不会受到反爬机制的干扰

原理是通过 WebSocket 连接到 Chrome,中间无需任何其他操作。

工作流程示例

● agent: wants to upload a file
│
● agent-workspace/agent_helpers.py → helper missing
│
● agent writes it       agent_helpers.py
│                        + custom helper
✓ file uploaded

当 Agent 发现缺少某个 helper 时,它会自动编写相应的 helper 代码,然后继续完成任务。这种自我扩展的能力让 browser-harness 远比其他浏览器自动化工具更灵活。


三、安装:Claude Code 一句话搞定

安装方式超级简单,直接在 Claude Code 中发送下面的内容即可:

Set up https://github.com/browser-use/browser-harness for me.
Read `install.md` and follow the steps to install browser-harness and connect it to my browser.

然后 Agent 就会自动安装 browser-harness。跟着 Agent 的提示操作就行了,完全不需要手动配置


四、体验:让 Agent 真正操控浏览器

案例:让 Agent 查看 Google 股票数据

输入下面的提示词:

"通过浏览器帮我看下 Google 最近 10 年的股票信息,给出一些投资建议"

Agent 的执行过程

  1. 识别任务:Agent 识别到需要使用 browser-harness 来完成任务

  2. 自动选择数据源:通过浏览器打开了 Google 的股票页面,发现 Google 财经获取数据不太顺利

  3. 智能切换:自动判断改用 Yahoo Finance 查看

  4. 自动交互:自动滚动到了图表区域

  5. 时间范围选择:自动点击时间范围选择按钮,进行时间范围选择

反正就这样一顿操作吧,Agent 操作浏览器也算是完成了任务。

整个过程中,Agent 像真人一样操作浏览器——打开页面、滚动、点击、切换标签页,完全不会被反爬虫检测


五、为什么 browser-harness 不同于传统方案?

传统方案的问题

方案问题
Playwright特征固定,容易被检测为机器人
Selenium需要额外配置,反爬机制越来越严格
手动 API需要维护 Cookie、Token,复杂且易失效

browser-harness 的优势

特性说明
真实浏览器使用用户已登录的真实 Chrome,不会被检测
CDP 直连绕过 Playwright 等中间层,直接与浏览器通信
WebSocket实时双向通信,支持复杂交互
Agent 自主扩展可自动编写 helper 扩展能力
零侵入不修改浏览器,不影响正常使用

六、支持的任务类型

browser-harness 可以处理各种复杂的浏览器任务:

  • 网页浏览与数据采集:搜索、整理、抓取数据
  • 表单填写与提交:自动填写表单、提交申请
  • 文件上传:Agent 可自主编写 upload helper
  • 社交媒体操作:发微博、发小红书笔记(使用你的真实账号)
  • 金融数据查询:查看股票、基金、汇率等信息
  • 自动化测试:作为 AI 驱动的测试框架

七、项目信息

🔗 GitHub:https://github.com/browser-use/browser-harness

📊 Stars:11.9K+

🔧 技术栈:CDP / WebSocket / Chrome DevTools Protocol


写在最后

browser-harness 解决了一个长期困扰 AI Agent 开发者的痛点:如何在不触发反爬虫检测的情况下,让 Agent 真正操控浏览器?

答案是:让 Agent 使用你的真实浏览器。

这样一来,所有的问题都迎刃而解了:

  • 不需要维护 Cookie 和 Token
  • 不需要处理验证码
  • 不会被反爬虫系统拦截
  • 可以完成任何真实用户能完成的操作

如果你正在开发需要浏览器操作的 AI Agent,或者想让 Claude Code 等工具真正"看到"并操作网页,browser-harness 绝对值得一试。


本文整理自微信公众号「Jack Bytes」,原文链接:https://mp.weixin.qq.com/s/XBBFCVmdlBEDRjppi9WJ-w

推荐文章

为什么大厂也无法避免写出Bug?
2024-11-19 10:03:23 +0800 CST
一个数字时钟的HTML
2024-11-19 07:46:53 +0800 CST
Vue3中如何进行异步组件的加载?
2024-11-17 04:29:53 +0800 CST
JavaScript中的常用浏览器API
2024-11-18 23:23:16 +0800 CST
liunx服务器监控workerman进程守护
2024-11-18 13:28:44 +0800 CST
api远程把word文件转换为pdf
2024-11-19 03:48:33 +0800 CST
2025,重新认识 HTML!
2025-02-07 14:40:00 +0800 CST
前端代码规范 - 图片相关
2024-11-19 08:34:48 +0800 CST
程序员茄子在线接单