综合网络数据抓取神器 Pipet

2024-11-19 05:43:20 +0800 CST views 1748

网络数据抓取神器 Pipet

项目简介

Pipet 是一个基于命令行的网络抓取工具，支持 HTML 解析、JSON 解析和客户端 JavaScript 评估。它依赖于现有工具如 curl，并使用 Unix 管道扩展功能。您可以用 Pipet 跟踪发货情况、获取音乐会门票通知、股票价格变化等信息。

快速开始

创建一个名为 hackernews.pipet 的文件，内容如下：

curl https://news.ycombinator.com/
.title .titleline
  span > a
  .sitebit a

然后运行：

go run github.com/bjesus/pipet/cmd/pipet@latest hackernews.pipet

或者安装 Pipet 并运行：

pipet hackernews.pipet

在终端中查看所有最新的黑客新闻！

安装方式

预建

从版本页面下载最新版本，使用以下命令赋予执行权限：

chmod +x pipet

然后运行：

./pipet

编译

此方法需要安装 Go。使用以下命令安装 Pipet：

go install github.com/bjesus/pipet/cmd/pipet@latest

或者可以运行而无需安装：

go run github.com/bjesus/pipet/cmd/pipet@latest

发行版

Pipet 目前支持 Arch Linux、Homebrew 和 Nix：

brew tap bjesus/pipet && brew install pipet

用法

Pipet 唯一需要的参数是 .pipet 文件的路径，其他命令行标志包括：

--json, -j - 输出为 JSON（默认值：false）
--template value, -t value - 指定模板文件路径
--separator value, -s value - 设置文本输出的分隔符
--max-pages value, -p value - 最大抓取页面数（默认值：3）
--interval value, -i value - X 秒后重新运行 Pipet
--on-change value, -c value - 新结果时运行的命令
--verbose, -v - 启用详细日志记录（默认值：false）
--help, -h - 显示帮助

Pipet 文件结构

Pipet 文件描述从何处及如何获取数据，包含多个块。以 // 开头的行为注释。每个块包含：

资源 - 第一行是 URL 和抓取工具
查询 - 接下来的几行是选择器
下一页 - 以 > 开头的可选行，描述“下一页”的选择器

示例 Pipet 文件

// Read Wikipedia's "On This Day"
curl https://en.wikipedia.org/wiki/Main_Page
div#mp-otd li
  body
div#mp-tfa > p > b > a

// Get the weather in Alert, Canada
curl https://wttr.in/Alert%20Canada?format=j1
current_condition.0.FeelsLikeC
current_condition.0.FeelsLikeF

// Check how popular the Pipet repo is
playwright https://github.com/bjesus/pipet
Array.from(document.querySelectorAll('.about-margin .Link')).map(e => e.innerText.trim()).filter(t=> /^\d/.test(t) )

项目链接

访问 GitHub 上的 Pipet 项目

复制全文生成海报网络抓取工具编程开发

推荐文章

PostgreSQL 18 深度解析：异步 I/O 革命与开发者体验的全面升级

2026-05-12 07:41:52 +0800 CST

MTools：免费开源的本地 AI 工具集，一个顶好几个

2026-05-13 17:55:20 +0800 CST

2026 年 vLLM 推理服务实战：PagedAttention 原理、分布式部署与性能调优完全指南

2026-06-08 22:53:03 +0800 CST

Warp 深度实战：OpenAI 赞助的新一代 AI 终端——从 Rust 架构到 Agentic 开发环境的生产级完全指南（2026）

2026-06-06 02:09:35 +0800 CST

Shell 里给变量赋值为多行文本

2024-11-18 20:25:45 +0800 CST

Zerostack 深度实战：7k 行 Rust 打造 8MB 内存占用的 Unix 哲学 AI 编码代理

2026-05-22 12:46:54 +0800 CST

MCP协议深度实战指南：从协议原理到生产级AI工具链的完整构建方案（2026版）

2026-05-19 07:48:04 +0800 CST

DeerFlow 2.0 深度实战：字节跳动 49K Star 的超级智能体运行时——从 LangGraph DAG 到沙箱隔离的全链路架构解析

2026-05-07 04:37:34 +0800 CST

btp-devops是一个在Python中非常有用的库，旨在简化开发运维过程

2024-11-19 07:50:26 +0800 CST

浏览器原生剪贴板大揭秘：原来你也能轻松读取用户截图！

2025-08-15 12:28:43 +0800 CST

Pullfrog 深度实战：Zod 作者打造的 AI Code Review 革命——GitHub Actions 原生 AI Agent 完全指南（2026）

2026-05-31 13:21:18 +0800 CST

Vue3实现一个实时更新的数字时钟。通过组合式API和setup语法糖，创建了一个响应式的时钟组件，能够每秒更新当前时间，并在主应用中引入

2024-11-19 01:43:48 +0800 CST

从原理到实战：llama.cpp 与 GGUF 量化格式的工程实践全解

2026-04-12 22:56:41 +0800 CST

React2Shell 深度实战：当原型链污染撕裂前端安全防线——从 Flight 协议反序列化到 RCE 利用链、企业应急响应与零信任修复的生产级完全指南（2026）

2026-06-17 14:32:04 +0800 CST

browser-harness：狂揽 11.9K Stars！让 AI Agent 真正丝滑操控浏览器

2026-05-11 10:18:42 +0800 CST

软件定制开发流程

2024-11-19 05:52:28 +0800 CST

Redis 8.8 深度实战：当原生Array数据结构降临——从窗口限流到Streams NACK、从字段级通知到时序聚合的生产级完全指南（2026）

2026-06-21 21:23:44 +0800 CST

DiffusionGemma 深度实战：当文本生成告别逐字蹦字——从离散扩散到 1100 tokens/s 的生产级完全指南（2026）

2026-06-16 07:18:07 +0800 CST

基于Bootstrap构建高效、美观的后台管理系统UI框架模板的技术探索

2024-11-18 20:29:14 +0800 CST

Scrapling 深度实战：当网页抓取学会「反侦察」——从反爬虫战争到 AI Agent 数据采集的完全指南（2026）

2026-06-13 19:21:12 +0800 CST

造轮子才是正道：build-your-own-x 与编程教育的底层逻辑

2026-05-22 14:15:31 +0800 CST

CUA 深度实战：当 AI Agent 真正掌控桌面操作系统——从沙盒隔离到 Computer-Use Agents 的生产级基础设施完全指南（2026）

2026-06-18 23:28:31 +0800 CST

基于Vue.js的拖动功能和画布设置的Web应用

2024-11-19 09:53:07 +0800 CST

Cloudflare Workers 临时部署模式深度实战：一条命令重塑开发者体验，60分钟全栈沙盒背后的技术架构

2026-06-26 10:17:04 +0800 CST

使用 `nohup` 命令的概述及案例

2024-11-18 08:18:36 +0800 CST

merge2excel是一个强大的Python库，能够快速合并多个Excel文件，提升数据处理效率

2024-11-19 02:17:28 +0800 CST

DeerFlow 2.0 深度解析：字节跳动开源的智能体时代操作系统

2026-04-17 05:39:08 +0800 CST

Go语言接口最佳实践：为何应在使用方定义接口

2024-11-19 06:01:51 +0800 CST

Cursor 3 深度解析：当 IDE 从「主角」沦为「备选」——智能体优先编程范式的工程革命

2026-04-14 08:58:13 +0800 CST

Lyt.js 深度解析：零依赖的 Vue 3 兼容框架，35KB 颠覆前端生态格局

2026-04-28 20:56:59 +0800 CST

万字深度解析 Ghostty：当 Zig 遇上 GPU 加速——下一代终端模拟器的架构革命（2026）

2026-07-01 03:13:50 +0800 CST

解决Vue3.0报错error: Unexpected console statement (no-console)

2024-11-18 17:38:39 +0800 CST

Svelte 5 深度解析：编译时框架的革命——细粒度响应、零运行时与Runes系统如何颠覆前端开发

2026-05-11 03:18:04 +0800 CST

告别冗长代码！10个JavaScript简写技巧提升开发效率

2025-09-11 18:27:56 +0800 CST

Obscura 深度实战：从 Rust 无头引擎到 AI Agent 浏览器底座——Headless Chrome 的终结者还是补充者？

2026-05-23 12:15:52 +0800 CST

Agent Skills 深度解析：27K Star 的谷歌开源紧箍咒，让 AI 按生产级标准写代码

2026-05-02 17:01:28 +0800 CST

超越 OpenClaw 的 Agent 新王：Hermes Agent 自进化闭环架构深度解析

2026-04-17 19:45:47 +0800 CST

Chance.js，一款神奇的 JavaScript 开源极简随机数据生成器

2024-11-19 02:30:05 +0800 CST

一个硬核玩法：把AI每次分析股票的回答全部存到GitHub开源仓库

2026-04-28 03:55:29 +0800 CST

【SQL注入】关于GORM的SQL注入问题

2024-11-19 06:54:57 +0800 CST

Mtproto.zig：当 Zig 语言遇上 Telegram 代理——系统编程视角下的 DPI 绕过与异步架构深度解析

2026-04-12 09:56:03 +0800 CST

Windows 平台下解决apache无法启动问题

2024-11-19 05:35:50 +0800 CST

Joblib库在Python中的应用，特别是在机器学习和科学计算中的重要性

2024-11-18 15:45:57 +0800 CST

H5端向App端通信（Uniapp 必会）

2025-02-20 10:32:26 +0800 CST

Go语言中的`bufio`包，它是对`io`包的封装，提供了数据缓冲功能以提高读写效率

2024-11-19 09:44:38 +0800 CST

gin整合vfsgen进行打包静态static目录

2024-11-19 02:17:28 +0800 CST

Valkey 9.1 深度实战：当 Redis 分支进化为开源缓存新霸主——从 BSD 许可证之争到异步 I/O 线程、百万 QPS 与生产级迁移完全指南（2026）

2026-06-18 20:57:03 +0800 CST

EnsembleParticleSwarmOptimization（EPSO）是一个用于粒子群优化的Python库

2024-11-18 15:03:40 +0800 CST

Goja，一个在Golang中嵌入JavaScript的运行时库

2024-11-19 03:33:49 +0800 CST

Go 1.26 深度实战：2026 年 Go 语言工程化能力的全面跃迁

2026-06-04 16:17:01 +0800 CST