编程 caveman 深度解析：当 Claude Code 用「穴居人语言」砍掉 75% Token 消耗，AI 编程正式进入「极简主义」时代

2026-04-10 00:14:55 +0800 CST views 5

caveman 深度解析：当 Claude Code 用「穴居人语言」砍掉 75% Token 消耗，AI 编程正式进入「极简主义」时代

引言：LLM 最大的谎言——「多说多有理」

每一个用 Claude Code、GitHub Copilot、Cursor 的程序员都听过这样一句话：「详细描述你的需求，AI 才能给出正确答案。」这句话在 2023 年是金科玉律，在 2026 年——它正在被一个叫 caveman 的开源项目彻底推翻。

2026 年 4 月，一个名为 JuliusBrussee 的独立开发者将一个简单的观察变成了一个现象级的开源项目：如果你让大语言模型「像穴居人一样说话」——去掉所有废话、所有铺垫、所有「当然，我很乐意帮助你」——它不仅不会变笨，反而会变得更准确、更快速、更便宜。平均 Token 节省 65%，技术准确度 100% 保留。

这个项目在 GitHub 上线仅 5 天，狂揽 8365 颗星，被翻译成 5 种语言，支持 40+ 种 AI Agent 工具，覆盖 Claude Code、GitHub Copilot、Cursor、Windsurf、Cline 等主流平台。

这不是噱头。背后有 2026 年 3 月的顶会论文支撑，有严格的对比评测数据（不是 self-reported，而是三个 arm 的自动化对比实验），有可复现的开源评测代码。

本文将深入剖析 caveman 的技术原理、架构设计、性能数据，以及它揭示的一个正在重塑 AI 编程未来的深层趋势：极简 Token 策略。

一、现象级项目：从「网络梗」到「工程实践」的跨越

1.1 起源：一个偶然的病毒式发现

caveman 的诞生故事本身就很有意思。开发者 JuliusBrussee 在使用 Claude Code 时，偶然发现如果把 Prompt 故意改成「穴居人风格」——砍掉所有形容词、所有客套话、所有填充词——Claude 给出的代码答案不仅没有变差，反而因为「废话少」而变得更聚焦、更直接、更容易读懂。

这个发现迅速在社交媒体上传播，Reddit、Hacker News、Twitter/X 上的开发者社区掀起了对「LLM Token 效率」的大讨论。大量开发者开始自发测试，结果惊人一致：压缩后的大模型，不仅「能说」，而且「说得更对」。

3 月底，一篇名为 "Brevity Constraints Reverse Performance Hierarchies in Language Models" 的论文（arXiv:2604.00025）在学术界正式确认了这一现象：约束大模型的响应长度，在某些基准测试上反而提升了 26 个百分点的准确率，并完全逆转了性能层级。

论文的核心发现奠定了 caveman 的科学基础：verbose（冗长）不等于 accurate（准确）。当模型被迫精简措辞时，它会去除的是「猜测性解释」和「防御性措辞」，留下的是更确定的、更结构化的核心信息。

1.2 项目现状：从 0 到 8365 星的野蛮生长

截至 2026 年 4 月 9 日，caveman 的核心数据：

GitHub Stars：8365（5 天内达成）
编程语言：Python（主 skill 逻辑）+ 多平台插件
支持 Agent：Claude Code、Codex、Cursor、GitHub Copilot、Windsurf、Cline 等 40+
多语言：英语、西班牙语、中文（文言文模式）、德语、法语、葡萄牙语
许可：MIT
最新功能：caveman-compress（文件压缩）、caveman-commit（精简提交信息）、caveman-review（单行代码审查）

项目还由同一作者关联了两个高星项目：

Blueprint（specification-driven development for Claude Code，自然语言→规格说明→并行构建→可用软件）
Revu（本地优先 macOS 学习应用，支持 FSRS 间隔重复）

这种「开发者工具链」的打法——一个极简核心技能撬动整个开发生态——让 caveman 迅速成为 2026 年 4 月最值得关注的 AI 编程开源项目之一。

二、核心技术解析：caveman 的三层压缩架构

2.1 第一层：Caveman 输出压缩（caveman skill）

这是 caveman 的核心功能。当用户触发 /caveman（或其他触发词）时，Claude Code 的系统提示词会被动态修改，引导模型以「极简穴居人语言」回应。

触发机制

触发方式：
- /caveman          — 默认（全量穴居人模式）
- /caveman lite     — 轻度精简（去填充词，保留语法）
- /caveman full     — 完全穴居人模式（默认）
- /caveman ultra    — 极限压缩（电报风格，极度缩写）
- /caveman wenyan   — 文言文模式（中文极简）
- /caveman wenyan-ultra — 古文极限压缩

技术原理

caveman skill 本质上是一个 prompt engineering 系统，通过修改 Agent 的 system prompt 来改变输出风格。它不是训练了一个新模型，而是利用了现有大模型的内在能力：当指令明确要求「极简」时，模型会将「字数最少」作为优化目标，从而主动过滤掉非必要信息。

关键是，caveman skill 指令是精确设计的，不是简单的「少说话」：

原始指令（伪代码）：
"Provide a comprehensive explanation of X, including background,
 context, multiple approaches, trade-offs, code examples,
 and best practices. Be thorough and detailed."

caveman 指令：
"Answer with minimum tokens. No filler. No intro. No summary.
 No 'Sure!'. No 'Of course!'. State the fix.
 Include only technically necessary context."

对比实测

场景	Normal Claude	Caveman	节省
解释 React re-render bug	1180 tokens	159 tokens	87%
修复 auth middleware token 过期	704 tokens	121 tokens	83%
设置 PostgreSQL 连接池	2347 tokens	380 tokens	84%
解释 git rebase vs merge	702 tokens	292 tokens	58%
Docker 多阶段构建	1042 tokens	290 tokens	72%
调试 PostgreSQL 竞态条件	1200 tokens	232 tokens	81%
实现 React Error Boundary	3454 tokens	456 tokens	87%
平均	1214 tokens	294 tokens	65%

范围：22%–87%。注意：caveman 只压缩输出 token，思考/reasoning token 不受影响。这是关键——模型思考过程不变，只是「嘴巴变小了」。

2.2 第二层：Caveman-Compress 文件压缩（session-level 优化）

输出压缩解决的是「AI 说了多少」的问题，但还有一个更隐蔽的问题：AI 每一次启动 session 都要读一堆记忆文件，这些 token 怎么省？

这就是 caveman-compress 的用武之地。

问题背景

Claude Code 每次启动 session，都会读取项目根目录下的 CLAUDE.md、CLAUDE.original.md、todo 列表等记忆文件。这些文件加起来可能达到 500-2000 tokens，但它们是每次 session 都读的——一个 1000 token 的记忆文件，跑 100 个 session 就是 10 万 token 的累积开销。

解决方案

caveman-compress 的设计哲学非常优雅：

用户编辑/阅读 ←→ CLAUDE.original.md  (人类可读)
Claude 读取  ←→ CLAUDE.md             (caveman 压缩版)

用户始终编辑 .original.md，Claude 每次 session 读取的是压缩后的 .md。

压缩原理

caveman-compress 不是一个机械的正则替换工具——它调用 AI 来压缩 AI 的记忆文件：

caveman:compress CLAUDE.md
        ↓
检测文件类型        (无 token 消耗)
        ↓
调用 Claude 压缩    (1 次 token 消耗)
        ↓
验证输出            (无 token 消耗)
  检查：标题、代码块、URL、文件路径、列表结构
        ↓
如果验证失败：只修复问题部分（不重新压缩）
  (定向修复，token 消耗极小)
        ↓
最多重试 2 次
        ↓
写入压缩版 → CLAUDE.md
写入原始版 → CLAUDE.original.md

保留什么，压缩什么

caveman-compress 只压缩自然语言 prose，以下内容原样保留：

代码块（ fenced 或 indented）
行内代码（ backtick content ）
URL 和链接
文件路径（/src/components/...）
命令（npm install、git commit）
技术术语、库名、API 名
标题（文字内容保留）
表格（结构保留，单元格文字压缩）
日期、版本号、数值

实测数据

文件	原始 tokens	压缩后	节省
`claude-md-preferences.md`	706	285	59.6%
`project-notes.md`	1145	535	53.3%
`claude-md-project.md`	1122	687	38.8%
`todo-list.md`	627	388	38.1%
`mixed-with-code.md`	888	574	35.4%
平均	898	494	45%

所有验证通过 ✅——标题、代码块、URL、文件路径均精确保留。

2.3 第三层：Caveman Commit & Review（工具化封装）

caveman 不仅改变了 AI 的说话方式，还提供了两个开箱即用的子技能：

caveman-commit

规范化 Git 提交信息，格式为 Conventional Commits，要求 ≤50 字符的主题行，遵循「为什么做」而非「做了什么」的原则。

# 示例
Normal: "Added user authentication feature with JWT tokens and
         password hashing using bcrypt for security"

Caveman: "feat(auth): JWT + bcrypt for user authentication"

caveman-review

单行 PR 审查意见，格式为 L{行号}: 🔴 bug: {问题} {建议}，没有铺垫，直接指出问题：

Normal:
"I noticed that there might be a potential issue on line 42 where
 the user variable could potentially be null if the database query
 fails. It would be a good idea to add a null check here to prevent
 any potential null pointer exceptions that could crash the application."

Caveman:
"L42: 🔴 bug: user null. Add guard."

三、科学依据：Brevity Constraints 为什么让 LLM 变得更强

3.1 论文核心发现

caveman 的方法论不是空中楼阁。2026 年 3 月的论文 "Brevity Constraints Reverse Performance Hierarchies in Language Models" (arXiv:2604.00025) 提供了系统的科学支撑。

核心发现：

准确率提升：在某些基准测试中，约束响应长度使准确率提升了 26 个百分点
层级逆转：原本「较弱」的模型在 brevity 约束下表现可以超越「更强」的模型——因为强模型有更多冗余空间来「发挥」，反而容易跑偏
Token 效率与质量的非单调关系：在超过某个临界点后，额外 token 的边际收益急剧下降，甚至为负（废话越多，正确答案被稀释的概率越高）

3.2 为什么「少说话」反而「说更对」？

从信息论角度，大模型的输出可以被建模为：

信息密度 = 有效信息 / 总 Token 数

当模型被强制精简时，它面临一个隐式优化目标：最大化信息密度。这导致：

去除防御性措辞：「可能」「也许」「我认为」等概率性表达被压缩，只保留确定性陈述
去除示例性废话：「例如」「比如说」「比如」等填充词消失
去除自引用：「我来帮你」「让我看看」「这是一个好问题」全部砍掉
结构化压缩：长解释被提炼成关键术语和逻辑链

最终输出：技术信息密度急剧上升，而「噪音」——那些不影响技术正确性但占用大量 token 的文字——被彻底剔除。

3.3 开发者视角的启示

对于日常使用 Claude Code 等 AI 编程工具的程序员来说，这意味着：

Prompt 工程的新范式不是「多说多好吗」，而是「说少说准」。

传统的 prompt 优化思路是「加更多上下文、加更多限定词、加更多例子」。caveman 的成功告诉我们，有时候去掉限制反而更好——给模型足够的空间去「精简」而不是「展开」。

四、性能实测：全维度深度测试

4.1 评测方法论

caveman 的评测最有价值的地方在于它的严谨性。作者没有简单地「声称」节省了多少 token，而是实现了一个三臂评测框架（three-arm eval harness）：

Arm 1: Normal prompt → Normal response
Arm 2: Normal prompt → Caveman-speak response
Arm 3: Terse prompt → Caveman-speak response

为什么需要 Arm 3？因为如果直接对比「正常回答 vs caveman 回答」，那么节省的 token 可能来自两个因素：(1) caveman skill 的效果，(2) 简洁回答本身就更短。这个三臂设计可以解耦「技能效果」和「通用精简」，确保 caveman 的 token 节省是技能本身带来的，而非简单的「回答短」。

所有 benchmark 数据都通过自动化脚本生成，commit 到 git 仓库，每次代码变更的 benchmark 变化都可通过 diff 审查。

4.2 分场景性能数据

从 benchmark 数据来看，不同场景的 token 节省差异巨大（22%–87%），这与任务类型密切相关：

高节省场景（>70%）：

需要大量解释的技术概念（React re-render 机制、PostgreSQL 连接池）
AI 倾向于「教学式」展开的领域
防御性措辞多的技术领域（安全、并发）

中节省场景（40%–70%）：

Docker 部署配置、Git 操作说明
架构决策讨论
PR 安全审查

低节省场景（<40%）：

已经是结构化代码的简单解释
本身就精炼的技术讨论
缩写场景（如回调函数改写 async/await）

这提示我们：caveman 对「解释型」任务效果最好，对「操作型」任务效果适中。

4.3 准确率保留验证

caveman 项目包含专门的 evals/ 目录，提供了完整的评测代码。任何人都可以复现 benchmark 结果。评测不仅测量 token 节省，还验证输出技术正确性没有下降。

关键验证方法：

对比压缩前后代码的技术逻辑是否等价
检查是否遗漏了关键的 edge case 处理
验证建议的安全性和最佳实践是否完整保留

结果显示：在所有测试任务中，caveman 模式的技术准确率保持在 100%，没有因为压缩而出现 bug fix 不完整、安全建议缺失或最佳实践遗漏的情况。

五、架构哲学：极简主义的工程实践

5.1 为什么极简主义在 LLM 时代突然有效？

过去十年，软件工程的主流趋势是「多就是好」：更多的注释、更多的文档、更多的元数据、更多的框架层。但 LLM 的出现颠覆了这个逻辑：

Token 是有成本的——不仅是金钱成本，还有：

延迟成本：生成更多 token 需要更长时间
上下文窗口成本：上下文越长，推理消耗越大
可读性成本：一个 2000 token 的代码审查意见，有多少人真的会读完？
精确度成本：说得多，错的概率也更高

caveman 的成功揭示了一个被长期忽视的真相：人类大脑的信息处理带宽是有限的。一份 2000 字的 AI 回应，读者真正吸收的可能只有 200 字的核心信息，其余的都是「填充」。

5.2 与其他 Token 优化方案的对比

方案	原理	优势	劣势
caveman	Prompt 改写，保持 100% 能力	无需微调，零成本，实时切换	需要主动触发
模型量化	降低参数精度	推理更快更便宜	需要重新部署，能力可能下降
Prompt 压缩	外部工具压缩 prompt	减少输入 token	不影响输出长度
输出截断	简单截断	零成本	很可能截断关键信息
RAG 检索增强	只检索相关上下文	提高准确性	引入额外延迟和复杂度

caveman 的独特价值在于：它在不损失任何能力的前提下，直接改变了模型「决策」的内容——不是减少「能说的」，而是减少了「不该说的」。

5.3 多 Agent 生态的适配策略

caveman 支持 40+ 种 Agent，这是一个被低估的战略决策。不同 Agent 的 skill 系统架构不同：

Claude Code：使用 npx skills add 或 .claude-plugin 插件系统
Codex：使用 /plugins 命令安装本地插件
Cursor：使用 .cursor 目录的 skill 文件
GitHub Copilot：使用 .github/copilot-instructions 或扩展点
Windsurf / Cline：各有不同的 skill 加载机制

caveman 通过 agents/ 目录下的多个配置文件，一次安装，覆盖所有主流 Agent。这种「一次编写，处处运行」的设计哲学，极大地降低了用户的采纳门槛。

六、文言文模式：中文开发者的极客浪漫

6.1 为什么是文言文？

caveman 最令人拍案叫绝的设计之一是文言文（Wenyan）模式。当你运行 /caveman wenyan 时，Claude 的输出会变成古文风格：

Normal: "The database connection pool has been exhausted.
 Please increase the pool size in the configuration."

Caveman (文言文): "池竭矣，增池於配置。"

从 token 效率角度，文言文是人类历史上信息密度最高的书写语言之一——同样的意思，所需字符数远低于白话文。而从文化角度，这让技术交流有了一层独特的「极客浪漫」。

6.2 三个档次的文言文

档位	触发	示例	Token 节省
Wenyan-Lite	`/caveman wenyan-lite`	半文半白，文法完整，填充词去除	~50%
Wenyan-Full	`/caveman wenyan`	全文言文，古典精简风格	~65%
Wenyan-Ultra	`/caveman wenyan-ultra`	极度精简，古文学者风格	~75%+

6.3 代码示例的「翻译」

文言文模式并非只对 prose 生效，对于代码相关的解释同样适用：

# Normal 解释
"This function uses a context manager to ensure that the file
 handle is properly closed after we're done reading from it.
 The 'with' statement handles the cleanup automatically, so
 we don't need to explicitly call file.close()."

# Wenyan-Full 解释
"函数用 with 句以保文件句柄之关闭，'with' 自动处理清理，勿须显调 file.close()。"

# Wenyan-Ultra 解释
"with 句管文件，勿显 close()。"

技术含义完全一致，但 token 消耗从约 120 降到了约 20。

七、实战指南：从安装到深度使用

7.1 快速安装（3 种方式）

方式一：npx skills（推荐，跨 Agent）

npx skills add JuliusBrussee/caveman

方式二：Claude Code 插件系统

claude plugin marketplace add JuliusBrussee/caveman
claude plugin install caveman@caveman

方式三：Codex（VS Code + Codex）

克隆仓库：git clone https://github.com/JuliusBrussee/caveman.git
在仓库目录打开 VS Code
运行 /plugins
搜索 Caveman
安装插件

Windows Codex 用户注意：需要先运行 git config core.symlinks true（需要开发者模式或管理员权限）。

7.2 典型工作流集成

场景一：日常代码审查

# 触发 caveman
/caveman

# 提出审查需求
Review this PR for security issues, performance problems,
and best practice violations. Be thorough.

# 获得输出
L42: 🔴 crit: SQL injection. Use parameterized query.
L67: 🔴 crit: hardcoded credentials. Env var.
L89: 🟡 perf: N+1 query. Eager load relations.
L112: 🟡 perf: Missing index on user_id. Add migration.

场景二：Bug 修复

# 触发 ultra 模式
/caveman ultra

# 提出问题
Auth is failing intermittently in production.
Token expiry seems wrong. Please debug and fix.

# 获得输出
L38: token exp use < not <=. Should be:
  exp < now   // token expired when exp < now
  not:
  exp <= now  // allows one extra second window — race condition

场景三：文件压缩（CI/CD 集成）

# 安装后，在 CLAUDE.md 所在目录运行
npx skills run JuliusBrussee/caveman compress CLAUDE.md

# 等价于
/caveman:compress CLAUDE.md

7.3 与现有工作流的融合策略

caveman 不是一个「替代」工具，而是一个「增强」工具。建议的使用策略：

按需切换，而不是全程开启：

日常对话、探索性调试 → Normal 模式（正常沟通）
需要精确代码审查 → Caveman 模式（极简聚焦）
写提交信息、代码注释 → Caveman 模式（精炼表达）
架构讨论、设计评审 → Wenyan 模式（高效沟通）

团队推广建议：

先在个人项目中试用 1 周，感受 token 节省
对比 benchmark 数据（在实际工作场景中记录）
在团队 code review 场景推广（PR 评论的 token 节省最明显）
考虑将 /caveman:compress 集成到 CI pipeline

八、生态定位：caveman 在 AI 编程工具链中的位置

8.1 与 Claude Code 的关系

caveman 是 Claude Code 的 skill 插件，不是 Claude Code 的竞品。它增强的是 Claude Code 的输出效率，而非替代其核心能力。

从 Agent 架构角度，Claude Code 的 prompt system 可以分解为：

System Prompt（角色/行为定义）
+ User Prompt（具体任务）
+ Memory Files（项目上下文）
= Model Output

caveman 主要作用于 Model Output 层（通过修改 System Prompt），同时通过 caveman-compress 间接优化 Memory Files 层的效率。

8.2 与 Superpowers 等 Agent 框架的对比

之前的文章中我们深度分析了 Superpowers（AI 编程 Agent 技能框架，12.2 万星），它解决的是「AI Agent 如何按规范执行复杂任务」的问题——关注的是能力边界和执行正确性。

caveman 解决的是另一个维度的问题：AI 输出的效率——即使能力边界完美，如果 AI 的输出充满了废话，开发体验依然糟糕。

两者是互补的：

Superpowers = 让 AI「做对」
caveman = 让 AI「说准」

8.3 与 MemPalace、GitNexus 的互补性

MemPalace（AI 记忆系统，3.3 万星）解决的是「Agent 如何跨 session 保持记忆」的问题，caveman 通过 caveman-compress 让记忆文件的读取效率更高。

GitNexus（AI 代码神经系统）解决的是「Agent 如何理解代码结构」的问题，caveman 则让 Agent 的输出更精炼。

这些项目共同构成了一个更高效 AI 编程生态系统的不同切面：记忆 → 理解 → 执行 → 沟通。

九、安全分析与误报

9.1 Snyk 误报

caveman-compress 被 Snyk 标记为「High Risk」，原因是静态分析检测到了subprocess 调用和文件 I/O 模式。这让很多安全扫描工具直接报警。

但这是一个典型的误报（False Positive）：

caveman-compress 的 subprocess 调用仅用于：

调用 Claude API 进行压缩（urllib.request）
运行 Python 脚本进行验证

没有任何网络写入操作，没有任何恶意代码注入风险。文件操作仅限于读取、验证和写入用户指定的记忆文件，且不会覆盖或删除原始文件（原始文件始终保存为 .original.md）。

项目作者已在 SECURITY.md 中提供了完整的解释和安全审计报告。

9.2 实用安全建议

对于企业用户：

在 CI 中将 .caveman/ 和 caveman-compress/ 目录加入 Snyk 扫描白名单
定期 review 压缩后的 CLAUDE.md 内容（虽然有 .original.md 作为备份，但保持可读性仍是最佳实践）
建议在沙盒环境中首次试用

十、未来展望：Token 效率革命的开始

10.1 从 caveman 看 AI 编程的趋势

caveman 的成功揭示了 2026 年 AI 编程领域的一个深刻趋势：第一阶段「让 AI 能做」已经基本解决，现在进入第二阶段「让 AI 做得好」。

「能做」阶段（2022-2025）的关键词是：多模态、长上下文窗口、工具调用、Agent 架构。
「做得好」阶段（2026+）的关键词是：Token 效率、输出质量、可读性、极简主义。

LLM 的能力越来越强，但人类处理信息的带宽是固定的。下一个竞争维度不再是「谁能让模型说更多」，而是「谁能让模型说更少、更准」。

10.2 可能的发展方向

基于 caveman 的架构理念，以下几个方向值得关注：

1. 自适应 Token 预算分配
根据任务复杂度动态调整输出长度——简单任务用 ultra 模式，复杂架构讨论用 lite 模式。

2. 结构化压缩语言（Structured Compression DSL）
不只是简单的「砍字数」，而是根据语义关系建立「信息压缩映射」——例如，将一段「解释为什么 X 是更好的选择」的 prose，压缩为包含 decision:X reasoning:{3个关键词} 的结构化输出。

3. 多语言极简模式
文言文模式证明了「语言形式本身可以是一种 Token 压缩手段」。其他高信息密度语言（德语复合词、日语汉字词）可能也值得探索。

4. 与缓存系统的结合
将 caveman 风格的输出缓存起来，避免重复生成相同的「精简解释」，进一步降低 token 消耗。

10.3 对开发者的建议

立即可做：

安装 caveman，开始感受 token 节省的实际效果
将 /caveman:compress 集成到项目初始化脚本
在 code review 场景中尝试 caveman-review

值得关注：

2026 年会出现更多「Token 效率优化」类工具（不只是 caveman 风格）
各大 Agent 平台可能会将极简输出作为内置选项
「Token 账单」将成为开发者评估 AI 工具的新维度

结语：穴居人的智慧

caveman 最深刻的讽刺在于：当我们拥有地球上最强大的语言模型时，让它「像穴居人一样说话」反而让它变得更好。

这让我想起一个古老的编程哲学：The Best Code is No Code。代码越少，bug 越少，维护成本越低。

caveman 将这个哲学延伸到了 AI 输出：The Best Words are No Words——当大模型被强制去掉废话时，留下的是纯粹的技术智慧。

「why use many token when few token do trick」——这句话不仅是 caveman 的 slogan，它可能是 AI 编程进入成熟期后最重要的工程哲学。

穴居人不懂 Transformer，不懂 RLHF，不懂 attention mechanism。但他们懂得一个今天的大模型花了两年才重新发现的道理：

少说多做。废话少说，直击要害。

Tags: Claude Code, Token优化, AI编程, Prompt Engineering, LLM效率, 开源工具, 程序员工具, 代码审查