百度开源 Unlimited OCR:3B 参数 500M 激活拿下全球第一,疑似 DeepSeek 出走大神之作
标签: 百度 / OCR / 开源 / R-SWA / DeepEncoder / MoE / 长程解析 / SOTA
原文: 微信公众号「新智元」https://mp.weixin.qq.com/s/E2FXmFbPrnasrSoM-oirjw
GitHub: https://github.com/baidu/Unlimited-OCR
HuggingFace: https://huggingface.co/baidu/Unlimited-OCR
一句话定位
百度最新开源的 Unlimited OCR,总参数 3B,实际激活仅 500M,在 OmniDocBench v1.5 上拿下 93.23% 综合分、v1.6 达 93.92%,刷新端到端 SOTA。激活参数不到 Qwen3-VL 的零头,成绩反而更高。还能一口气解析 40+ 页文档不失忆、不降速。核心作者疑似 DeepSeek OCR 出走的核心大神魏浩然。
为什么现有 OCR 都在「逐页失忆」
现在主流 OCR 模型的工作方式:
for page in pages:
清空记忆()
处理当前页
靠外部调度器缝结果
这本质上是工程的权宜之计——不是真正的智能。
根本原因是:随着输出越来越长,标准注意力机制下的 KV 缓存像滚雪球一样疯涨,内存吃不消,速度越来越慢。
人类抄书从来不是这么干的。人类维持的是连续的认知状态——眼睛盯着三个点:原书、刚写下的一小段、即将要写的下一个字,早期内容慢慢淡出。这种能力叫**「软遗忘」(soft forgetting)**。
百度要做的,就是把这种注意力方式搬进模型。
核心技术:R-SWA 参考滑动窗口注意力
R-SWA(Reference Sliding Window Attention)精确对应人抄书时的注意力模式:
| 维度 | 参考侧 | 输出侧 |
|---|---|---|
| 看什么 | 全部参考 token(整张图像视觉 token + 提示词) | 只回看前面 128 个 token |
| 效果 | 始终「看得见」完整原文 | KV 缓存固定大小,像抄书只瞄刚写的几行 |
实现效果:KV 缓存变成固定容量队列,每生成一个新 token,最老的那个就被挤出去。无论输出 1 万还是 10 万 token,内存占用完全一样。
Flash Attention v3 延迟测试证明:DeepSeek OCR 标准 MHA 解码步数增加后每步耗时稳步攀升,Unlimited OCR 的 R-SWA 从头到尾一条平线,纹丝不动。
另一核心:DeepEncoder 极致视觉压缩
DeepEncoder 最初在 DeepSeek OCR 中登场,能把一张 1024×1024 的 PDF 页面压缩到仅 256 个视觉 token,压缩率高达 16 倍。
由于视觉 token 在 R-SWA 下不参与状态转移,无论文档多长,图像信息永远清清楚楚,不会随解码过程逐渐退化。
配合 R-SWA 的恒定缓存:在标准 32K 上下文里,一次前向推理就能转录数十页文档。
Benchmark 成绩
OmniDocBench v1.5 / v1.6
| 模型 | 参数量 | OmniDocBench v1.5 | OmniDocBench v1.6 |
|---|---|---|---|
| Unlimited OCR | 3B(500M 激活) | 93.23% | 93.92% |
| DeepSeek OCR | — | 87.01% | — |
| Qwen3-VL | 235B | 89.15% | — |
| Qwen2.5-VL | 72B | 87.02% | — |
| Gemini-2.5 Pro | — | 88.03% | — |
激活参数不到其他模型零头,成绩反而全超。
长程解析(40+ 页)
- 20 页文档逐字比对编辑距离:0.057
- 40 页以上文档编辑距离:控制在 0.11 以下
- Distinct-35(衡量重复输出):97%
- 几乎无复读,几十页一口气转录
细分能力对比
| 能力 | Unlimited OCR vs DeepSeek OCR |
|---|---|
| 文本识别 | 全面超越 |
| 阅读顺序 | 全面超越 |
| 七大类别领先 | 七个类别中领先 2% 以上 |
效率对比
| 指标 | Unlimited OCR | DeepSeek OCR | 差距 |
|---|---|---|---|
| TPS(6144 tokens 输出) | 7847 | 5822 | +35% |
技术规格
| 项目 | 数据 |
|---|---|
| 总参数 | 3B |
| 激活参数 | 500M(MoE 架构) |
| 上下文窗口 | 32K(计划扩展到 128K) |
| 训练步数 | DeepSeek OCR 基础上继续训练 4000 步 |
| 视觉压缩 | DeepEncoder(1024×1024 → 256 tokens,16×) |
| R-SWA 输出侧窗口 | 128 tokens |
| KV 缓存 | 固定大小,不随输出增长 |
作者之谜:疑似 DeepSeek 出走的魏浩然
报告中作者名单:
- Youyang Yin(真名)
- Huanhuan Liu*(项目 Leader)
- YY†(技术总监)— 神秘缩写
GitHub 致谢栏:Deepseek-OCR 和 Deepseek-OCR-2 排第一、第二位。
对比 DeepSeek OCR 一代到二代,核心作者始终三人:魏浩然、孙耀峰、李宇琨。今年 4 月 DeepSeek V4 发布时,魏浩然名字后多了星号——已离职。
魏浩然的履历:
- 阶跃星辰出身
- 主导开发了端到端 OCR 最早的开源标杆 GOT-OCR2.0
- 到 DeepSeek 后一手搭起整条 OCR 线(DeepEncoder、MoE 解码器,一代到二代)
能力、时间线、署名方式三条都对得上——YY 大概率就是魏浩然。
如果真如此,百度这次拿到的不只是一个 OCR 模型,而是端到端长程解析最前沿的研究品味 + 最成熟的产业底座。
展望:128K 上下文,让 OCR 读懂一整本书
论文展望:
- 上下文窗口训练到 128K
- 构建 prefill pool 让模型学会自动翻页
- R-SWA 是通用解析机制,OCR 只是第一站
如果做到,OCR 不再是识别一页文字,而是理解一整本书。
总结
Unlimited OCR 代表了一种 OCR 新范式:不是更大更强的单体模型,而是解决注意力机制根本问题的架构创新。
- 🏆 SOTA 成绩:93.92% OmniDocBench v1.6,端到端全球第一
- 💡 R-SWA:固定 KV 缓存,内存不随输出增长
- 🗜️ DeepEncoder:16 倍视觉压缩,256 tokens 表征整页 PDF
- 📖 长程解析:40+ 页不失忆,一次推理读完一本书
- ⚡ 效率:TPS 比 DeepSeek OCR 高 35%
- 🧠 作者:疑似 DeepSeek OCR 出走的魏浩然
相关链接
- GitHub: https://github.com/baidu/Unlimited-OCR
- HuggingFace: https://huggingface.co/baidu/Unlimited-OCR
- 原文: https://mp.weixin.qq.com/s/E2FXmFbPrnasrSoM-oirjw
Keywords: 百度, Unlimited OCR, R-SWA, DeepEncoder, OCR, 开源, SOTA, MoE, 长程解析, 16倍视觉压缩, DeepSeek, 魏浩然, OmniDocBench, KV缓存, 软遗忘