百度开源 Unlimited OCR：3B 参数 500M 激活拿下全球第一，疑似 DeepSeek 出走大神之作

标签: 百度 / OCR / 开源 / R-SWA / DeepEncoder / MoE / 长程解析 / SOTA
原文: 微信公众号「新智元」https://mp.weixin.qq.com/s/E2FXmFbPrnasrSoM-oirjw
GitHub: https://github.com/baidu/Unlimited-OCR
HuggingFace: https://huggingface.co/baidu/Unlimited-OCR

一句话定位

百度最新开源的 Unlimited OCR，总参数 3B，实际激活仅 500M，在 OmniDocBench v1.5 上拿下 93.23% 综合分、v1.6 达 93.92%，刷新端到端 SOTA。激活参数不到 Qwen3-VL 的零头，成绩反而更高。还能一口气解析 40+ 页文档不失忆、不降速。核心作者疑似 DeepSeek OCR 出走的核心大神魏浩然。

为什么现有 OCR 都在「逐页失忆」

现在主流 OCR 模型的工作方式：

for page in pages:
    清空记忆()
    处理当前页
    靠外部调度器缝结果

这本质上是工程的权宜之计——不是真正的智能。

根本原因是：随着输出越来越长，标准注意力机制下的 KV 缓存像滚雪球一样疯涨，内存吃不消，速度越来越慢。

人类抄书从来不是这么干的。人类维持的是连续的认知状态——眼睛盯着三个点：原书、刚写下的一小段、即将要写的下一个字，早期内容慢慢淡出。这种能力叫**「软遗忘」（soft forgetting）**。

百度要做的，就是把这种注意力方式搬进模型。

核心技术：R-SWA 参考滑动窗口注意力

R-SWA（Reference Sliding Window Attention）精确对应人抄书时的注意力模式：

维度	参考侧	输出侧
看什么	全部参考 token（整张图像视觉 token + 提示词）	只回看前面 128 个 token
效果	始终「看得见」完整原文	KV 缓存固定大小，像抄书只瞄刚写的几行

实现效果：KV 缓存变成固定容量队列，每生成一个新 token，最老的那个就被挤出去。无论输出 1 万还是 10 万 token，内存占用完全一样。

Flash Attention v3 延迟测试证明：DeepSeek OCR 标准 MHA 解码步数增加后每步耗时稳步攀升，Unlimited OCR 的 R-SWA 从头到尾一条平线，纹丝不动。

另一核心：DeepEncoder 极致视觉压缩

DeepEncoder 最初在 DeepSeek OCR 中登场，能把一张 1024×1024 的 PDF 页面压缩到仅 256 个视觉 token，压缩率高达 16 倍。

由于视觉 token 在 R-SWA 下不参与状态转移，无论文档多长，图像信息永远清清楚楚，不会随解码过程逐渐退化。

配合 R-SWA 的恒定缓存：在标准 32K 上下文里，一次前向推理就能转录数十页文档。

Benchmark 成绩

OmniDocBench v1.5 / v1.6

模型	参数量	OmniDocBench v1.5	OmniDocBench v1.6
Unlimited OCR	3B（500M 激活）	93.23%	93.92%
DeepSeek OCR	—	87.01%	—
Qwen3-VL	235B	89.15%	—
Qwen2.5-VL	72B	87.02%	—
Gemini-2.5 Pro	—	88.03%	—

激活参数不到其他模型零头，成绩反而全超。

长程解析（40+ 页）

20 页文档逐字比对编辑距离：0.057
40 页以上文档编辑距离：控制在 0.11 以下
Distinct-35（衡量重复输出）：97%
几乎无复读，几十页一口气转录

细分能力对比

能力	Unlimited OCR vs DeepSeek OCR
文本识别	全面超越
阅读顺序	全面超越
七大类别领先	七个类别中领先 2% 以上

效率对比

指标	Unlimited OCR	DeepSeek OCR	差距
TPS（6144 tokens 输出）	7847	5822	+35%

技术规格

项目	数据
总参数	3B
激活参数	500M（MoE 架构）
上下文窗口	32K（计划扩展到 128K）
训练步数	DeepSeek OCR 基础上继续训练 4000 步
视觉压缩	DeepEncoder（1024×1024 → 256 tokens，16×）
R-SWA 输出侧窗口	128 tokens
KV 缓存	固定大小，不随输出增长