编程 百度开源Unlimited OCR:3B参数500M激活拿下全球第一,疑似DeepSeek出走大神之作

2026-06-22 20:57:32 +0800 CST views 12

百度开源 Unlimited OCR:3B 参数 500M 激活拿下全球第一,疑似 DeepSeek 出走大神之作

标签: 百度 / OCR / 开源 / R-SWA / DeepEncoder / MoE / 长程解析 / SOTA
原文: 微信公众号「新智元」https://mp.weixin.qq.com/s/E2FXmFbPrnasrSoM-oirjw
GitHub: https://github.com/baidu/Unlimited-OCR
HuggingFace: https://huggingface.co/baidu/Unlimited-OCR


一句话定位

百度最新开源的 Unlimited OCR,总参数 3B,实际激活仅 500M,在 OmniDocBench v1.5 上拿下 93.23% 综合分、v1.6 达 93.92%,刷新端到端 SOTA。激活参数不到 Qwen3-VL 的零头,成绩反而更高。还能一口气解析 40+ 页文档不失忆、不降速。核心作者疑似 DeepSeek OCR 出走的核心大神魏浩然。


为什么现有 OCR 都在「逐页失忆」

现在主流 OCR 模型的工作方式:

for page in pages:
    清空记忆()
    处理当前页
    靠外部调度器缝结果

这本质上是工程的权宜之计——不是真正的智能。

根本原因是:随着输出越来越长,标准注意力机制下的 KV 缓存像滚雪球一样疯涨,内存吃不消,速度越来越慢。

人类抄书从来不是这么干的。人类维持的是连续的认知状态——眼睛盯着三个点:原书、刚写下的一小段、即将要写的下一个字,早期内容慢慢淡出。这种能力叫**「软遗忘」(soft forgetting)**。

百度要做的,就是把这种注意力方式搬进模型。


核心技术:R-SWA 参考滑动窗口注意力

R-SWA(Reference Sliding Window Attention)精确对应人抄书时的注意力模式:

维度参考侧输出侧
看什么全部参考 token(整张图像视觉 token + 提示词)只回看前面 128 个 token
效果始终「看得见」完整原文KV 缓存固定大小,像抄书只瞄刚写的几行

实现效果:KV 缓存变成固定容量队列,每生成一个新 token,最老的那个就被挤出去。无论输出 1 万还是 10 万 token,内存占用完全一样。

Flash Attention v3 延迟测试证明:DeepSeek OCR 标准 MHA 解码步数增加后每步耗时稳步攀升,Unlimited OCR 的 R-SWA 从头到尾一条平线,纹丝不动。


另一核心:DeepEncoder 极致视觉压缩

DeepEncoder 最初在 DeepSeek OCR 中登场,能把一张 1024×1024 的 PDF 页面压缩到仅 256 个视觉 token,压缩率高达 16 倍

由于视觉 token 在 R-SWA 下不参与状态转移,无论文档多长,图像信息永远清清楚楚,不会随解码过程逐渐退化。

配合 R-SWA 的恒定缓存:在标准 32K 上下文里,一次前向推理就能转录数十页文档。


Benchmark 成绩

OmniDocBench v1.5 / v1.6

模型参数量OmniDocBench v1.5OmniDocBench v1.6
Unlimited OCR3B(500M 激活)93.23%93.92%
DeepSeek OCR87.01%
Qwen3-VL235B89.15%
Qwen2.5-VL72B87.02%
Gemini-2.5 Pro88.03%

激活参数不到其他模型零头,成绩反而全超。

长程解析(40+ 页)

  • 20 页文档逐字比对编辑距离:0.057
  • 40 页以上文档编辑距离:控制在 0.11 以下
  • Distinct-35(衡量重复输出):97%
  • 几乎无复读,几十页一口气转录

细分能力对比

能力Unlimited OCR vs DeepSeek OCR
文本识别全面超越
阅读顺序全面超越
七大类别领先七个类别中领先 2% 以上

效率对比

指标Unlimited OCRDeepSeek OCR差距
TPS(6144 tokens 输出)78475822+35%

技术规格

项目数据
总参数3B
激活参数500M(MoE 架构)
上下文窗口32K(计划扩展到 128K)
训练步数DeepSeek OCR 基础上继续训练 4000 步
视觉压缩DeepEncoder(1024×1024 → 256 tokens,16×)
R-SWA 输出侧窗口128 tokens
KV 缓存固定大小,不随输出增长

作者之谜:疑似 DeepSeek 出走的魏浩然

报告中作者名单:

  • Youyang Yin(真名)
  • Huanhuan Liu*(项目 Leader)
  • YY†(技术总监)— 神秘缩写

GitHub 致谢栏:Deepseek-OCR 和 Deepseek-OCR-2 排第一、第二位。

对比 DeepSeek OCR 一代到二代,核心作者始终三人:魏浩然、孙耀峰、李宇琨。今年 4 月 DeepSeek V4 发布时,魏浩然名字后多了星号——已离职

魏浩然的履历

  • 阶跃星辰出身
  • 主导开发了端到端 OCR 最早的开源标杆 GOT-OCR2.0
  • 到 DeepSeek 后一手搭起整条 OCR 线(DeepEncoder、MoE 解码器,一代到二代)

能力、时间线、署名方式三条都对得上——YY 大概率就是魏浩然

如果真如此,百度这次拿到的不只是一个 OCR 模型,而是端到端长程解析最前沿的研究品味 + 最成熟的产业底座


展望:128K 上下文,让 OCR 读懂一整本书

论文展望:

  • 上下文窗口训练到 128K
  • 构建 prefill pool 让模型学会自动翻页
  • R-SWA 是通用解析机制,OCR 只是第一站

如果做到,OCR 不再是识别一页文字,而是理解一整本书


总结

Unlimited OCR 代表了一种 OCR 新范式:不是更大更强的单体模型,而是解决注意力机制根本问题的架构创新

  • 🏆 SOTA 成绩:93.92% OmniDocBench v1.6,端到端全球第一
  • 💡 R-SWA:固定 KV 缓存,内存不随输出增长
  • 🗜️ DeepEncoder:16 倍视觉压缩,256 tokens 表征整页 PDF
  • 📖 长程解析:40+ 页不失忆,一次推理读完一本书
  • 效率:TPS 比 DeepSeek OCR 高 35%
  • 🧠 作者:疑似 DeepSeek OCR 出走的魏浩然

相关链接


Keywords: 百度, Unlimited OCR, R-SWA, DeepEncoder, OCR, 开源, SOTA, MoE, 长程解析, 16倍视觉压缩, DeepSeek, 魏浩然, OmniDocBench, KV缓存, 软遗忘

复制全文 生成海报 百度 OCR 开源 R-SWA DeepEncoder MoE 长程解析 SOTA

推荐文章

mysql时间对比
2024-11-18 14:35:19 +0800 CST
支付轮询打赏系统介绍
2024-11-18 16:40:31 +0800 CST
Nginx 反向代理 Redis 服务
2024-11-19 09:41:21 +0800 CST
为什么大厂也无法避免写出Bug?
2024-11-19 10:03:23 +0800 CST
vue打包后如何进行调试错误
2024-11-17 18:20:37 +0800 CST
初学者的 Rust Web 开发指南
2024-11-18 10:51:35 +0800 CST
程序员茄子在线接单