编程 RAGFlow:81.1k Star开源RAG引擎,AI时代最强外脑

2026-05-26 13:35:41 +0800 CST views 19

RAGFlow:81.1k Star 开源 RAG 引擎,AI 时代的"最强外脑"

标签: RAG / 开源 / LLM / 文档解析 / AI应用 / RAGFlow
原文: 微信公众号「开源那些事儿」https://mp.weixin.qq.com/s/-5KN_KUo4G9TZVPts6GzMQ
GitHub: https://github.com/infiniflow/ragflow


核心亮点

RAGFlow —— 来自 InfiniFlow 团队(Milvus 向量数据库原班人马)的开源 RAG 引擎,81.1k Star,专注解决 RAG 最底层的问题:文档解析

口号:Quality in, quality out(高质量输入,高质量输出)。


它解决了什么问题?

市面上 RAG 工具的痛点

大多数 RAG 工具的通病:重编排,轻效果

大家都在拼工作流画布好不好看,却没人解决最底层的问题——文档解析

如果连 PDF 里的表格都识别不准,后续的大模型再强也是白搭。
这就是典型的 Garbage In, Garbage Out(垃圾进,垃圾出)。

RAGFlow 的切入点是:先把文档解析做对,再谈 RAG


核心能力

1. DeepDoc —— 深度文档理解(杀手锏)

普通的 RAG 工具拿到文档可能随便撕几页就存起来了。

RAGFlow 的做法是:

  • 视觉模型去"看"文档结构(不只是 OCR 识别文字)
  • 精准区分:标题、正文、表格、图片
  • 能看懂跨页的复杂表格
  • 保证喂给 AI 的数据,逻辑是完整的

2. 可视化切片

  • 支持多种模板:论文、简历、手册等
  • 可视化地调整文本块的大小和逻辑
  • 确保语义不被切断
  • 回答问题时一定带引用出处,可直接跳转原文
  • 再也不怕 AI "幻觉"满天飞

Agentic RAG:现在的玩法

RAGFlow 已经进化到 Agentic RAG 阶段,不只是问答:

能力说明
代码解释器直接执行代码分析数据
SQL 执行连接数据库查询
多 Agent 协作编排多个 Agent 协同工作
复杂工作流智能决策的大脑

使用场景

企业级"Copilot"

行业场景
法律分析卷宗,自动提取证据链
制造业查设备维修手册,"这机器报错代码是啥意思"
金融分析研报、合同,提取关键条款
政务私有化部署,数据不出域

私有化部署

对于金融、政务等对数据极度敏感的行业:

  • 完全跑在内网
  • 数据不出域,安全感拉满

RAGFlow vs Dify:怎么选?

很多朋友纠结选哪个,其实定位不太一样:

维度RAGFlowDify
定位后端/引擎前端/应用
强项文档处理专家工作流编排、站点发布
适合数据扫描件、复杂 PDF、Excel干净的 Markdown 文本
核心能力把"乱七八糟"的数据洗干净快速搭建 ChatBot 界面
典型用户对答案准确性有极致要求想快速上线应用

我的建议

如果你追求极致的 RAG 效果,完全可以把 RAGFlow 当作文档处理引擎,把处理好的知识库通过 API 喂给 Dify 或其他前端应用,强强联合


技术背景

RAGFlow 背后的团队 InfiniFlow

  • 在搜索引擎和数据库领域深耕十多年
  • 之前搞过著名的开源向量数据库 Milvus
  • 2024 年 4 月 1 日开源 RAGFlow(愚人节,但他们是认真的)

快速体验

# 克隆项目
git clone https://github.com/infiniflow/ragflow.git
cd ragflow

# 启动(Docker Compose)
docker compose -f docker/docker-compose.yml up -d

访问 http://localhost:9380 即可进入系统。


写在最后

RAGFlow 81.1k 的 Star 不是白拿的

如果你:

  • 受够了大模型读不懂复杂 PDF
  • 手里的资料是扫描件、复杂表格
  • 对答案的准确性和溯源有极致要求

去 GitHub 上 Clone 下来试试,绝对是打开新世界的大门。


GitHub: https://github.com/infiniflow/ragflow
团队: InfiniFlow(Milvus 原班人马)
开源协议: Apache 2.0

推荐文章

api接口怎么对接
2024-11-19 09:42:47 +0800 CST
使用临时邮箱的重要性
2025-07-16 17:13:32 +0800 CST
Gin 与 Layui 分页 HTML 生成工具
2024-11-19 09:20:21 +0800 CST
Vue中的`key`属性有什么作用?
2024-11-17 11:49:45 +0800 CST
Vue3中的虚拟滚动有哪些改进?
2024-11-18 23:58:18 +0800 CST
Vue3如何执行响应式数据绑定?
2024-11-18 12:31:22 +0800 CST
手机导航效果
2024-11-19 07:53:16 +0800 CST
程序员茄子在线接单