程序员茄子
全部
编程
代码
资讯
案例
综合
联系我们
html在线编辑
登录注册
AI,自己全程接管维护
php
mysql
shell
go
vue
css
api接口对接
支付接口对接
最新
最热
万字深度解析 MinerU:当文档解析遇见「视觉语言模型」——从 PDF 到结构化 Markdown 的端到端工程化实践(2026)
编程
万字深度解析 MinerU:当文档解析遇见「视觉语言模型」——从 PDF 到结构化 Markdown 的端到端工程化实践(2026)
2026-07-02 01:13:03 +0800 CST
view 10
深度解析MinerU开源项目:72.3K GitHub Star的文档解析引擎,VLM+OCR双引擎,1.2B参数达到95.69分(OmniDocBench),支持PDF/DOCX/PPTX/XLSX解析,原生集成LangChain/Dify/RAGFlow等六大框架,含15+可运行代码示例。
MinerU
PDF解析
文档解析
RAG
LLM
VLM
OCR
LangChain
Dify
MCP
MarkItDown 深度实战:微软开源文档转换工具终结 RAG 数据准备之痛——从 PDF 到 Markdown 的生产级完全指南(2026)
编程
MarkItDown 深度实战:微软开源文档转换工具终结 RAG 数据准备之痛——从 PDF 到 Markdown 的生产级完全指南(2026)
2026-06-10 17:46:59 +0800 CST
view 144
微软开源的 MarkItDown 工具如何解决 RAG 数据准备的核心痛点,深度解析 PDF、Word、Excel 等文档格式转换的生产级实践
MarkItDown
RAG
PDF
python
Microsoft
文档转换
编程
RAG-Anything 深度实战:把PDF里的图表公式全塞进知识图谱——港大HKUDS实验室如何重新定义多模态RAG
2026-05-16 12:46:25 +0800 CST
view 359
RAG-Anything是港大HKUDS实验室开源的多模态RAG框架,能把PDF里的文字、图片、表格、公式全部塞进知识图谱。本文深度剖析其核心技术和实战应用。
RAG
多模态
知识图谱
PDF处理
GitHub Trending
编程
万字深度解析 Microsoft MarkItDown:当文档解析遇见 LLM 预处理——从 15 种格式支持到 RAG 生产级实战的完整指南(2026)
2026-07-01 08:46:35 +0800 CST
view 28
万字深度解析微软 MarkItDown:15种格式一键转Markdown,单月新增34K Star登顶GitHub飙星榜。涵盖技术架构、核心算法、代码实战、性能优化与生产部署完整指南。
MarkItDown
文档转换
Markdown
LLM
RAG
PDF
Word
OCR
微软
开源项目
微软开源 MarkItDown:万能格式转换神器,15+ 格式统一转 Markdown,狂揽 140K+ Star!
编程
微软开源 MarkItDown:万能格式转换神器,15+ 格式统一转 Markdown,狂揽 140K+ Star!
2026-06-13 08:23:13 +0800 CST
view 217
MarkItDown是微软AutoGen团队开源的文件格式转换工具,GitHub 140K+ Stars,将15+种文件格式(PDF/Office/图片/音频/视频/HTML/YouTube)统一转成Markdown,专为LLM优化,支持OCR和Azure AI集成。
MarkItDown
微软开源
文件转换
Markdown
RAG
LLM
OCR
PDF
Office
知识库
4400人收藏!Kami:让AI生成的文档终于有了值得一看的排版
案例
4400人收藏!Kami:让AI生成的文档终于有了值得一看的排版
2026-05-06 07:10:59 +0800 CST
view 559
4400人收藏的Kami文档设计系统,8条设计铁律让AI生成文档有专业排版,6种文档类型,12种内置SVG图表,暖米色背景+油墨蓝强调色,Serif字体印刷质感
文档设计
AI排版
Kami
PDF生成
设计系统
Claude Skill
tw93
编程
MarkItDown 深度解析:微软如何用轻量级 Python 工具重新定义文档转换——从 PDF 到 Markdown 的工程革命
2026-04-15 07:53:17 +0800 CST
view 660
深度解析微软开源的 MarkItDown 工具——GitHub 10万+ Star 的文档转换利器,涵盖架构设计、核心转换器实现、插件系统、RAG管道集成和生产级优化策略。
Python
Markdown
PDF
微软
RAG
开源
Docs2KG:用大模型把PDF、邮件、Excel统一建成知识图谱,让企业沉睡知识激活
编程
Docs2KG:用大模型把PDF、邮件、Excel统一建成知识图谱,让企业沉睡知识激活
2026-04-16 19:04:26 +0800 CST
view 568
Docs2KG是AI4WA开源的知识图谱构建框架,用大模型将PDF、邮件、Excel等异构文档统一抽取为知识三元组,构建统一知识图谱,支持问答和推理分析。
知识图谱
AI
LLM
PDF
RAG
知识管理
开源
编程
MarkItDown 深度解析:微软开源的文档转换神器如何重塑 LLM 时代的知识处理流水线
2026-04-18 06:17:21 +0800 CST
view 444
深度解析微软开源的 MarkItDown 文档转换工具,从架构设计、源码实现到实战应用,揭秘它如何成为 LLM 时代知识处理的基础设施。
MarkItDown
微软开源
文档转换
LLM
RAG
Python工具
Markdown
PDF转换
Scrapling 深度解析:52K Star 自适应爬虫框架——从抗改版自适应解析到原生绕过 Cloudflare 的工程革命
编程
Scrapling 深度解析:52K Star 自适应爬虫框架——从抗改版自适应解析到原生绕过 Cloudflare 的工程革命
2026-06-30 04:12:59 +0800 CST
view 49
Scrapling 52K+ Star Python自适应爬虫框架深度解析:抗改版自适应解析、原生绕过Cloudflare、类Scrapy并发框架,附完整代码实战与性能对比。
Scrapling
Python
爬虫
Web Scraping
Cloudflare绕过
自适应解析
Camoufox
反反爬
Scrapling 深度实战:当爬虫学会「自适应进化」——从 StealthyFetcher 隐身引擎到自适应解析的生产级完全指南(2026)
编程
Scrapling 深度实战:当爬虫学会「自适应进化」——从 StealthyFetcher 隐身引擎到自适应解析的生产级完全指南(2026)
2026-06-11 09:21:13 +0800 CST
view 224
Scrapling 是2026年GitHub最火的下一代Python爬虫框架,通过StealthyFetcher隐身引擎(JA3/JA4指纹伪装)和AdaptiveParser自适应解析,让Cloudflare通过率从5%提升到92%,网站改版不再导致爬虫报废。本文深度拆解架构设计、生产级实战代码、性能对比及分布式调度方案。
Scrapling
Python
爬虫
反爬虫
Cloudflare
StealthyFetcher
自适应解析
网页抓取
数据采集
Scrapling 深度实战:当爬虫学会了「自适应进化」——从智能元素追踪到 Cloudflare 绕过,Python 爬虫框架的生产级完全指南(2026)
编程
Scrapling 深度实战:当爬虫学会了「自适应进化」——从智能元素追踪到 Cloudflare 绕过,Python 爬虫框架的生产级完全指南(2026)
2026-06-15 03:17:56 +0800 CST
view 191
Scrapling 深度实战指南:揭秘自适应爬虫框架如何自动追踪页面改版、绕过 Cloudflare 反爬系统,从架构原理到生产级代码实战,2026 年 Python 爬虫技术全景。
Python
爬虫
Scrapling
Web Scraping
反爬
Cloudflare
自适应解析
开源项目
SGLang 深度解析:RadixAttention 如何重塑大模型推理的「结构化革命」
编程
SGLang 深度解析:RadixAttention 如何重塑大模型推理的「结构化革命」
2026-06-30 11:16:18 +0800 CST
view 37
深度解析 SGLang 大模型推理框架:RadixAttention 前缀缓存、零开销 CPU 调度器、结构化输出约束、推测解码、PD 分离等核心技术,对比 vLLM/TensorRT-LLM 选型,提供完整代码示例与生产级部署实践
SGLang
大模型推理
RadixAttention
前缀缓存
结构化输出
推测解码
PD分离
vLLM
TensorRT-LLM
SGLang 深度解析:RadixAttention 前缀缓存与结构化 LLM 推理革命——从 RAG/Agent 场景到生产级部署的完整指南
编程
SGLang 深度解析:RadixAttention 前缀缓存与结构化 LLM 推理革命——从 RAG/Agent 场景到生产级部署的完整指南
2026-06-30 11:17:15 +0800 CST
view 35
深度解析 SGLang 大模型推理框架:RadixAttention 前缀缓存、零开销 CPU 调度器、结构化输出约束、推测解码、PD 分离等核心技术,对比 vLLM/TensorRT-LLM 选型,提供完整代码示例与生产级部署实践
SGLang
大模型推理
RadixAttention
前缀缓存
结构化输出
推测解码
PD分离
vLLM
TensorRT-LLM
Cloudflare收购VoidZero深度解析:当Vite遇上边缘计算——前端工具链的AI原生未来完全指南(2026)
编程
Cloudflare收购VoidZero深度解析:当Vite遇上边缘计算——前端工具链的AI原生未来完全指南(2026)
2026-06-05 21:14:11 +0800 CST
view 372
2026年6月4日,Cloudflare宣布收购VoidZero(尤雨溪创办的Vite工具链公司)。本文深度解析:Vite架构原理(ESM+HMR)、OXC用Rust重写JS工具链、Rolldown打包器、Cloudflare Workers边缘计算、AI原生开发范式转变。全文约10000字,覆盖技术细节、代码示例、性能对比与未来展望。
Cloudflare
VoidZero
Vite
尤雨溪
前端工具链
边缘计算
Rust
OXC
Rolldown
Cloudflare Workers
NVIDIA Vera Rubin AI 系统深度解析:当 GPU 巨人全面进军 Agent 时代——从 Vera CPU 到 RTX Spark、Isaac GROOT 的全栈技术指南(2026)
编程
NVIDIA Vera Rubin AI 系统深度解析:当 GPU 巨人全面进军 Agent 时代——从 Vera CPU 到 RTX Spark、Isaac GROOT 的全栈技术指南(2026)
2026-06-10 11:17:06 +0800 CST
view 234
2026年6月1日英伟达发布Vera Rubin AI系统,专为Agent时代打造。本文深度解析Vera CPU全球首款AI Agent专用处理器、Rubin GPU动态稀疏注意力、NVLink 72片间互联、RTX Spark进军PC市场、Isaac GROOT人形机器人平台等核心技术,从程序员视角全面剖析这场计算架构革命。
NVIDIA
Vera Rubin
Agent AI
GTC 2026
AI系统
Isaac GROOT
RTX Spark
Nemotron
深度解析
百度 Unlimited OCR 深度解析:R-SWA 如何把 KV Cache 从线性增长压成常数,端到端 OCR 的长文档革命
编程
百度 Unlimited OCR 深度解析:R-SWA 如何把 KV Cache 从线性增长压成常数,端到端 OCR 的长文档革命
2026-06-29 19:45:14 +0800 CST
view 40
深度解析百度开源的 Unlimited OCR:R-SWA 如何把 KV Cache 从线性增长压成常数,解决长文档 OCR 的失忆问题,OmniDocBench v1.6 刷新 SOTA 93.92%
Unlimited OCR
百度
OCR
端到端
长文档
R-SWA
开源
深度学习
文档解析
Markdown
百度Unlimited OCR技术深度解析:R-SWA机制如何把KV Cache压成常数,3B模型刷新长文档OCR王座
编程
百度Unlimited OCR技术深度解析:R-SWA机制如何把KV Cache压成常数,3B模型刷新长文档OCR王座
2026-06-30 02:13:31 +0800 CST
view 37
百度Unlimited OCR技术深度解析:R-SWA机制如何把KV Cache压成常数,3B模型刷新长文档OCR王座
OCR
百度
深度学习
文档解析
R-SWA
CodeGraph 深度解析:给 AI 编程助手装上代码知识图谱——从 Tree-sitter 解析到 MCP 协议集成的工程革命
编程
CodeGraph 深度解析:给 AI 编程助手装上代码知识图谱——从 Tree-sitter 解析到 MCP 协议集成的工程革命
2026-06-30 05:13:55 +0800 CST
view 47
深度解析CodeGraph代码知识图谱引擎:Tree-sitter多语言解析、符号提取与关系建模、SQLite+FTS5图数据库设计、MCP协议集成、性能优化策略、生产级部署实践,附完整代码示例与架构分析。
CodeGraph
代码知识图谱
AI编程
Tree-sitter
MCP协议
SQLite
AST解析
HTML 解析器性能深度横评:从 Lexbor 的 SIMD 优化到 BeautifulSoup 的易用性权衡——2026 年爬虫基础设施选型指南
编程
HTML 解析器性能深度横评:从 Lexbor 的 SIMD 优化到 BeautifulSoup 的易用性权衡——2026 年爬虫基础设施选型指南
2026-06-30 07:15:57 +0800 CST
view 34
深度解析2026年主流HTML解析器性能差异:从Lexbor的SIMD指令集优化、Arena内存分配器到BeautifulSoup的设计权衡,附完整基准测试数据与生产级选型指南。
HTML解析器
性能优化
爬虫
Lexbor
BeautifulSoup
lxml
SIMD
Arena分配器
GitNexus 深度实战:当 AI Coding Agent 学会「看懂代码架构」——从 Tree-sitter 多语言 AST 解析到 MCP 协议暴露知识图谱的生产级完全指南(2026)
编程
GitNexus 深度实战:当 AI Coding Agent 学会「看懂代码架构」——从 Tree-sitter 多语言 AST 解析到 MCP 协议暴露知识图谱的生产级完全指南(2026)
2026-06-11 09:48:52 +0800 CST
view 244
GitNexus 深度实战:从 Tree-sitter 多语言 AST 解析到 MCP 协议暴露知识图谱,让 AI Coding Agent 学会看懂代码架构,彻底解决盲改问题。
GitNexus
代码知识图谱
Tree-sitter
MCP协议
AI Coding Agent
AST解析
TypeScript
Scrapling 深度实战:自适应智能爬虫框架完全指南——从动态渲染到全站并行的工程化实践(2026)
编程
Scrapling 深度实战:自适应智能爬虫框架完全指南——从动态渲染到全站并行的工程化实践(2026)
2026-06-02 19:16:20 +0800 CST
view 306
Scrapling 是2026年GitHub Trending的黑马项目,今日暴涨1468星。本文深度解析其自适应解析引擎、浏览器自动化集成、性能优化策略,并通过完整电商爬虫实战,带你掌握这一颠覆传统爬虫开发体验的新一代框架。
Python
爬虫
Scrapling
Web Scraping
自适应解析
百度开源Unlimited OCR:3B参数500M激活拿下全球第一,疑似DeepSeek出走大神之作
编程
百度开源Unlimited OCR:3B参数500M激活拿下全球第一,疑似DeepSeek出走大神之作
2026-06-22 20:57:32 +0800 CST
view 482
百度开源Unlimited OCR:3B参数500M激活,在OmniDocBench v1.6拿下93.92%端到端SOTA超越Qwen3-VL和Gemini。核心技术R-SWA参考滑动窗口注意力+DeepEncoder 16倍视觉压缩,实现40+页长程解析不失忆。疑似DeepSeek OCR核心作者魏浩然出走百度之作。
百度
OCR
开源
R-SWA
DeepEncoder
MoE
长程解析
SOTA
Microsoft MarkItDown 深度实战:把整个世界搬进 Markdown——从多格式解析引擎到 LLM 知识管道完全指南(2026)
编程
Microsoft MarkItDown 深度实战:把整个世界搬进 Markdown——从多格式解析引擎到 LLM 知识管道完全指南(2026)
2026-06-02 23:44:03 +0800 CST
view 369
Microsoft 开源的 MarkItDown 在 2026 年引爆 AI 工程圈。本文从源码级架构解析、多格式解析引擎、与 LLM 工具链的集成实战、性能优化到生产级 RAG 管道,全面拆解这款改变 AI 工程范式的工具。
Microsoft
MarkItDown
Markdown
LLM
RAG
Python
文档解析
AI工程
大家都在搜索什么?
devops
易支付
一个官网+多少钱
统一接受回调
统一回调
sub
node
宝塔日志
mysql
shell
ElasticSearch
css
vue
api接口对接
2025
支付接口对接
go
php
php回调
回调
上一页
1
2
3
4
下一页