程序员茄子
全部
编程
代码
资讯
案例
综合
联系我们
html在线编辑
登录注册
AI,自己全程接管维护
php
mysql
shell
go
vue
css
api接口对接
支付接口对接
最新
最热
relext是一个强大的Python库,用于处理正则表达式相关任务
综合
relext是一个强大的Python库,用于处理正则表达式相关任务
2024-11-19 09:50:03 +0800 CST
view 1481
relext是一个强大的Python库,用于处理正则表达式相关任务。本文介绍了relext的安装、基本用法和高级用法,包括编译正则表达式、匹配字符串、搜索文本、分组、查找所有匹配项和使用预定义字符集等功能。通过实际案例,如提取邮箱地址和替换文本,展示了relext在文本解析和数据分析中的应用。
Python
编程
正则表达式
数据处理
文本解析
DiffusionGemma 深度实战:当文本生成告别逐字蹦字——从离散扩散到 1100 tokens/s 的生产级完全指南(2026)
编程
DiffusionGemma 深度实战:当文本生成告别逐字蹦字——从离散扩散到 1100 tokens/s 的生产级完全指南(2026)
2026-06-16 07:18:07 +0800 CST
view 149
Google DeepMind 开源 DiffusionGemma 离散文本扩散模型深度实战:从并行去噪原理到 1100 tokens/s 推理,完整代码示例与 Agent 构建
DiffusionGemma
文本扩散
离散扩散
LLM
开源模型
Google DeepMind
综合
pinyin-pro:功能强大的汉字拼音转换库,中文转拼音利器
2024-11-19 08:38:54 +0800 CST
view 2549
pinyin-pro是一个功能强大的JavaScript库,能够将中文文本准确快速地转换为拼音,支持拼音音调、声母、韵母的转换,并处理多音字和姓氏。它提供拼音匹配和中文分词功能,适用于搜索引擎优化、语音合成和汉语教学等场景。该库易于使用,性能优异,适合开发者和语言研究者。
中文处理
编程工具
开源项目
语言学习
文本处理
微软开源文档转换神器 MarkItDown:58K+ Star 的 Markdown 工具,支持 MCP 协议
编程
微软开源文档转换神器 MarkItDown:58K+ Star 的 Markdown 工具,支持 MCP 协议
2025-06-05 23:01:13 +0800 CST
view 1597
MarkItDown是微软开源的文档转换工具,支持多种文件格式(如PDF、Office、图片、音频等)转换为结构化的Markdown文档,适用于AI大模型和文本分析。该工具在GitHub上获得了超过58K的Star,提供了命令行和PythonAPI使用方式,并支持MarkdownConversionProtocol(MCP)。尽管在处理复杂格式时可能存在限制,但其多格式支持使其成为开发者的有力工具。
开源工具
文档处理
人工智能
文本分析
1.6万亿参数,1M上下文,仅需27%算力:DeepSeek-V4-Pro 如何重新定义长文本推理
编程
1.6万亿参数,1M上下文,仅需27%算力:DeepSeek-V4-Pro 如何重新定义长文本推理
2026-05-11 10:53:54 +0800 CST
view 430
DeepSeek-V4-Pro 以 1.6T 总参数、49B 激活参数的 MoE 架构,原生支持 100 万 token 上下文,同时将推理算力降至 V3.2 的 27%、KV Cache 降至 10%。本文深度解析 CSA/HCA 混合注意力机制、mHC 流形约束超连接、KV Cache 极致优化、Muon 优化器等核心技术创新,以及如何在 Ollama、vLLM、官方 API 三种方式下部署运行。
DeepSeek-V4,MoE架构,CSA注意力,HCA注意力,KV Cache,1M上下文,长文本推理,开源大模型
DiffusionGemma 深度实战:当文本扩散重新定义本地AI推理——从'打字机'到'印刷机'的4倍速架构革命
编程
DiffusionGemma 深度实战:当文本扩散重新定义本地AI推理——从'打字机'到'印刷机'的4倍速架构革命
2026-06-12 17:21:39 +0800 CST
view 154
2026年6月Google发布DiffusionGemma,首个生产级文本扩散大模型,本地推理速度提升4倍。本文深入剖析其从自回归到并行生成的架构革命,附完整代码实战。
DiffusionGemma
文本扩散
本地AI
Gemma
大模型推理
扩散模型
Python
Ollama
DiffusionGemma 深度实战:当谷歌用图像扩散的逻辑重塑文本生成——从离散扩散原理到 4 倍推理加速的生产级完全指南(2026)
编程
DiffusionGemma 深度实战:当谷歌用图像扩散的逻辑重塑文本生成——从离散扩散原理到 4 倍推理加速的生产级完全指南(2026)
2026-06-17 23:28:33 +0800 CST
view 188
2026年6月谷歌开源DiffusionGemma,26B MoE参数仅激活3.8B,通过离散扩散实现4倍推理加速。本文从原理、架构、代码实战、性能优化全面深度解析这一范式级创新。
DiffusionGemma
谷歌
文本扩散
MoE
AI推理
Gemma
开源模型
离散扩散
并行生成
深度学习
编程
更新了AI续写和AI纠错功能,并增加了AI补充参数的选项
2024-11-19 09:52:25 +0800 CST
view 1688
本文更新了AI续写和AI纠错功能,并增加了AI补充参数的选项。这些更新旨在提升用户体验和功能的灵活性,使得AI在文本生成和修正方面更加高效。
人工智能
文本处理
功能更新
jieba是一个广受欢迎的Python库,专门用于中文文本的分词处理
综合
jieba是一个广受欢迎的Python库,专门用于中文文本的分词处理
2024-11-18 18:18:43 +0800 CST
view 1782
jieba是一个广受欢迎的Python库,专门用于中文文本的分词处理。它支持多种分词算法,允许用户添加自定义词典,并提供词性标注和关键词提取等高级功能。作为一个开源项目,jieba有着活跃的社区支持,用户可以轻松安装并使用它进行中文文本处理。
自然语言处理
文本分析
开源软件
awpa库是Python中处理文本数据的有用工具,提供分词、词性标注、实体识别等功能
综合
awpa库是Python中处理文本数据的有用工具,提供分词、词性标注、实体识别等功能
2024-11-18 13:58:00 +0800 CST
view 1433
awpa库是Python中处理文本数据的有用工具,提供分词、词性标注、实体识别等功能。本文介绍了awpa的安装、基本用法和高级用法,包括自定义词典和繁简转换,并提供了实际使用案例,展示如何高效处理中文文本。
Python库
文本分析
自然语言处理
ftfy是一个强大的Python库,用于自动检测和修复文本中的编码问题
综合
ftfy是一个强大的Python库,用于自动检测和修复文本中的编码问题
2024-11-18 23:40:21 +0800 CST
view 1974
ftfy是一个强大的Python库,用于自动检测和修复文本中的编码问题。它能够处理网络爬取的数据和用户输入,提供简单的安装和使用方法。核心功能包括修复错误的UTF-8编码、HTML实体和Windows-1252编码错误。ftfy还支持自定义修复策略和检测文本是否需要修复,适合大规模文本处理。它在数据清洗和自然语言处理领域具有重要应用。
Python
文本处理
数据分析
diin-text库提供python文本预处理、词向量表示和句子相似度计算等功能
综合
diin-text库提供python文本预处理、词向量表示和句子相似度计算等功能
2024-11-18 20:34:05 +0800 CST
view 1791
本文介绍了Python中的diin-text库,涵盖了安装、基本用法、高级用法及实际案例。diin-text库提供文本预处理、词向量表示和句子相似度计算等功能,适合初学者和深度学习集成。通过示例代码,读者可以快速上手并应用于自然语言处理任务。
Python
自然语言处理
文本分析
DiffusionGemma 深度实战:当文本生成进入「扩散纪元」——从离散扩散原理到本地高速推理的完全指南(2026)
编程
DiffusionGemma 深度实战:当文本生成进入「扩散纪元」——从离散扩散原理到本地高速推理的完全指南(2026)
2026-06-14 01:18:58 +0800 CST
view 271
2026年6月Google开源DiffusionGemma——基于离散扩散技术的文本生成模型,打破传统自回归范式,实现4倍生成速度提升。本文深入解析其架构原理、性能实测、代码实战与生产落地。
DiffusionGemma
离散扩散
文本生成
AI大模型
Google
并行推理
MoE架构
FlashPrefill 深度解析:当瞬时注意力遇上 GPU 原语——从 O(N²) 困境到 27 倍速的工程革命
编程
FlashPrefill 深度解析:当瞬时注意力遇上 GPU 原语——从 O(N²) 困境到 27 倍速的工程革命
2026-04-15 17:20:25 +0800 CST
view 512
深度解析中科院与腾讯微信联合研发的 FlashPrefill 如何通过即时注意力模式发现和动态阈值筛选,将 25.6 万字符长文本处理速度提升 27.78 倍,同时保持近乎完美的精度。
LLM推理优化
FlashAttention
GPU计算
长文本处理
注意力机制
Transformer
深度学习
NVIDIA Vera Rubin AI 系统深度解析:当 GPU 巨人全面进军 Agent 时代——从 Vera CPU 到 RTX Spark、Isaac GROOT 的全栈技术指南(2026)
编程
NVIDIA Vera Rubin AI 系统深度解析:当 GPU 巨人全面进军 Agent 时代——从 Vera CPU 到 RTX Spark、Isaac GROOT 的全栈技术指南(2026)
2026-06-10 11:17:06 +0800 CST
view 211
2026年6月1日英伟达发布Vera Rubin AI系统,专为Agent时代打造。本文深度解析Vera CPU全球首款AI Agent专用处理器、Rubin GPU动态稀疏注意力、NVLink 72片间互联、RTX Spark进军PC市场、Isaac GROOT人形机器人平台等核心技术,从程序员视角全面剖析这场计算架构革命。
NVIDIA
Vera Rubin
Agent AI
GTC 2026
AI系统
Isaac GROOT
RTX Spark
Nemotron
深度解析
百度 Unlimited OCR 深度解析:R-SWA 如何把 KV Cache 从线性增长压成常数,端到端 OCR 的长文档革命
编程
百度 Unlimited OCR 深度解析:R-SWA 如何把 KV Cache 从线性增长压成常数,端到端 OCR 的长文档革命
2026-06-29 19:45:14 +0800 CST
view 7
深度解析百度开源的 Unlimited OCR:R-SWA 如何把 KV Cache 从线性增长压成常数,解决长文档 OCR 的失忆问题,OmniDocBench v1.6 刷新 SOTA 93.92%
Unlimited OCR
百度
OCR
端到端
长文档
R-SWA
开源
深度学习
文档解析
Markdown
Scrapling 深度实战:当爬虫学会「自适应进化」——从 StealthyFetcher 隐身引擎到自适应解析的生产级完全指南(2026)
编程
Scrapling 深度实战:当爬虫学会「自适应进化」——从 StealthyFetcher 隐身引擎到自适应解析的生产级完全指南(2026)
2026-06-11 09:21:13 +0800 CST
view 209
Scrapling 是2026年GitHub最火的下一代Python爬虫框架,通过StealthyFetcher隐身引擎(JA3/JA4指纹伪装)和AdaptiveParser自适应解析,让Cloudflare通过率从5%提升到92%,网站改版不再导致爬虫报废。本文深度拆解架构设计、生产级实战代码、性能对比及分布式调度方案。
Scrapling
Python
爬虫
反爬虫
Cloudflare
StealthyFetcher
自适应解析
网页抓取
数据采集
GitNexus 深度实战:当 AI Coding Agent 学会「看懂代码架构」——从 Tree-sitter 多语言 AST 解析到 MCP 协议暴露知识图谱的生产级完全指南(2026)
编程
GitNexus 深度实战:当 AI Coding Agent 学会「看懂代码架构」——从 Tree-sitter 多语言 AST 解析到 MCP 协议暴露知识图谱的生产级完全指南(2026)
2026-06-11 09:48:52 +0800 CST
view 218
GitNexus 深度实战:从 Tree-sitter 多语言 AST 解析到 MCP 协议暴露知识图谱,让 AI Coding Agent 学会看懂代码架构,彻底解决盲改问题。
GitNexus
代码知识图谱
Tree-sitter
MCP协议
AI Coding Agent
AST解析
TypeScript
Scrapling 深度实战:自适应智能爬虫框架完全指南——从动态渲染到全站并行的工程化实践(2026)
编程
Scrapling 深度实战:自适应智能爬虫框架完全指南——从动态渲染到全站并行的工程化实践(2026)
2026-06-02 19:16:20 +0800 CST
view 284
Scrapling 是2026年GitHub Trending的黑马项目,今日暴涨1468星。本文深度解析其自适应解析引擎、浏览器自动化集成、性能优化策略,并通过完整电商爬虫实战,带你掌握这一颠覆传统爬虫开发体验的新一代框架。
Python
爬虫
Scrapling
Web Scraping
自适应解析
百度开源Unlimited OCR:3B参数500M激活拿下全球第一,疑似DeepSeek出走大神之作
编程
百度开源Unlimited OCR:3B参数500M激活拿下全球第一,疑似DeepSeek出走大神之作
2026-06-22 20:57:32 +0800 CST
view 441
百度开源Unlimited OCR:3B参数500M激活,在OmniDocBench v1.6拿下93.92%端到端SOTA超越Qwen3-VL和Gemini。核心技术R-SWA参考滑动窗口注意力+DeepEncoder 16倍视觉压缩,实现40+页长程解析不失忆。疑似DeepSeek OCR核心作者魏浩然出走百度之作。
百度
OCR
开源
R-SWA
DeepEncoder
MoE
长程解析
SOTA
Microsoft MarkItDown 深度实战:把整个世界搬进 Markdown——从多格式解析引擎到 LLM 知识管道完全指南(2026)
编程
Microsoft MarkItDown 深度实战:把整个世界搬进 Markdown——从多格式解析引擎到 LLM 知识管道完全指南(2026)
2026-06-02 23:44:03 +0800 CST
view 347
Microsoft 开源的 MarkItDown 在 2026 年引爆 AI 工程圈。本文从源码级架构解析、多格式解析引擎、与 LLM 工具链的集成实战、性能优化到生产级 RAG 管道,全面拆解这款改变 AI 工程范式的工具。
Microsoft
MarkItDown
Markdown
LLM
RAG
Python
文档解析
AI工程
CodeGraph 深度实战:当 AI 编码代理遇见代码知识图谱——从 AST 解析到本地索引引擎、MCP 集成与零文件读取模式的生产级完全指南(2026)
编程
CodeGraph 深度实战:当 AI 编码代理遇见代码知识图谱——从 AST 解析到本地索引引擎、MCP 集成与零文件读取模式的生产级完全指南(2026)
2026-06-17 09:52:23 +0800 CST
view 212
CodeGraph 是专为AI编码代理打造的本地代码知识图谱引擎,预索引代码库的符号关系和调用图,让AI直接查询结构化知识而非逐行扫描文件,Token消耗降低57%,响应速度提升46%的生产级完全指南
CodeGraph
AI编码代理
代码知识图谱
MCP
Tree-sitter
Claude Code
Cursor
AST解析
doxmlparser是一个用于处理XML文件的Python库
综合
doxmlparser是一个用于处理XML文件的Python库
2024-11-18 21:40:21 +0800 CST
view 1674
doxmlparser是一个用于处理XML文件的Python库,提供简单易用的接口来解析、修改和操作XML数据。本文介绍了doxmlparser的安装、基本用法和高级用法,包括添加、修改和删除XML元素的示例代码。通过使用doxmlparser,用户可以高效地处理XML文件,提升工作效率。
编程
Python
XML处理
数据解析
软件开发
codebase-memory-mcp 深度实战:当AI编码代理终于理解了你的100万行代码库——从知识图谱构建到MCP协议集成的大规模工程化完全指南(2026)
编程
codebase-memory-mcp 深度实战:当AI编码代理终于理解了你的100万行代码库——从知识图谱构建到MCP协议集成的大规模工程化完全指南(2026)
2026-06-25 20:44:22 +0800 CST
view 74
深度解析codebase-memory-mcp的架构设计与实战部署,讲解如何通过代码知识图谱和MCP协议解决AI辅助开发的上下文不足问题,涵盖从原理到生产级部署的完整流程
codebase-memory-mcp
MCP协议
代码知识图谱
AI辅助开发
AI编码工具
Cursor
Claude Code
代码解析
知识图谱构建
工程化实践
大家都在搜索什么?
devops
易支付
一个官网+多少钱
统一接受回调
统一回调
sub
node
宝塔日志
mysql
shell
ElasticSearch
css
vue
api接口对接
2025
支付接口对接
go
php
php回调
回调
上一页
1
2
下一页