程序员茄子
全部
编程
代码
资讯
案例
综合
联系我们
html在线编辑
登录注册
AI,自己全程接管维护
php
mysql
shell
go
vue
css
api接口对接
支付接口对接
最新
最热
FlashPrefill 深度解析:当瞬时注意力遇上 GPU 原语——从 O(N²) 困境到 27 倍速的工程革命
编程
FlashPrefill 深度解析:当瞬时注意力遇上 GPU 原语——从 O(N²) 困境到 27 倍速的工程革命
2026-04-15 17:20:25 +0800 CST
view 545
深度解析中科院与腾讯微信联合研发的 FlashPrefill 如何通过即时注意力模式发现和动态阈值筛选,将 25.6 万字符长文本处理速度提升 27.78 倍,同时保持近乎完美的精度。
LLM推理优化
FlashAttention
GPU计算
长文本处理
注意力机制
Transformer
深度学习
Llama 4 MoE 架构深度解析:从混合专家到万亿参数的技术革命
编程
Llama 4 MoE 架构深度解析:从混合专家到万亿参数的技术革命
2026-05-28 16:37:41 +0800 CST
view 232
深入解析 Meta Llama 4 的 MoE 混合专家架构原理,探讨其如何以 17B 激活参数撬动万亿级算力,并提供完整的本地部署实战指南。
Llama4
MoE
混合专家
开源大模型
本地部署
Meta
人工智能
深度学习
百度 Unlimited OCR 深度解读:R-SWA 如何将 KV Cache 压成常数,5天 GitHub Star 破万的端到端 OCR 新范式
编程
百度 Unlimited OCR 深度解读:R-SWA 如何将 KV Cache 压成常数,5天 GitHub Star 破万的端到端 OCR 新范式
2026-06-27 09:15:20 +0800 CST
view 83
百度开源 Unlimited OCR,5天 GitHub Star 破万。本文深度解析其核心创新 R-SWA(Reference Sliding Window Attention),如何将解码器 KV Cache 从线性增长压成常数,OmniDocBench v1.6 刷榜 SOTA(93.92%),30B 总参/5B 激活,32K 超长上下文,一次前向全稿转录,附完整代码实战。
Unlimited OCR
R-SWA
KV Cache
MoE
端到端 OCR
百度
深度学习
Transformer
文档识别
OCR
WiFi DensePose 深度解析:用普通路由器实现穿墙人体感知——无线电波如何重构智能感知的底层逻辑
编程
WiFi DensePose 深度解析:用普通路由器实现穿墙人体感知——无线电波如何重构智能感知的底层逻辑
2026-05-19 11:46:58 +0800 CST
view 401
2026年GitHub热门项目WiFi DensePose深度解析,讲解如何用普通WiFi信号实现穿墙人体感知、生命体征监测,无需摄像头,保护隐私。涵盖CSI技术原理、深度学习模型、Rust工程实现。
WiFi感知
CSI
人体姿态估计
隐私保护
Rust
边缘计算
穿墙探测
生命体征监测
深度学习
物联网
NVIDIA Cosmos 3 深度实战:当世界模型学会「理解、生成、模拟、行动」——从 MoT 混合架构到物理 AI 全链路的生产级完全指南(2026)
编程
NVIDIA Cosmos 3 深度实战:当世界模型学会「理解、生成、模拟、行动」——从 MoT 混合架构到物理 AI 全链路的生产级完全指南(2026)
2026-06-15 01:18:03 +0800 CST
view 337
2026年6月英伟达发布全球首款全模态物理AI世界模型Cosmos 3。本文从MoT混合架构、代码实战、Agent Skills工作流、性能分析、生产部署五个维度,带你彻底搞懂这个被业界定义为物理AI产业「安卓时刻」的技术突破。
NVIDIA
Cosmos 3
物理AI
世界模型
MoT架构
机器人
自动驾驶
深度学习
AI Agent
仿真
VibeVoice 深度解析:微软如何用 7.5Hz 超低帧率重塑语音 AI——从 ASR 到实时 TTS 的全栈技术内幕
编程
VibeVoice 深度解析:微软如何用 7.5Hz 超低帧率重塑语音 AI——从 ASR 到实时 TTS 的全栈技术内幕
2026-04-17 10:48:42 +0800 CST
view 612
深入解析微软开源的 VibeVoice 语音 AI 框架,涵盖 7.5Hz 超低帧率连续 tokenizer、Next-Token Diffusion 架构、三大模型(ASR/TTS/Realtime)全栈设计,以及生产环境部署与性能优化实践。
语音AI
VibeVoice
微软
TTS
ASR
深度学习
开源
OpenSkill深度解析:当Agent学会「无师自通」——自进化智能体的新范式颠覆了什么
编程
OpenSkill深度解析:当Agent学会「无师自通」——自进化智能体的新范式颠覆了什么
2026-06-09 11:46:59 +0800 CST
view 268
深入解析2026年最新研究OpenSkill框架——让AI Agent无需成功轨迹、预设Skills或监督信号即可自主获取可执行、可迁移的技能,刷新多项基准测试SOTA记录。
AI Agent
OpenSkill
自进化
深度学习
基准测试
OpenSkill框架深度解析:Agent如何摆脱「监督依赖」实现无师自通——自进化Skills的新范式与技术内幕
编程
OpenSkill框架深度解析:Agent如何摆脱「监督依赖」实现无师自通——自进化Skills的新范式与技术内幕
2026-06-09 11:48:00 +0800 CST
view 204
深入解析2026年最新研究OpenSkill框架——让AI Agent无需成功轨迹、预设Skills或监督信号即可自主获取可执行、可迁移的技能,刷新多项基准测试SOTA记录。
AI Agent
OpenSkill
自进化
深度学习
基准测试
挣脱监督的枷锁:OpenSkill如何让AI Agent实现真正的无师自通
编程
挣脱监督的枷锁:OpenSkill如何让AI Agent实现真正的无师自通
2026-06-09 11:48:15 +0800 CST
view 211
深入解析2026年最新研究OpenSkill框架——让AI Agent无需成功轨迹、预设Skills或监督信号即可自主获取可执行、可迁移的技能,刷新多项基准测试SOTA记录。
AI Agent
OpenSkill
自进化
深度学习
基准测试
Serial Scaling Hypothesis 深度解析:当 GPU 遇上「天生串行」问题——从复杂度理论到 AI 推理新范式的完全指南(2026)
编程
Serial Scaling Hypothesis 深度解析:当 GPU 遇上「天生串行」问题——从复杂度理论到 AI 推理新范式的完全指南(2026)
2026-06-15 13:52:24 +0800 CST
view 218
深度解析 ICLR 2026 论文 Serial Scaling Hypothesis:为什么某些问题堆再多 GPU 也无法加速?从复杂度理论揭示 AI 推理新范式,探讨 Chain-of-Thought、推理时计算的工程实践。
AI
深度学习
推理时计算
复杂度理论
ICLR2026
PaddleOCR深度解析:登顶GitHub全球OCR王座,500万参数如何击败十亿参数视觉大模型
编程
PaddleOCR深度解析:登顶GitHub全球OCR王座,500万参数如何击败十亿参数视觉大模型
2026-04-18 08:16:02 +0800 CST
view 401
深入解析百度PaddleOCR登顶GitHub全球OCR项目Star第一的技术密码,剖析PP-OCRv5仅500万参数媲美十亿参数视觉大模型的工程奥秘
OCR
PaddleOCR
深度学习
百度
开源
Genesis AI GENE-26.5 深度解析:机器人大脑如何实现人类水平的灵巧操作
编程
Genesis AI GENE-26.5 深度解析:机器人大脑如何实现人类水平的灵巧操作
2026-05-09 05:38:39 +0800 CST
view 407
深度解析 Genesis AI GENE-26.5 机器人大脑的技术架构:从多模态感知融合到世界模型预测,从扩散策略动作生成到 23 自由度灵巧手硬件设计。七项高难度任务的技术剖析,与 Google RT-2、Tesla Optimus、Figure 01 的对比分析,以及对机器人产业未来发展的预测。
AI
机器人
深度学习
机器人大脑
Genesis AI
EasyOCR光学字符识别库,基于深度学习,支持80多种语言,能够快速准确地识别图片中的文字
综合
EasyOCR光学字符识别库,基于深度学习,支持80多种语言,能够快速准确地识别图片中的文字
2024-11-19 06:41:57 +0800 CST
view 1856
EasyOCR是一个开源的光学字符识别库,基于深度学习,支持80多种语言,能够快速准确地识别图片中的文字。本文介绍了EasyOCR的安装、使用方法及在Python和PHP中的应用示例,涵盖了环境配置、代码示例及执行命令,适用于多种场景如文档数字化和车牌识别等。
OCR
深度学习
图像处理
编程
开发工具
MIT黑科技:TriAttention如何用三角函数让大模型「记住」超长上下文
编程
MIT黑科技:TriAttention如何用三角函数让大模型「记住」超长上下文
2026-04-18 12:45:10 +0800 CST
view 598
深度解析MIT/NVIDIA/浙大联合发布的TriAttention技术,用三角函数预测注意力分布,实现KV Cache智能压缩,让超长上下文推理成为可能
大模型
注意力机制
KV缓存
Transformer
深度学习
AI优化
NVIDIA Nemotron-Cascade-2 深度实战:30B MoE 模型如何拿下 IMO/IOI 双料金牌——从稀疏专家架构到生产级部署的完全指南(2026)
编程
NVIDIA Nemotron-Cascade-2 深度实战:30B MoE 模型如何拿下 IMO/IOI 双料金牌——从稀疏专家架构到生产级部署的完全指南(2026)
2026-06-01 12:56:48 +0800 CST
view 233
深度解析NVIDIA Nemotron-Cascade-2-30B-A3B模型:30B总参、3B激活参数的MoE架构,如何拿下IMO/IOI双料金牌,以及如何从HuggingFace加载到vLLM生产部署。
NVIDIA
Nemotron
MoE
AI模型
GPU
深度学习
推理引擎
vLLM
instinct 深度解析:当 AI Agent 第一次学会「从经验中自己长大」
编程
instinct 深度解析:当 AI Agent 第一次学会「从经验中自己长大」
2026-04-10 05:23:42 +0800 CST
view 481
instinct 是一个基于置信度的 AI Agent 自学习记忆系统,通过「观察→重复→成熟→建议」机制,让 Claude Code、Cursor 等 MCP Agent 具备跨会话自学习能力,从被动执行规则变成主动形成习惯。
AI Agent
记忆系统
instinct
置信度学习
MCP
Claude Code
Cursor
Agent Lightning 深度解析:当微软说「零代码改动」就能让 AI Agent 持续进化
编程
Agent Lightning 深度解析:当微软说「零代码改动」就能让 AI Agent 持续进化
2026-04-10 06:32:45 +0800 CST
view 565
微软开源的 Agent Lightning 框架深度解析:零代码改动让 AI Agent 持续进化,支持强化学习、提示优化、监督微调,兼容 LangChain、AutoGen、CrewAI 等所有主流框架。
AI Agent
强化学习
微软
开源
Agent Lightning
机器学习
AGIBOT WORLD 2026:智元开源全球首个具身智能全域数据集,机器人「大脑」终于有了真实世界教材
编程
AGIBOT WORLD 2026:智元开源全球首个具身智能全域数据集,机器人「大脑」终于有了真实世界教材
2026-04-08 14:12:17 +0800 CST
view 667
具身智能
AGIBOT
机器人学习
模仿学习
数据集开源
Embodied AI
NVIDIA Vera Rubin AI 系统深度解析:当 GPU 巨人全面进军 Agent 时代——从 Vera CPU 到 RTX Spark、Isaac GROOT 的全栈技术指南(2026)
编程
NVIDIA Vera Rubin AI 系统深度解析:当 GPU 巨人全面进军 Agent 时代——从 Vera CPU 到 RTX Spark、Isaac GROOT 的全栈技术指南(2026)
2026-06-10 11:17:06 +0800 CST
view 254
2026年6月1日英伟达发布Vera Rubin AI系统,专为Agent时代打造。本文深度解析Vera CPU全球首款AI Agent专用处理器、Rubin GPU动态稀疏注意力、NVLink 72片间互联、RTX Spark进军PC市场、Isaac GROOT人形机器人平台等核心技术,从程序员视角全面剖析这场计算架构革命。
NVIDIA
Vera Rubin
Agent AI
GTC 2026
AI系统
Isaac GROOT
RTX Spark
Nemotron
深度解析
vLLM 深度解析:LLM 推理性能的终极引擎——从 PagedAttention 到生产级部署的完整技术内幕
编程
vLLM 深度解析:LLM 推理性能的终极引擎——从 PagedAttention 到生产级部署的完整技术内幕
2026-05-18 08:22:35 +0800 CST
view 526
全面解析 vLLM 推理引擎的核心架构,从 PagedAttention 原理到生产级部署实战,涵盖量化推理、多GPU并行、性能调优等完整技术栈
vLLM
LLM推理
PagedAttention
GPU优化
量化推理
深度解析
AI 直播工具:Deep Live Cam 实时换脸效果超乎想象!附安装教程
综合
AI 直播工具:Deep Live Cam 实时换脸效果超乎想象!附安装教程
2024-11-19 08:13:10 +0800 CST
view 4800
DeepLiveCam是一款实时AI换脸工具,支持Windows和Mac,用户只需一张图片即可实现面部替换和视频深度伪造。该工具在GitHub上开源,提供简单的安装步骤,包括GPU和CPU部署方式。用户可以通过一键安装包或源码部署来使用,支持多种操作系统。文中还包含了常见问题的解决方案。
AI工具
深度伪造
开源软件
视频处理
Deer-Go:字节Deer-Flow的Go移植,深度研究Agent全拆解
代码
Deer-Go:字节Deer-Flow的Go移植,深度研究Agent全拆解
2026-07-03 06:30:35 +0800 CST
view 22
deer-go是字节跳动deer-flow的Go移植版,采用8节点多Agent团队架构,支持结构化Plan JSON驱动研究流程、BackgroundInvestigator预搜索、Human计划审批、CheckPoint断点续跑,专为深度研究场景设计。
AI
Agent
字节跳动
Go语言
开源
深度研究
Eino
企业级AI
云原生
LLM
MELT架构深度解析:高通如何让AI"深度思考"不再耗尽内存——循环Transformer的内存革命
编程
MELT架构深度解析:高通如何让AI"深度思考"不再耗尽内存——循环Transformer的内存革命
2026-05-19 13:46:15 +0800 CST
view 303
高通AI研究院提出的MELT架构通过门控机制让循环Transformer的内存消耗保持恒定,无论思考多少轮。本文深度解析其架构原理、数学推导、训练策略与性能实测。
AI
Transformer
内存优化
深度推理
高通
字节跳动开源DeerFlow深度解析:重新定义长周期AI Agent开发,从0到1实战指南
编程
字节跳动开源DeerFlow深度解析:重新定义长周期AI Agent开发,从0到1实战指南
2026-06-29 03:13:11 +0800 CST
view 111
本文深度解析字节跳动2026年6月开源的长周期SuperAgent框架DeerFlow,涵盖核心特性、架构设计、实战部署、性能优化等内容,附完整可运行代码示例,帮助开发者快速上手生产级AI Agent开发。
DeerFlow
字节跳动
AI Agent
SuperAgent
LangGraph
开源框架
深度研究
代码执行
记忆系统
大家都在搜索什么?
devops
易支付
一个官网+多少钱
统一接受回调
统一回调
sub
node
宝塔日志
mysql
shell
ElasticSearch
css
vue
api接口对接
2025
支付接口对接
go
php
php回调
回调
上一页
1
2
3
4
5
...
7
下一页