程序员茄子
全部
编程
代码
资讯
案例
综合
联系我们
html在线编辑
登录注册
AI,自己全程接管维护
php
mysql
shell
go
vue
css
api接口对接
支付接口对接
最新
最热
TileKernels 深度解析:DeepSeek 用 80 行代码榨干 GPU,算子开发范式的降维打击
编程
TileKernels 深度解析:DeepSeek 用 80 行代码榨干 GPU,算子开发范式的降维打击
2026-04-30 03:22:15 +0800 CST
view 550
深度解析 DeepSeek 开源的高性能 GPU 算子库 TileKernels:基于 TileLang DSL 用 80 行代码实现手写 CUDA 级性能,覆盖 MoE Gating/Routing、FP8/FP4 量化、Engram 门控等七大算子家族,首次原生支持 NVIDIA Blackwell 架构,并通过 TVM 编译器打通昇腾等国产芯片。
DeepSeek
TileKernels
GPU
CUDA
TileLang
MoE
算子优化
llama.cpp 深度实战:从 GGUF 量化到 CUDA 内核优化——纯 C/C++ 如何在 CPU/GPU 上榨出 LLM 推理的极限性能
编程
llama.cpp 深度实战:从 GGUF 量化到 CUDA 内核优化——纯 C/C++ 如何在 CPU/GPU 上榨出 LLM 推理的极限性能
2026-05-23 17:18:22 +0800 CST
view 1259
2026年深度拆解 llama.cpp 的核心架构:GGUF 格式原理、20+量化方法对比、KV Cache 优化、多硬件后端性能实测,与 Ollama/vLLM 完整横评。
llama.cpp
GGUF
量化
CUDA
Metal
LLM推理
C++
本地部署
性能优化
GGML
Hermes Agent 深度实战:自进化 AI Agent 的三层记忆架构与 Skill 自动生成完全指南(下篇)
编程
Hermes Agent 深度实战:自进化 AI Agent 的三层记忆架构与 Skill 自动生成完全指南(下篇)
2026-06-04 04:45:35 +0800 CST
view 160
下篇:深入讲解 Nudge Engine 定时复盘、强化学习从经验中学习、完整代码实战(从零搭建自进化 Agent)、与其他框架对比、生产级最佳实践、性能优化策略。
Hermes Agent
自进化
AI Agent
Nudge Engine
强化学习
代码实战
GMSSH:桌面级AI运维终端,零侵入纯SSH隧道
编程
GMSSH:桌面级AI运维终端,零侵入纯SSH隧道
2026-05-24 16:49:36 +0800 CST
view 229
GMSSH是桌面级AI驱动运维终端,零侵入纯SSH隧道,服务器不用装任何Agent,进程隔离+UDS通信,AI通过MCP感知实时状态,50+运维技能包,核心闭源+生态开放。
AI运维
SSH
运维工具
终端工具
桌面级
进程隔离
UDS
DeepSeek DeepGEMM 2026年4月重磅更新:Mega MoE融合算子、FP4精度与极致性能优化
编程
DeepSeek DeepGEMM 2026年4月重磅更新:Mega MoE融合算子、FP4精度与极致性能优化
2026-04-23 08:41:45 +0800 CST
view 349
深度解析DeepSeek DeepGEMM 2026年4月重大更新:Mega MoE融合算子(dispatch+Linear+SwiGLU+Combine五合一,NVLink通信与Tensor Core计算重叠)、FP8xFP4 GEMM、FP4 Indexer、PDL调度优化与JIT加速,附完整代码实战。
DeepGEMM
DeepSeek
GPU优化
CUDA
FP8
FP4
MoE
AI Infra
高性能计算
NVIDIA
DwarfStar 深度解析:antirez 的 DeepSeek V4 Flash 本地推理引擎——Metal 与 CUDA 双轨优化革命(2026 完全指南)
编程
DwarfStar 深度解析:antirez 的 DeepSeek V4 Flash 本地推理引擎——Metal 与 CUDA 双轨优化革命(2026 完全指南)
2026-05-28 19:13:18 +0800 CST
view 266
DwarfStar(ds4)是Redis创始人antirez开发的DeepSeek V4 Flash专用推理引擎,支持Metal与CUDA双轨优化、磁盘KV Cache、imatrix量化和原生Agent集成。本文深入解析其架构设计与性能表现。
DeepSeek
ds4
Metal
CUDA
本地推理
MoE
量化
GGUF
Agent
Python
C
DFlash 深度解析:块扩散模型如何让 LLM 推理加速 6 倍——2026 投机解码完全指南
编程
DFlash 深度解析:块扩散模型如何让 LLM 推理加速 6 倍——2026 投机解码完全指南
2026-05-28 19:39:07 +0800 CST
view 338
深入解析 DFlash 块扩散投机解码方案:如何让 Qwen3-8B 实现 6 倍无损加速,超越 EAGLE-3 与 llama.cpp,附 SGLang/vLLM/MLX 完整部署指南。
LLM推理
投机解码
块扩散
DFlash
推理加速
Transformer优化
GPU
CUDA
SGLang
vLLM
RAG-Anything 深度实战:港大开源全模态 RAG 框架,让知识库真正看懂图片、表格和公式
编程
RAG-Anything 深度实战:港大开源全模态 RAG 框架,让知识库真正看懂图片、表格和公式
2026-04-25 00:31:11 +0800 CST
view 385
深度解析港大开源RAG-Anything框架:从多模态文档解析到跨模态知识图谱构建,包含完整代码实战、自定义模态处理器开发、性能优化与生产部署指南
RAG
多模态
知识图谱
HKUDS
LightRAG
MinerU
VLM
文档理解
bpftime for GPU 深度实战:将 eBPF 带进 GPU Kernel 内部——从 PTX 级插桩到线程级可观测性的全链路架构解析
编程
bpftime for GPU 深度实战:将 eBPF 带进 GPU Kernel 内部——从 PTX 级插桩到线程级可观测性的全链路架构解析
2026-05-07 10:07:31 +0800 CST
view 340
深入解析 bpftime for GPU 如何将 eBPF 的可编程观测能力带入 GPU Kernel 内部,实现 PTX 级插桩、per-thread 粒度观测和零拷贝数据回传,为 AI 训练和高性能计算提供全新的调试与分析范式。
eBPF
GPU
CUDA
PTX
可观测性
性能优化
DuckDB 1.5 + Sirius:GPU加速嵌入式分析数据库的性能革命
编程
DuckDB 1.5 + Sirius:GPU加速嵌入式分析数据库的性能革命
2026-04-08 14:42:27 +0800 CST
view 726
深度解析DuckDB 1.5新特性与Sirius GPU加速扩展,涵盖ExtensionKit、ClickBench基准测试、性能优化与实战指南
DuckDB
Sirius
GPU
数据分析
NVIDIA
cuDF
DeepTutor深度解析:港大HKUDS开源的Agent-Native个性化学习系统,如何用双环推理架构让AI真正懂你在学什么
编程
DeepTutor深度解析:港大HKUDS开源的Agent-Native个性化学习系统,如何用双环推理架构让AI真正懂你在学什么
2026-04-17 18:13:26 +0800 CST
view 1183
港大HKUDS开源的DeepTutor深度解析,探讨其Agent-Native架构、双环协同推理机制、代码实战与未来展望
AI教育
Agent
DeepTutor
HKUDS
Python
Khal 深度实战:一次编写,跨越 WebGPU、CUDA 与 CPU 的 GPU 通用计算新范式(2026)
编程
Khal 深度实战:一次编写,跨越 WebGPU、CUDA 与 CPU 的 GPU 通用计算新范式(2026)
2026-06-15 11:46:16 +0800 CST
view 105
Khal(Kompute Hardware Abstraction Layer)是 Rust 生态的跨平台 GPU 硬件抽象层,让开发者用一门语言编写一次计算着色器,即可部署到 WebGPU、CUDA 和 CPU 所有目标平台。本文深入解析其架构设计、编译流程、标准库与实战代码示例。
Rust
GPU
WebGPU
CUDA
高性能计算
图形编程
OmniVoice 深度实战:当小米 k2-fsa 团队用扩散语言模型重塑语音合成——从零样本克隆到 600 语言高保真 TTS 的生产级完全指南(2026)
编程
OmniVoice 深度实战:当小米 k2-fsa 团队用扩散语言模型重塑语音合成——从零样本克隆到 600 语言高保真 TTS 的生产级完全指南(2026)
2026-06-15 14:21:23 +0800 CST
view 166
深入解析小米 k2-fsa 团队开源的 OmniVoice 单阶段扩散语言模型 TTS 系统,0.8B 参数支持 600+ 语言,零样本克隆仅需 3-10 秒参考音频,RTF 低至 0.025,Apache-2.0 免费商用。
TTS
语音合成
OmniVoice
k2-fsa
扩散模型
零样本克隆
多语言
MachineLearning
Audio
小米
TileLang + TileKernels 深度解析:DeepSeek 如何用 Python 写出让 GPU 逼近理论性能上限的 GPU 内核
编程
TileLang + TileKernels 深度解析:DeepSeek 如何用 Python 写出让 GPU 逼近理论性能上限的 GPU 内核
2026-04-28 10:55:20 +0800 CST
view 343
深度剖析 DeepSeek 开源的 TileLang DSL 和 TileKernels GPU 内核库:从 GEMM 到 MoE,从 TVM 编译基础设施到生产级量化内核,揭示用 Python 写接近硬件极限性能 GPU 代码的秘密。
TileLang
GPU内核
DeepSeek
高性能计算
CUDA
GEMM
MoE
量化
TVM
开源项目
20万星背后的工程革命:obra/superpowers 如何让 AI 编程从'自由发挥'走向'系统化交付'
编程
20万星背后的工程革命:obra/superpowers 如何让 AI 编程从'自由发挥'走向'系统化交付'
2026-06-01 15:27:46 +0800 CST
view 375
obra/superpowers 是 2026 年 GitHub 最火的开源项目之一,20万星背后是一套用 Markdown 写成的开发纪律。本文从架构设计、技能系统、TDD 强制流程、子代理协作模型等维度,全面拆解这个让 AI 编程从自由发挥走向系统化交付的技术框架。
AI编程
Superpowers
GitHub
Coding Agent
TDD
工程实践
20万星背后的工程革命:obra/superpowers 如何让 AI 编程从'自由发挥'走向'系统化交付'
编程
20万星背后的工程革命:obra/superpowers 如何让 AI 编程从'自由发挥'走向'系统化交付'
2026-06-01 15:28:16 +0800 CST
view 260
obra/superpowers 是 2026 年 GitHub 最火的开源项目之一,20万星背后是一套用 Markdown 写成的开发纪律。本文从架构设计、技能系统、TDD 强制流程、子代理协作模型等维度,全面拆解这个让 AI 编程从自由发挥走向系统化交付的技术框架。
AI编程
Superpowers
GitHub
Coding Agent
TDD
工程实践
VSCode 2026 Agent Runtime 深度解析:IDE 原生多智能体协同开发架构从零到一
编程
VSCode 2026 Agent Runtime 深度解析:IDE 原生多智能体协同开发架构从零到一
2026-06-01 18:25:03 +0800 CST
view 203
深入解析 VSCode 2026 原生 Agent Runtime 架构:ACP 协议、Intent Bus、WASM 沙箱、RAG-Augmented 工作流与生产级性能优化实践。
VSCode
多智能体
Agent Runtime
ACP协议
WASM
Intent Bus
AI编程
Context-Mode 深度实战:当 AI 编程成本暴涨到让人肉疼——MCP 插件用沙盒隔离将 Token 消耗砍掉 98%
编程
Context-Mode 深度实战:当 AI 编程成本暴涨到让人肉疼——MCP 插件用沙盒隔离将 Token 消耗砍掉 98%
2026-06-16 09:22:57 +0800 CST
view 127
Context-Mode 是一个登顶 GitHub 和 Hacker News 的开源 MCP 插件,通过沙盒隔离、语义检索、Think in Code 三大核心机制,将 AI 编程的 Token 消耗降低 98%,连续编程时间从 30 分钟拉到 3 小时。本文从架构设计、代码实战、多平台接入到性能优化,全面拆解这个被 24 万开发者采用的项目。
MCP
AI编程
Token优化
Context-Mode
开源项目
上下文管理
OpenAI Codex 史诗级更新深度解析:当 AI 终于拿到了鼠标,编程世界的终局来了
编程
OpenAI Codex 史诗级更新深度解析:当 AI 终于拿到了鼠标,编程世界的终局来了
2026-04-19 06:13:22 +0800 CST
view 864
2026年4月OpenAI Codex重大更新深度解析:AI代理首次获得操作电脑能力,支持Mac桌面应用操作、多智能体并行、长期任务调度、图像生成与记忆学习,从代码助手进化为真正的自主编程代理。
AI编程
Codex
OpenAI
编程代理
开发者工具
WASM 2.0 时代来临:Component Model 如何让 WebAssembly 成为真正的跨语言平台
编程
WASM 2.0 时代来临:Component Model 如何让 WebAssembly 成为真正的跨语言平台
2026-05-09 17:16:19 +0800 CST
view 366
深入解析 WebAssembly Component Model 和 WASI 2.0 的核心概念:WIT 接口定义语言、World 组件描述、Canonical ABI 数据转换规则,以及如何构建跨语言的 WASM 组件。
WebAssembly
WASI
Component Model
WIT
WASM
WASI 2.0
Rust
Go
GPT Image 2 + Codex 深度解析:从「vibe art」到高端网站,AI 工作流的最后一公里
编程
GPT Image 2 + Codex 深度解析:从「vibe art」到高端网站,AI 工作流的最后一公里
2026-05-09 18:28:12 +0800 CST
view 718
当 AI 能生成代码、能生成图片,却始终生成不出「好看」的网站——这个问题,终于被一个不到 100 行的 SKILL.md 解决了一半。本文深度解析 Taste-Skill + GPT Image 2 + Codex 的完整工作流,从设计图到可上线的品牌网站,全流程实操演示。
AI图像生成
OpenAI
Codex
Taste-Skill
GPT Image 2
前端开发
工作流
WebAssembly 服务端深度实战:从 WASI 到组件模型——Wasm 如何重塑云原生计算的未来
编程
WebAssembly 服务端深度实战:从 WASI 到组件模型——Wasm 如何重塑云原生计算的未来
2026-05-22 22:46:23 +0800 CST
view 277
WebAssembly服务端全景实战:WASI标准演进、运行时架构对比、Component Model组件模型、Wasm容器化、Serverless落地与性能调优
WebAssembly
WASI
Wasm
云原生
Serverless
Component Model
OpenAI Skills 深度实战:当 AI 编程助手学会「技能插件」——从 openai/skills 标准到生产级 Codex 技能开发的完全指南(2026)
编程
OpenAI Skills 深度实战:当 AI 编程助手学会「技能插件」——从 openai/skills 标准到生产级 Codex 技能开发的完全指南(2026)
2026-06-10 23:17:29 +0800 CST
view 357
深入拆解openai/skills的设计哲学、技术架构和生产实践,包含10个必装Skills、完整自定义Skill开发流程和团队协作方案。
AI
编程
Codex
Skills
openai
WebAssembly Component Model 深度实战:当跨语言互操作从「理想」变成「基建」——从 WIT 接口定义到 Rust/Go/Python 多语言组件组合的生产级完全指南(2026)
编程
WebAssembly Component Model 深度实战:当跨语言互操作从「理想」变成「基建」——从 WIT 接口定义到 Rust/Go/Python 多语言组件组合的生产级完全指南(2026)
2026-06-16 21:30:26 +0800 CST
view 93
深度解读 WebAssembly Component Model 架构,从 WIT 接口定义到 Rust/Go/Python 多语言组件开发与组合,涵盖生产级部署、性能优化、插件系统设计
WebAssembly
WASM
Component Model
WIT
WASI
Rust
Go
Python
Serverless
微服务
大家都在搜索什么?
devops
易支付
一个官网+多少钱
统一接受回调
统一回调
sub
node
宝塔日志
mysql
shell
ElasticSearch
css
vue
api接口对接
2025
支付接口对接
go
php
php回调
回调
上一页
1
...
13
14
15
16
17
...
28
下一页