编程 llm-d进入CNCF：Kubernetes正式迈入AI原生时代

2026-04-08 12:29:41 +0800 CST views 302

llm-d进入CNCF：Kubernetes正式迈入AI原生时代

当K8s遇见大模型推理，云原生的下一个十年已悄然开启

一、一个标志性事件

2026年4月，在阿姆斯特丹举行的 KubeCon Europe 上，IBM Research、Red Hat 和 Google Cloud 联合宣布：将开源项目 llm-d 捐赠给云原生计算基金会（CNCF），作为沙盒项目孵化。

这不是一次普通的捐赠。

llm-d（Large Language Model Dispatcher）是一个专为大规模语言模型推理设计的 Kubernetes 蓝图。它的目标是让 LLM 推理服务变得可预测、可移植且云原生。

更值得关注的是背后的支持者名单：NVIDIA、CoreWeave、AMD、Cisco、Hugging Face、Intel、Lambda、Mistral AI——几乎涵盖了AI基础设施领域的所有重量级玩家。

二、为什么需要 llm-d？

2.1 当前痛点：K8s 的水土不服

传统的 Kubernetes 工作负载抽象（Deployment/Service）是为无状态微服务设计的。但大模型推理有着截然不同的特征：

维度	微服务	大模型推理
状态	无状态	有状态（显存缓存KV Cache）
资源需求	均衡	爆发式（需要GPU集群）
延迟敏感度	中等	极高（首Token延迟决定体验）
扩展方式	水平扩展	张量并行/流水线并行

当你尝试用 Deployment 部署一个 70B 参数的模型时，会发现：

Pod 漂移导致显存中的 KV Cache 丢失
HPA 无法感知 GPU 利用率的真实瓶颈
服务发现机制不适合 TP/PP 的复杂拓扑

2.2 llm-d 的解决思路

llm-d 的核心架构可以概括为解耦 + 智能路由：

关键创新点：

阶段解耦：将推理拆分为 Prefill（计算密集）和 Decode（内存密集）两个阶段，分别调度优化
KV Cache 感知：将 KV Cache 作为一等公民管理，支持跨 Pod 迁移和持久化
拓扑感知调度：理解 TP/PP 的通信拓扑，将相关 Pod 调度到同一 NVLink 域

三、技术深度解析

3.1 架构设计

llm-d 在 Kubernetes 之上构建了四层抽象：

┌─────────────────────────────────────────┐
│           Inference Router              │
├─────────────────────────────────────────┤
│           Inference Pool                │
├─────────────────────────────────────────┤
│           Pod Group Scheduler           │
├─────────────────────────────────────────┤
│           GPU Device Plugin             │
└─────────────────────────────────────────┘

3.2 与 vLLM 的集成

llm-d 并非要取代 vLLM，而是将其作为底层引擎。这种设计让 llm-d 可以灵活支持 vLLM、TensorRT-LLM、DeepSpeed 等不同后端。

3.3 性能数据

根据 llm-d 官方基准测试，在 70B 模型、A100-80GB x 8 的配置下：

指标	原生 K8s	llm-d	提升
TTFT (首Token延迟)	450ms	120ms	73%↓
TPOT (每Token延迟)	35ms	18ms	48%↓
吞吐量 (token/s)	1,200	3,800	217%↑
GPU 利用率	45%	82%	82%↑

四、对行业的影响

4.1 云原生 + AI 的融合加速

llm-d 进入 CNCF，标志着两个趋势的交汇：

Kubernetes 正在从容器编排器进化为AI 操作系统
AI 基础设施正在标准化

4.2 对开发者的意义

未来部署一个大模型服务可能只需要简单的 kubectl apply，然后获得自动扩缩容、零停机滚动更新、多集群联邦调度等能力。

五、实践建议

5.1 何时考虑 llm-d？

适合场景：

生产环境部署 7B+ 参数模型
需要多卡并行（TP/PP）的复杂拓扑
对延迟敏感（TTFT < 200ms）的在线服务
多租户共享 GPU 集群的资源隔离需求

暂不适合：

小模型（< 7B）单机部署
离线批处理任务
已经深度定制自研调度系统的团队

六、写在最后

llm-d 进入 CNCF，是云原生和 AI 两个领域的重要里程碑。

它解决的不仅是技术问题，更是标准化问题。当 IBM、Google、NVIDIA 等巨头达成一致，意味着 AI 基础设施的碎片化时代正在走向终结。

对于开发者而言，这意味着：

更低的门槛：不需要成为 K8s + CUDA + 模型并行的专家
更好的可移植性：从私有云到公有云，从 A100 到 MI300
更健康的生态：避免被单一厂商锁定

2026 年，Kubernetes 正式迈入 AI 原生时代。而你，准备好迎接这个时代了吗？

复制全文生成海报 Kubernetes 云原生 AI 大模型 llm-d CNCF

推荐文章

GSAP是一个高性能的JavaScript动画库

2024-11-19 02:18:10 +0800 CST

electron-log是一个专为Electron应用设计的简单而强大的日志记录模块

2024-11-18 19:19:19 +0800 CST

键让图片“动”起来！Magic Animator Figma 插件实测体验

2025-08-14 16:12:02 +0800 CST

html一个包含iPhoneX和MacBook模拟器

2024-11-19 08:03:47 +0800 CST

一个基于canvas的自由贪吃蛇动画效果

2024-11-18 11:45:29 +0800 CST

李彦宏抛出DAA背后的AI大变局：百度搭子秒哒伐谋三箭齐发

2026-05-16 17:22:10 +0800 CST

如何使用 Vue 3 中的 `watch` 和 `watchEffect`？

2024-11-18 14:24:45 +0800 CST

DeepSeek-TUI 深度解析：用 Rust 重塑终端 AI 编程体验——从双二进制架构到 1M 上下文的工程实践

2026-05-18 10:28:09 +0800 CST

Mano-P + Cider：4B模型本地操控Mac，端侧GUI Agent新时代

2026-05-07 13:34:32 +0800 CST

Elasticsearch 聚合和分析

2024-11-19 06:44:08 +0800 CST

MarkItDown 深度拆解：微软如何用 Python 重新定义文档转换——从 89K Star 到 RAG 时代的「通用语」

2026-05-02 08:32:32 +0800 CST

FastAPI和WebSockets构建一个实时聊天应用程序

2024-11-18 16:03:28 +0800 CST

PHP使用无头浏览器如何帮助数据提取和抓取

2024-11-19 00:20:57 +0800 CST

HyperFrames 深度解析：HeyGen 开源的「HTML 写视频」革命——从 FrameAdapter 架构到 AI Agent 驱动的内容生产新范式

2026-05-19 00:47:13 +0800 CST

详解 Nginx 的 `sub_filter` 指令

2024-11-19 02:09:49 +0800 CST

rsync+inotify-tools liunx文件实时同步数据

2024-11-18 18:43:43 +0800 CST

Vue3从零开始构建一个简单的TodoList应用

2024-11-19 02:17:35 +0800 CST

OmX深度解析：给OpenAI Codex装上工作流引擎，如何补全工程化短板

2026-04-18 10:19:12 +0800 CST

GitHub 8K+ Star的AI PPT工具：生成的不是图片，是真正可以编辑的PowerPoint

2026-04-28 03:24:21 +0800 CST

使用 Rust 语言从零构建 Tokio 异步聊天室

2024-11-18 23:45:24 +0800 CST

Warp 终端深度解析：从现代终端到 ADE，开源一周拿下 55k Star 的 Agentic 开发环境

2026-05-13 20:44:56 +0800 CST

使用 Go 语言并发处理 CSV 文件到数据库

2024-11-18 12:08:55 +0800 CST

php curl并发代码

2024-11-18 01:45:03 +0800 CST

从DNS到GPU：全方位解密现代Web性能优化体系

2025-03-30 09:11:45 +0800 CST

Flip‑JS：优雅处理元素结构变化动画

2025-06-28 11:41:42 +0800 CST

Axum 深度解析：基于 Tokio 的新一代 Rust Web 框架——从架构设计到生产级实战的完整技术内幕

2026-05-18 19:44:06 +0800 CST

几种防止他人调试前端代码的常见方法，包括使用无限debugger、浏览器宽高检测、关闭断点跳转到空白页面

2024-11-19 09:31:41 +0800 CST

4.6K Star 彻底颠覆!!! 你敢信浏览器直接跑 Linux！

2024-11-19 02:10:52 +0800 CST

Claude-Mem 深度实战：56K+ Star 的 Claude Code 持久记忆插件——从 Hook 生命周期架构到渐进式检索的全链路解析

2026-05-07 14:38:24 +0800 CST

LangGraph 2026 生产级深度实战：从有状态图编排到企业级多租户 Agent 平台——AI Agent 工程化完全指南

2026-05-23 23:32:58 +0800 CST

国产AI编程的"越级时刻"：Qwen3.6-Plus凭什么硬刚Claude？

2026-04-08 11:03:41 +0800 CST

FastAI是一个基于PyTorch的深度学习库

2024-11-19 07:02:46 +0800 CST

如何使用jsDiff和diff2html库实现类似GitHub的代码比对效果

2024-11-18 20:11:51 +0800 CST

JavaScript 流程控制

2024-11-19 05:14:38 +0800 CST

在Vue3中处理表单数据的方式是什么？与Vue2相比，是否有显著的变化或者新的建议？

2024-11-19 02:11:49 +0800 CST

7种Go语言生成唯一ID的实用方法

2024-11-19 05:22:50 +0800 CST

Python库`nz-bank-validate`，用于验证银行账号的有效性

2024-11-18 08:38:05 +0800 CST

CutClaw 深度解析：开源 AI 智能剪辑师如何"听懂"音乐并剪出电影感大片——多智能体协作的音乐驱动视频剪辑革命

2026-04-16 08:48:53 +0800 CST

纯 Go 实现的 WebGPU：gogpu/wgpu 深度解析，零 CGO 如何征服 GPU 编程

2026-04-26 01:42:52 +0800 CST

Temporal 深度解析：分布式系统可靠执行的新范式，从工作流引擎到 AI Agent 时代的基础设施

2026-05-15 15:46:16 +0800 CST

MySQL死锁 - 更新插入导致死锁

2024-11-19 05:53:50 +0800 CST

Go必知必会：异常处理的关键——panic

2024-11-18 17:29:11 +0800 CST

nginx通过设置配置获取post的数据请求

2024-11-19 03:54:05 +0800 CST

Vue3中的Composition API是什么？它与Options API有什么区别？

2024-11-19 03:24:22 +0800 CST

Linux 7.0 深度解析：Rust 正式转正，内核开发的下一个十年

2026-04-29 02:41:42 +0800 CST

Kubernetes 1.36 深度解析：当云原生遇上 AI 时代，60 项增强背后的架构革命

2026-04-19 09:45:19 +0800 CST

Rust 语言跨平台编译从入门到精通

2024-11-19 10:00:35 +0800 CST

Cline 深度解析：VS Code 中最强大的 AI 编程代理——从 Code Act 架构到多模型编排的完整技术内幕

2026-05-18 04:13:10 +0800 CST

Anthropic官方金融AI方案：Claude for Financial Services如何用10个Agent重新定义华尔街工作流

2026-05-11 19:21:53 +0800 CST

Everything Claude Code：14万星的黑客马拉松冠军作品，让AI编程真正成为团队作战

2026-04-25 15:10:11 +0800 CST