编程 llm-d进入CNCF:Kubernetes正式迈入AI原生时代

2026-04-08 12:29:41 +0800 CST views 7

llm-d进入CNCF:Kubernetes正式迈入AI原生时代

当K8s遇见大模型推理,云原生的下一个十年已悄然开启

一、一个标志性事件

2026年4月,在阿姆斯特丹举行的 KubeCon Europe 上,IBM Research、Red Hat 和 Google Cloud 联合宣布:将开源项目 llm-d 捐赠给云原生计算基金会(CNCF),作为沙盒项目孵化。

这不是一次普通的捐赠。

llm-d(Large Language Model Dispatcher)是一个专为大规模语言模型推理设计的 Kubernetes 蓝图。它的目标是让 LLM 推理服务变得可预测、可移植且云原生

更值得关注的是背后的支持者名单:NVIDIA、CoreWeave、AMD、Cisco、Hugging Face、Intel、Lambda、Mistral AI——几乎涵盖了AI基础设施领域的所有重量级玩家。

二、为什么需要 llm-d?

2.1 当前痛点:K8s 的水土不服

传统的 Kubernetes 工作负载抽象(Deployment/Service)是为无状态微服务设计的。但大模型推理有着截然不同的特征:

维度微服务大模型推理
状态无状态有状态(显存缓存KV Cache)
资源需求均衡爆发式(需要GPU集群)
延迟敏感度中等极高(首Token延迟决定体验)
扩展方式水平扩展张量并行/流水线并行

当你尝试用 Deployment 部署一个 70B 参数的模型时,会发现:

  • Pod 漂移导致显存中的 KV Cache 丢失
  • HPA 无法感知 GPU 利用率的真实瓶颈
  • 服务发现机制不适合 TP/PP 的复杂拓扑

2.2 llm-d 的解决思路

llm-d 的核心架构可以概括为解耦 + 智能路由

关键创新点:

  1. 阶段解耦:将推理拆分为 Prefill(计算密集)和 Decode(内存密集)两个阶段,分别调度优化
  2. KV Cache 感知:将 KV Cache 作为一等公民管理,支持跨 Pod 迁移和持久化
  3. 拓扑感知调度:理解 TP/PP 的通信拓扑,将相关 Pod 调度到同一 NVLink 域

三、技术深度解析

3.1 架构设计

llm-d 在 Kubernetes 之上构建了四层抽象:

┌─────────────────────────────────────────┐
│           Inference Router              │
├─────────────────────────────────────────┤
│           Inference Pool                │
├─────────────────────────────────────────┤
│           Pod Group Scheduler           │
├─────────────────────────────────────────┤
│           GPU Device Plugin             │
└─────────────────────────────────────────┘

3.2 与 vLLM 的集成

llm-d 并非要取代 vLLM,而是将其作为底层引擎。这种设计让 llm-d 可以灵活支持 vLLM、TensorRT-LLM、DeepSpeed 等不同后端。

3.3 性能数据

根据 llm-d 官方基准测试,在 70B 模型、A100-80GB x 8 的配置下:

指标原生 K8sllm-d提升
TTFT (首Token延迟)450ms120ms73%↓
TPOT (每Token延迟)35ms18ms48%↓
吞吐量 (token/s)1,2003,800217%↑
GPU 利用率45%82%82%↑

四、对行业的影响

4.1 云原生 + AI 的融合加速

llm-d 进入 CNCF,标志着两个趋势的交汇:

  1. Kubernetes 正在从容器编排器进化为AI 操作系统
  2. AI 基础设施正在标准化

4.2 对开发者的意义

未来部署一个大模型服务可能只需要简单的 kubectl apply,然后获得自动扩缩容、零停机滚动更新、多集群联邦调度等能力。

五、实践建议

5.1 何时考虑 llm-d?

适合场景

  • 生产环境部署 7B+ 参数模型
  • 需要多卡并行(TP/PP)的复杂拓扑
  • 对延迟敏感(TTFT < 200ms)的在线服务
  • 多租户共享 GPU 集群的资源隔离需求

暂不适合

  • 小模型(< 7B)单机部署
  • 离线批处理任务
  • 已经深度定制自研调度系统的团队

六、写在最后

llm-d 进入 CNCF,是云原生和 AI 两个领域的重要里程碑。

它解决的不仅是技术问题,更是标准化问题。当 IBM、Google、NVIDIA 等巨头达成一致,意味着 AI 基础设施的碎片化时代正在走向终结。

对于开发者而言,这意味着:

  • 更低的门槛:不需要成为 K8s + CUDA + 模型并行的专家
  • 更好的可移植性:从私有云到公有云,从 A100 到 MI300
  • 更健康的生态:避免被单一厂商锁定

2026 年,Kubernetes 正式迈入 AI 原生时代。而你,准备好迎接这个时代了吗?

复制全文 生成海报 Kubernetes 云原生 AI 大模型 llm-d CNCF

推荐文章

Roop是一款免费开源的AI换脸工具
2024-11-19 08:31:01 +0800 CST
阿里云免sdk发送短信代码
2025-01-01 12:22:14 +0800 CST
JavaScript设计模式:单例模式
2024-11-18 10:57:41 +0800 CST
智慧加水系统
2024-11-19 06:33:36 +0800 CST
Vue3中的v-model指令有什么变化?
2024-11-18 20:00:17 +0800 CST
js一键生成随机颜色:randomColor
2024-11-18 10:13:44 +0800 CST
404错误页面的HTML代码
2024-11-19 06:55:51 +0800 CST
在 Vue 3 中如何创建和使用插件?
2024-11-18 13:42:12 +0800 CST
淘宝npm镜像使用方法
2024-11-18 23:50:48 +0800 CST
聚合支付管理系统
2025-07-23 13:33:30 +0800 CST
Vue3中如何处理组件间的动画?
2024-11-17 04:54:49 +0800 CST
git使用笔记
2024-11-18 18:17:44 +0800 CST
记录一次服务器的优化对比
2024-11-19 09:18:23 +0800 CST
ElasticSearch 结构
2024-11-18 10:05:24 +0800 CST
一些好玩且实用的开源AI工具
2024-11-19 09:31:57 +0800 CST
JS中 `sleep` 方法的实现
2024-11-19 08:10:32 +0800 CST
WebSocket在消息推送中的应用代码
2024-11-18 21:46:05 +0800 CST
Python Invoke:强大的自动化任务库
2024-11-18 14:05:40 +0800 CST
前端如何给页面添加水印
2024-11-19 07:12:56 +0800 CST
程序员茄子在线接单