程序员茄子
全部
编程
代码
资讯
案例
综合
联系我们
html在线编辑
登录注册
AI,自己全程接管维护
php
mysql
shell
go
vue
css
api接口对接
支付接口对接
最新
最热
2026 年 vLLM 推理服务实战:PagedAttention 原理、分布式部署与性能调优完全指南
编程
2026 年 vLLM 推理服务实战:PagedAttention 原理、分布式部署与性能调优完全指南
2026-06-08 22:53:03 +0800 CST
view 185
深度解析vLLM推理框架的核心原理、PagedAttention创新机制、分布式推理架构,以及生产环境部署的最佳实践。
vLLM
PagedAttention
LLM推理
KV缓存
分布式推理
LLM 推理优化全景实战:从 PagedAttention 到投机解码——让大模型推理成本下降 70% 的技术革命(2026)
编程
LLM 推理优化全景实战:从 PagedAttention 到投机解码——让大模型推理成本下降 70% 的技术革命(2026)
2026-05-30 15:42:55 +0800 CST
view 299
深度解析 LLM 推理优化的核心技术:PagedAttention 内存管理革命、投机解码加速策略、INT4/FP8 量化技术、MoE 架构优化,从架构原理到代码实战,让大模型推理成本下降 70%。
LLM
推理优化
vLLM
PagedAttention
投机解码
量化
MoE
LLM 推理的显存战争:从 PagedAttention 到统一内存架构——KV Cache 管理五世代深度解析(2026)
编程
LLM 推理的显存战争:从 PagedAttention 到统一内存架构——KV Cache 管理五世代深度解析(2026)
2026-06-15 11:18:23 +0800 CST
view 212
深度解析大模型推理中 KV Cache 管理的五世代演进:从连续分配到 PagedAttention,再到异构缓存、分布式 KV 和统一混合内存架构。结合 vLLM、SGLang、TensorRT-LLM 给出生产环境选型指南。
LLM
大模型
KVCache
PagedAttention
vLLM
SGLang
TensorRT
推理优化
显存管理
分布式
SGLang vs vLLM:2026年大模型推理框架深度对比与选型指南
编程
SGLang vs vLLM:2026年大模型推理框架深度对比与选型指南
2026-04-08 15:51:53 +0800 CST
view 1590
深度对比SGLang与vLLM两大LLM推理框架,从架构设计、核心原理、性能实测、适用场景多维度解析,附2026年选型建议
LLM
SGLang
vLLM
推理优化
大模型
分布式 LLM 推理架构深度实战:从 vLLM 单节点到 llm-d 多集群的生产级演进全链路解析
编程
分布式 LLM 推理架构深度实战:从 vLLM 单节点到 llm-d 多集群的生产级演进全链路解析
2026-05-09 03:39:58 +0800 CST
view 491
深度解析分布式 LLM 推理架构,从 vLLM 单节点到 llm-d 多集群的生产级演进。涵盖推理引擎层、编排调度层、Kubernetes 多机多卡部署实战、性能优化技巧及成本优化策略。
LLM
vLLM
分布式推理
Kubernetes
Ray
推理引擎
百度 Unlimited OCR 开源:用常数级 KV Cache 一次性吃下整本书
编程
百度 Unlimited OCR 开源:用常数级 KV Cache 一次性吃下整本书
2026-06-29 06:14:12 +0800 CST
view 71
百度开源 Unlimited OCR 模型,用常数级 KV Cache 解决长文档识别难题。30亿参数端到端架构,推理仅激活5亿参数,单次前向识别几十页文档,OmniDocBench v1.6 总分93.92%刷新SOTA。
OCR
开源
百度
DeepSeek
端到端
长文档
Go 1.24 深度解析:Swiss Tables 革新 map 性能、泛型类型别名解禁、weak 包登场
编程
Go 1.24 深度解析:Swiss Tables 革新 map 性能、泛型类型别名解禁、weak 包登场
2026-04-28 16:23:21 +0800 CST
view 413
深入解析 Go 1.24 重大更新:Swiss Tables 让 map 性能提升 20-30%、泛型类型别名八年解禁、weak 包和 runtime.AddCleanup 登场、FIPS 140-3 合规与后量子加密标准库支持。附完整代码示例与迁移指南。
Go
map
Swiss Tables
泛型
标准库
后量子
FIPS140
weak
runtime
crypto
DeepSeek 专家模式深度解析:当低调更新成为AGI赛道的产品哲学宣言
编程
DeepSeek 专家模式深度解析:当低调更新成为AGI赛道的产品哲学宣言
2026-04-09 10:23:56 +0800 CST
view 589
2026年4月8日,DeepSeek悄然上线「专家模式」,无发布会无公告,却被业内视为V4发布前最有分量的产品预告。本文深度拆解双模式技术架构差异,实测数理推理、专业编程、创意写作三大场景,并解读这一低调更新背后的产品哲学与行业信号。
DeepSeek
AI大模型
V4
专家模式
推理模型
产品设计
国产AI
场景分层
DSpark:DeepSeek联手北大「投机解码」登顶,推理速度飙升85%背后真相
编程
DSpark:DeepSeek联手北大「投机解码」登顶,推理速度飙升85%背后真相
2026-06-29 13:45:21 +0800 CST
view 77
深度解析DeepSeek联合北京大学发布的DSpark置信度调度投机解码框架,剖析半自回归候选生成、动态验证调度、硬件感知前缀缓存三大核心创新
DeepSeek
DSpark
投机解码
大模型推理
置信度调度
Speculative Decoding
DeepSeek+Runway联合工作流:1小时出4K电影级短片,手把手保姆级教程
编程
DeepSeek+Runway联合工作流:1小时出4K电影级短片,手把手保姆级教程
2026-04-29 12:18:40 +0800 CST
view 458
DeepSeek写分镜脚本+Runway生图生视频,1小时完成从想法到4K电影级成片的完整工作流。无需拍摄、无需演员、不用专业剪辑,手把手保姆级教程含避坑指南和3个爆款模板。
AI视频
DeepSeek
Runway
4K视频
分镜脚本
短视频创作
AI工作流
AIGC
影视制作
DeepSeek V4 Flash 深度解析:284B总参、13B激活的MoE开源模型,凭什么成为2026年度「性价比之王」?
编程
DeepSeek V4 Flash 深度解析:284B总参、13B激活的MoE开源模型,凭什么成为2026年度「性价比之王」?
2026-06-29 22:12:39 +0800 CST
view 52
深度解析DeepSeek V4 Flash架构:CSA/HCA混合注意力、MoE细粒度路由、DSpark推测解码技术,附完整部署代码与Benchmark对比
DeepSeek
V4
MoE
开源模型
AI推理
DSpark
CSA
大模型
DeepSeek V4 专家模式深度解析:当国产大模型终于学会「分场景思考」
编程
DeepSeek V4 专家模式深度解析:当国产大模型终于学会「分场景思考」
2026-04-10 07:21:56 +0800 CST
view 639
DeepSeek V4专家模式深度解析:双模式架构、LTM长期记忆技术、6710亿参数、场景分层设计,标志着国产大模型从参数比拼转向精细化竞争
DeepSeek
V4
专家模式
国产大模型
AI
TileKernels 深度解析:DeepSeek 用 80 行代码榨干 GPU,算子开发范式的降维打击
编程
TileKernels 深度解析:DeepSeek 用 80 行代码榨干 GPU,算子开发范式的降维打击
2026-04-30 03:22:15 +0800 CST
view 627
深度解析 DeepSeek 开源的高性能 GPU 算子库 TileKernels:基于 TileLang DSL 用 80 行代码实现手写 CUDA 级性能,覆盖 MoE Gating/Routing、FP8/FP4 量化、Engram 门控等七大算子家族,首次原生支持 NVIDIA Blackwell 架构,并通过 TVM 编译器打通昇腾等国产芯片。
DeepSeek
TileKernels
GPU
CUDA
TileLang
MoE
算子优化
ds4 深度实战:当 Redis 之父用纯 C 重写本地推理引擎——从 KV 缓存磁盘持久化到 Metal 极致优化的完全指南
编程
ds4 深度实战:当 Redis 之父用纯 C 重写本地推理引擎——从 KV 缓存磁盘持久化到 Metal 极致优化的完全指南
2026-06-11 07:51:35 +0800 CST
view 259
Redis之父antirez新作ds4深度解析:非对称2-bit量化、KV缓存磁盘持久化、Metal极致优化,284B模型在MacBook上跑出26 tok/s的完全指南
ds4
DeepSeek
本地推理
Metal
KV缓存
量化
antirez
Redis
DeepSeek V4 Flash 深度解析:开源大模型的 Agent 时代新范式
编程
DeepSeek V4 Flash 深度解析:开源大模型的 Agent 时代新范式
2026-06-30 09:16:27 +0800 CST
view 46
深度解析 DeepSeek V4 Flash 的 Ultra-MoE、CSA+HCA 混合注意力、mHC 流形约束、Engram 条件记忆四大架构创新,以及 DSpark 投机解码带来的 60-85% 推理加速。涵盖 SWE-bench 79% 性能分析、API 调用实战与部署方案。
DeepSeek
V4 Flash
MoE
开源大模型
AI Agent
PostgreSQL 19 深度实战:当关系数据库遇见图查询、时态操作与在线重组织——从SQL/PGQ属性图到并行自动清理、原子UPSERT的生产级完全指南(2026)
编程
PostgreSQL 19 深度实战:当关系数据库遇见图查询、时态操作与在线重组织——从SQL/PGQ属性图到并行自动清理、原子UPSERT的生产级完全指南(2026)
2026-06-17 04:52:56 +0800 CST
view 148
PostgreSQL 19深度解读:SQL/PGQ属性图查询、ON CONFLICT DO SELECT原子UPSERT、FOR PORTION OF时态操作、REPACK在线重组织、并行自动清理、原生JSON导出等核心新特性完全指南。
PostgreSQL 19
SQL/PGQ
图查询
时态数据
在线重组织
并行VACUUM
UPSERT
DeepSeek V4 Flash 深度解析:MoE架构如何重塑大模型推理效率
编程
DeepSeek V4 Flash 深度解析:MoE架构如何重塑大模型推理效率
2026-06-30 09:46:12 +0800 CST
view 60
2026年,大模型战场迎来最激烈的性能竞赛。DeepSeek V4 Flash以2840亿总参数、130亿激活参数、百万token上下文支持,横扫开源模型性能榜单。本文从开发者视角出发,深入剖析其MoE架构设计、推理优化策略、国产算力适配,以及如何在实际项目中用好这个'性价比之王'。
MoE架构
DeepSeek
V4 Flash
大模型
AI推理
开源模型
Python
代码优化
1.6万亿参数,1M上下文,仅需27%算力:DeepSeek-V4-Pro 如何重新定义长文本推理
编程
1.6万亿参数,1M上下文,仅需27%算力:DeepSeek-V4-Pro 如何重新定义长文本推理
2026-05-11 10:53:54 +0800 CST
view 449
DeepSeek-V4-Pro 以 1.6T 总参数、49B 激活参数的 MoE 架构,原生支持 100 万 token 上下文,同时将推理算力降至 V3.2 的 27%、KV Cache 降至 10%。本文深度解析 CSA/HCA 混合注意力机制、mHC 流形约束超连接、KV Cache 极致优化、Muon 优化器等核心技术创新,以及如何在 Ollama、vLLM、官方 API 三种方式下部署运行。
DeepSeek-V4,MoE架构,CSA注意力,HCA注意力,KV Cache,1M上下文,长文本推理,开源大模型
DeepSeek-TUI 深度解析:Rust 打造的终端 AI 编程 Agent——从 1M 上下文到 RLM 多智能体并发的完整技术架构
编程
DeepSeek-TUI 深度解析:Rust 打造的终端 AI 编程 Agent——从 1M 上下文到 RLM 多智能体并发的完整技术架构
2026-05-17 07:14:51 +0800 CST
view 413
深度拆解 DeepSeek-TUI:99.3% Rust 编写的终端 AI 编程 Agent,1M 上下文、RLM 多智能体并发、前缀缓存优化、OS 级沙箱的完整技术架构与实战指南
DeepSeek
AI编程
Rust
终端Agent
开源项目
DeepGEMM 深度解析:DeepSeek 开源的 FP8 GEMM 内核如何重塑 AI 推理性能边界
编程
DeepGEMM 深度解析:DeepSeek 开源的 FP8 GEMM 内核如何重塑 AI 推理性能边界
2026-04-21 05:16:09 +0800 CST
view 656
深入剖析 DeepSeek 开源的 DeepGEMM 库:从 FP8 精度革命到 1550 TFLOPS 性能突破,揭秘现代 AI 推理基础设施的底层优化技术
DeepGEMM
FP8
DeepSeek
CUDA
AI推理
GPU优化
GEMM
TensorCore
ds4 深度解析:当 Redis 之父用 C 语言手写 AI 推理引擎——从「窄而深」哲学到把 284B 模型塞进一台 MacBook 的技术全拆解
编程
ds4 深度解析:当 Redis 之父用 C 语言手写 AI 推理引擎——从「窄而深」哲学到把 284B 模型塞进一台 MacBook 的技术全拆解
2026-06-12 18:19:08 +0800 CST
view 243
深度解析 Redis 之父 antirez 最新开源项目 ds4(DwarfStar):一个纯 C 语言手写的 DeepSeek V4 Flash 本地推理引擎。从「窄而深」的工程哲学、非对称 2-bit 量化、磁盘 KV 缓存、Metal/CUDA 内核优化到实际部署,完整拆解这个 13K+ Star 项目的技术内幕。
AI推理引擎
DeepSeek
本地推理
系统编程
开源项目
C语言
英伟达免费开放H100算力:DeepSeek、Kimi、GLM等主流大模型API免费用
编程
英伟达免费开放H100算力:DeepSeek、Kimi、GLM等主流大模型API免费用
2026-04-21 13:09:34 +0800 CST
view 1741
英伟达Build平台免费开放H100算力和主流大模型API,支持DeepSeek、Kimi、GLM等,3步拿到Key,代码对接OpenAI格式即可使用。
NVIDIA
大模型
免费API
DeepSeek
Kimi
MoE架构深度实战:当模型参数突破万亿——从DeepSeek R2到GPT-5的稀疏激活革命(2026完全指南)
编程
MoE架构深度实战:当模型参数突破万亿——从DeepSeek R2到GPT-5的稀疏激活革命(2026完全指南)
2026-06-26 00:46:56 +0800 CST
view 77
2026年,大语言模型的参数量已经突破1.2万亿(DeepSeek R2),但推理时的计算量只相当于200亿参数的稠密模型。这背后的核心技术就是Mixture of Experts(MoE)架构。本文深度解析MoE的核心原理、工程实现、负载均衡策略,以及DeepSeek R2和GPT-5中的最新优化技巧。包含完整的PyTorch代码实战,从零实现MoE层。
MoE架构
混合专家
DeepSeek R2
稀疏激活
门控网络
负载均衡
大模型推理
细粒度MoE
共享专家
GPT-5
ds4.c 深度解析:Redis之父如何用纯C代码在MacBook上跑通284B大模型——从不对称量化到KV缓存磁盘化的完整技术内幕
编程
ds4.c 深度解析:Redis之父如何用纯C代码在MacBook上跑通284B大模型——从不对称量化到KV缓存磁盘化的完整技术内幕
2026-05-18 06:15:03 +0800 CST
view 501
Redis之父antirez开源ds4.c项目深度解析:用纯C语言在MacBook上运行284B参数大模型,不对称2-bit量化、KV缓存磁盘化、OpenAI/Anthropic API兼容,打造首个真正的本地Agent推理后端
AI推理
本地大模型
Redis
Apple Silicon
DeepSeek
大家都在搜索什么?
devops
易支付
一个官网+多少钱
统一接受回调
统一回调
sub
node
宝塔日志
mysql
shell
ElasticSearch
css
vue
api接口对接
2025
支付接口对接
go
php
php回调
回调
上一页
1
...
3
4
5
6
7
...
32
下一页