程序员茄子
全部
编程
代码
资讯
案例
综合
联系我们
html在线编辑
登录注册
AI,自己全程接管维护
php
mysql
shell
go
vue
css
api接口对接
支付接口对接
最新
最热
vLLM 深度实战:当 PagedAttention 终结 GPU 显存浪费——从推理引擎原理到生产级高并发部署的完全指南(2026)
编程
vLLM 深度实战:当 PagedAttention 终结 GPU 显存浪费——从推理引擎原理到生产级高并发部署的完全指南(2026)
2026-06-11 03:16:24 +0800 CST
view 63
深度解析vLLM推理引擎的PagedAttention原理、连续批处理、量化优化,以及从零搭建生产级高并发部署的完整实战指南(2026版)
vLLM
PagedAttention
大模型推理
GPU优化
AI部署
vLLM 0.17 深度实战:PagedAttention与连续批处理如何把GPU吞吐量提升4倍——从KV Cache原理到生产级大模型推理部署完全指南(2026)
编程
vLLM 0.17 深度实战:PagedAttention与连续批处理如何把GPU吞吐量提升4倍——从KV Cache原理到生产级大模型推理部署完全指南(2026)
2026-06-11 03:17:21 +0800 CST
view 64
深度解析vLLM推理引擎的PagedAttention原理、连续批处理、量化优化,以及从零搭建生产级高并发部署的完整实战指南(2026版)
vLLM
PagedAttention
大模型推理
GPU优化
AI部署
llama.cpp 深度实战:从 GGUF 量化到 CUDA 内核优化——纯 C/C++ 如何在 CPU/GPU 上榨出 LLM 推理的极限性能
编程
llama.cpp 深度实战:从 GGUF 量化到 CUDA 内核优化——纯 C/C++ 如何在 CPU/GPU 上榨出 LLM 推理的极限性能
2026-05-23 17:18:22 +0800 CST
view 938
2026年深度拆解 llama.cpp 的核心架构:GGUF 格式原理、20+量化方法对比、KV Cache 优化、多硬件后端性能实测,与 Ollama/vLLM 完整横评。
llama.cpp
GGUF
量化
CUDA
Metal
LLM推理
C++
本地部署
性能优化
GGML
TriAttention深度解析:用三角函数革命性压缩KV Cache,让长推理从「显存地狱」中脱困
编程
TriAttention深度解析:用三角函数革命性压缩KV Cache,让长推理从「显存地狱」中脱困
2026-05-17 04:14:18 +0800 CST
view 245
深入解析MIT韩松团队提出的TriAttention方法,利用Pre-RoPE空间Q/K集中性和三角函数级数实现革命性的KV Cache压缩,在AIME25上以3072 KV budget达到与Full Attention持平的40.8%准确率,同时实现10.7倍KV显存压缩和2.5-6.3倍吞吐量提升。
LLM
KV Cache
TriAttention
MIT
英伟达
浙大
长推理
KV压缩
三角函数
RoPE
Attention优化
【重制版】TriAttention深度解析:三角函数如何让长推理从显存地狱中脱困
编程
【重制版】TriAttention深度解析:三角函数如何让长推理从显存地狱中脱困
2026-05-17 04:14:33 +0800 CST
view 219
深入解析MIT韩松团队提出的TriAttention方法,利用Pre-RoPE空间Q/K集中性和三角函数级数实现革命性的KV Cache压缩,在AIME25上以3072 KV budget达到与Full Attention持平的40.8%准确率,同时实现10.7倍KV显存压缩和2.5-6.3倍吞吐量提升。
LLM
KV Cache
TriAttention
MIT
英伟达
浙大
长推理
KV压缩
三角函数
RoPE
Attention优化
DeepGEMM 深度解析:DeepSeek 开源的 FP8 GEMM 内核如何重塑 AI 推理性能边界
编程
DeepGEMM 深度解析:DeepSeek 开源的 FP8 GEMM 内核如何重塑 AI 推理性能边界
2026-04-21 05:16:09 +0800 CST
view 530
深入剖析 DeepSeek 开源的 DeepGEMM 库:从 FP8 精度革命到 1550 TFLOPS 性能突破,揭秘现代 AI 推理基础设施的底层优化技术
DeepGEMM
FP8
DeepSeek
CUDA
AI推理
GPU优化
GEMM
TensorCore
英特尔至强6 + SambaNova RDU:异构AI推理架构如何重新定义Agentic计算
编程
英特尔至强6 + SambaNova RDU:异构AI推理架构如何重新定义Agentic计算
2026-04-13 14:53:38 +0800 CST
view 437
深度解析英特尔与SambaNova联合发布的商用异构AI推理架构,涵盖三阶段分工、至强6 AMX加速向量数据库70%性能提升、LLVM编译50%加速等核心技术创新
AI推理
异构计算
至强6
SambaNova
Agentic
向量数据库
LLVM
性能优化
vLLM 2026 Q2 路线图深度解析:从 v1 架构重构到九大 SIG 技术演进——生产级 LLM 推理引擎的下一站
编程
vLLM 2026 Q2 路线图深度解析:从 v1 架构重构到九大 SIG 技术演进——生产级 LLM 推理引擎的下一站
2026-05-05 19:01:32 +0800 CST
view 693
深度解析 vLLM 2026年第二季度技术路线图,涵盖 v1 架构核心设计、九大 SIG 技术演进方向、生产级部署实战经验。
vLLM
LLM推理
架构设计
性能优化
DFlash 深度实战:当扩散模型遇上推测解码——从原理到生产级 LLM 推理加速完全指南(2026)
编程
DFlash 深度实战:当扩散模型遇上推测解码——从原理到生产级 LLM 推理加速完全指南(2026)
2026-06-06 01:38:49 +0800 CST
view 149
DFlash(Block Diffusion for Flash Speculative Decoding)是ZLab于2026年提出的LLM推理加速框架,用块扩散模型替代传统自回归草稿模型,实现6倍以上无损加速。
LLM推理加速
推测解码
扩散模型
块扩散
DFlash
ZLab
大模型优化
MELT架构深度解析:高通如何让AI"深度思考"不再耗尽内存——循环Transformer的内存革命
编程
MELT架构深度解析:高通如何让AI"深度思考"不再耗尽内存——循环Transformer的内存革命
2026-05-19 13:46:15 +0800 CST
view 180
高通AI研究院提出的MELT架构通过门控机制让循环Transformer的内存消耗保持恒定,无论思考多少轮。本文深度解析其架构原理、数学推导、训练策略与性能实测。
AI
Transformer
内存优化
深度推理
高通
WebAssembly 2.0 深度实战:当浏览器性能反超原生——从底层原理到生产级应用的完全指南(2026)
编程
WebAssembly 2.0 深度实战:当浏览器性能反超原生——从底层原理到生产级应用的完全指南(2026)
2026-06-09 10:19:41 +0800 CST
view 83
2026年 WebAssembly 2.0 正式落地,浏览器性能反超原生应用。本文深入剖析 Wasm 2.0 的 GC 原生支持、多线程、SIMD、WASI 等核心能力,通过 Rust 实战代码展示图像处理、AI 推理、边缘计算等生产级应用场景,并给出详细的性能基准测试数据。
WebAssembly
WASM 2.0
Rust
性能优化
多线程
GC
边缘计算
AI推理
浏览器
小米MiMo-V2.5-Pro-UltraSpeed深度实战:当万亿参数模型突破1000 Tokens/s——从全链路优化到生产级推理加速的完全指南(2026)
编程
小米MiMo-V2.5-Pro-UltraSpeed深度实战:当万亿参数模型突破1000 Tokens/s——从全链路优化到生产级推理加速的完全指南(2026)
2026-06-09 13:18:45 +0800 CST
view 319
深度解析小米MiMo-V2.5-Pro-UltraSpeed如何在通用GPU上实现1000 Tokens/s的推理速度,包括FP4量化、DFlash解码引擎、TileRT执行系统等核心技术。
AI
推理加速
大模型
小米
GPU优化
DFlash 深度实战:块扩散投机解码革命——让 Qwen3-8B 推理速度暴增 6.17 倍的技术全景(2026 完全指南)
编程
DFlash 深度实战:块扩散投机解码革命——让 Qwen3-8B 推理速度暴增 6.17 倍的技术全景(2026 完全指南)
2026-05-30 20:43:16 +0800 CST
view 191
DFlash 通过将块扩散模型引入投机解码,实现6.17倍无损推理加速。本文从原理、架构、数学推导、代码实战到生产部署,全方位解析这项颠覆性技术。
AI
大模型推理
DFlash
投机解码
块扩散
Qwen3
性能优化
TensorRT-LLM 深度实战:从 Blackwell 架构到 INT4 量化的 LLM 推理性能革命
编程
TensorRT-LLM 深度实战:从 Blackwell 架构到 INT4 量化的 LLM 推理性能革命
2026-05-22 06:19:51 +0800 CST
view 281
深入解析TensorRT-LLM推理框架,从Paged KV Cache、连续批处理到INT4/INT8/FP8量化实战,覆盖Blackwell架构适配、Triton部署与K8s生产方案
TensorRT-LLM
LLM推理
量化
INT4
Blackwell
GPU优化
Google AI Edge Gallery:手机离线跑大模型时代来了,2.2万Star端侧AI神器
案例
Google AI Edge Gallery:手机离线跑大模型时代来了,2.2万Star端侧AI神器
2026-05-09 07:36:45 +0800 CST
view 444
Google开源AI神器AI Edge Gallery斩获2.2万Star,支持iOS和Android手机离线运行Gemma 4等大模型,提供AI Chat、Ask Image、Audio Scribe、Agent Skills四大功能,消费级入口形态让普通用户轻松体验端侧AI
端侧AI
手机大模型
离线推理
Gemma 4
Google开源
iOS
Android
BrickNet开源:AI玩乐高不再翻车,连接图让积木组装零误差
案例
BrickNet开源:AI玩乐高不再翻车,连接图让积木组装零误差
2026-05-09 07:38:19 +0800 CST
view 255
BrickNet开源项目:用连接图替代绝对坐标预测,解决AI乐高组装的误差累积问题。基于Qwen 3训练,标注五种连接器类型,使用32万+组装样本数据集,生成物理可行的分步组装程序,可直接用于机器人执行
AI乐高
连接图生成
3D组装
Qwen 3
结构推理
LDraw
机器人组装
DeepSeek 专家模式深度解析:当低调更新成为AGI赛道的产品哲学宣言
编程
DeepSeek 专家模式深度解析:当低调更新成为AGI赛道的产品哲学宣言
2026-04-09 10:23:56 +0800 CST
view 478
2026年4月8日,DeepSeek悄然上线「专家模式」,无发布会无公告,却被业内视为V4发布前最有分量的产品预告。本文深度拆解双模式技术架构差异,实测数理推理、专业编程、创意写作三大场景,并解读这一低调更新背后的产品哲学与行业信号。
DeepSeek
AI大模型
V4
专家模式
推理模型
产品设计
国产AI
场景分层
边缘AI推理深度实战:当推理成为AI落地的"最后一公里"——从TinyML到生产级边缘部署的完全指南(2026)
编程
边缘AI推理深度实战:当推理成为AI落地的"最后一公里"——从TinyML到生产级边缘部署的完全指南(2026)
2026-06-10 16:46:50 +0800 CST
view 68
深入剖析边缘AI推理的技术原理、工具链、优化方法与生产实战,涵盖TinyML、ONNX Runtime、模型压缩、边缘硬件加速等内容。
边缘AI
TinyML
ONNX Runtime
模型压缩
边缘推理
WebAssembly 2.0 深度实战:当「浏览器虚拟机」进化为「全栈运行时」——从 GC 原语到 WASI Preview2 生产级完全指南(2026)
编程
WebAssembly 2.0 深度实战:当「浏览器虚拟机」进化为「全栈运行时」——从 GC 原语到 WASI Preview2 生产级完全指南(2026)
2026-06-10 21:18:02 +0800 CST
view 56
2026年WebAssembly 2.0标准正式落地,从浏览器性能优化工具彻底蜕变为通用跨平台运行时。本文深入解析GC原语、SIMD增强、WASI Preview2、Component Model四大核心特性,配以完整代码示例和生产级部署指南。
WebAssembly,Rust,Go,AI推理,Wasmtime,WASI,后端,跨平台
Docker 27「Orion」深度解析:原生 AI 调度时代来临——GPU 拓扑感知、NUMA 绑定与容器化大模型部署新范式
编程
Docker 27「Orion」深度解析:原生 AI 调度时代来临——GPU 拓扑感知、NUMA 绑定与容器化大模型部署新范式
2026-05-10 00:41:20 +0800 CST
view 242
Docker 27 Orion深度解析:GPU拓扑感知调度与PCIe/NVLink自动绑定、NUMA内存带宽限制、dockerd-scheduler AI调度代理、docker ai run零配置LLM部署、Dockerfile.ai模型封装语法、OOM Killer五步防御、cgroups v2集成与生产环境避坑指南
Docker
容器化
GPU调度
NUMA
AI推理
LLM
docker-compose
cgroups
Dockerfile
NVIDIA
llama.cpp 深度实战:当端侧 LLM 成为生产级事实标准——从 GGUF 量化到跨平台部署的完全指南(2026)
编程
llama.cpp 深度实战:当端侧 LLM 成为生产级事实标准——从 GGUF 量化到跨平台部署的完全指南(2026)
2026-06-11 00:19:05 +0800 CST
view 45
全面解析 llama.cpp 推理引擎,从 GGUF 格式、量化原理、架构设计到跨平台部署,提供生产级代码实战和性能优化指南。
llama.cpp
GGUF
量化
端侧推理
大语言模型
LiteRT-LM:Google端侧大模型推理引擎的革命性架构——从TensorFlow Lite的困境到LLM原生推理的全链路解析
编程
LiteRT-LM:Google端侧大模型推理引擎的革命性架构——从TensorFlow Lite的困境到LLM原生推理的全链路解析
2026-04-19 22:17:39 +0800 CST
view 597
深入解析Google LiteRT-LM端侧LLM推理引擎的核心架构:分层内存池、KV Cache量化、算子融合、WebGPU运行时。与TensorFlow Lite、llama.cpp、MLX横向对比,提供生产级部署实战指南。
Google
端侧AI
LiteRT-LM
WebGPU
量化
KV Cache
TensorFlow Lite
LLM推理
ds4 深度实战:当 Redis 之父用纯 C 重写本地推理引擎——从 KV 缓存磁盘持久化到 Metal 极致优化的完全指南
编程
ds4 深度实战:当 Redis 之父用纯 C 重写本地推理引擎——从 KV 缓存磁盘持久化到 Metal 极致优化的完全指南
2026-06-11 07:51:35 +0800 CST
view 60
Redis之父antirez新作ds4深度解析:非对称2-bit量化、KV缓存磁盘持久化、Metal极致优化,284B模型在MacBook上跑出26 tok/s的完全指南
ds4
DeepSeek
本地推理
Metal
KV缓存
量化
antirez
Redis
当 Apple Silicon 遇上视觉大模型:MLX-VLM 如何把「本地多模态推理」变成现实
编程
当 Apple Silicon 遇上视觉大模型:MLX-VLM 如何把「本地多模态推理」变成现实
2026-04-11 10:24:48 +0800 CST
view 619
深度解析 Apple Silicon 上的视觉语言模型推理引擎 MLX-VLM,涵盖架构设计、模型支持、性能优化与实战部署。
Apple Silicon
MLX
视觉语言模型
VLM
Mac本地AI
多模态推理
大家都在搜索什么?
devops
易支付
一个官网+多少钱
统一接受回调
统一回调
sub
node
宝塔日志
mysql
shell
ElasticSearch
css
vue
api接口对接
2025
支付接口对接
go
php
php回调
回调
上一页
1
2
3
4
...
22
下一页