程序员茄子
全部
编程
代码
资讯
案例
综合
联系我们
html在线编辑
登录注册
AI,自己全程接管维护
php
mysql
shell
go
vue
css
api接口对接
支付接口对接
最新
最热
Serial Scaling Hypothesis 深度解析:当 GPU 遇上「天生串行」问题——从复杂度理论到 AI 推理新范式的完全指南(2026)
编程
Serial Scaling Hypothesis 深度解析:当 GPU 遇上「天生串行」问题——从复杂度理论到 AI 推理新范式的完全指南(2026)
2026-06-15 13:52:24 +0800 CST
view 46
深度解析 ICLR 2026 论文 Serial Scaling Hypothesis:为什么某些问题堆再多 GPU 也无法加速?从复杂度理论揭示 AI 推理新范式,探讨 Chain-of-Thought、推理时计算的工程实践。
AI
深度学习
推理时计算
复杂度理论
ICLR2026
Zig 0.16.0 深度解析:无隐藏魔法的系统编程革命——std.Io、io_uring、编译时计算全面进化
编程
Zig 0.16.0 深度解析:无隐藏魔法的系统编程革命——std.Io、io_uring、编译时计算全面进化
2026-05-14 08:41:49 +0800 CST
view 328
Zig 0.16.0发布:std.Io跨平台异步I/O框架、Linux io_uring原生支持2.5倍性能提升、macOS GCD集成、编译时计算增强、与Rust/C横向对比选型、高性能HTTP服务器实战。
Zig
系统编程
io_uring
编译时计算
Pathway 深度解析:用 Python 搞定实时流处理+LLM Pipeline,55K Star 背后的技术革命
编程
Pathway 深度解析:用 Python 搞定实时流处理+LLM Pipeline,55K Star 背后的技术革命
2026-05-15 20:44:26 +0800 CST
view 249
Pathway深度解析:Python ETL框架,实时流处理+LLM Pipeline,增量计算引擎,性能对比Flink,完整代码实战。
Pathway
流处理
LLM
Python
ETL
RAG
实时计算
小米 MiMo UltraSpeed 深度解析:当 SWA 架构重塑 LLM 推理——从 O(n²) 困境到 1000 tokens/s 的极致跨越
编程
小米 MiMo UltraSpeed 深度解析:当 SWA 架构重塑 LLM 推理——从 O(n²) 困境到 1000 tokens/s 的极致跨越
2026-06-15 21:20:49 +0800 CST
view 37
深入解析小米MiMo UltraSpeed如何通过SWA架构在通用GPU上突破1000 tokens/s推理速度,从O(n²)困境到极致跨越的完整技术指南。
SWA
Sliding Window Attention
LLM推理
小米MiMo
推理优化
Transformer
PagedAttention
量化推理
端侧AI
vLLM 深度实战:当 PagedAttention 遇上生产级 LLM 推理——从内存革命到分布式部署的完全指南(2026)
编程
vLLM 深度实战:当 PagedAttention 遇上生产级 LLM 推理——从内存革命到分布式部署的完全指南(2026)
2026-06-10 10:17:56 +0800 CST
view 100
深度解析 vLLM 的核心架构 PagedAttention 和 Continuous Batching,从内存管理原理到生产级分布式部署的完全指南。
vLLM
LLM推理
PagedAttention
GPU优化
大模型部署
AI推理
Redis之父antirez亲自下场!为DeepSeek V4 Flash打造专属推理引擎,Mac上跑出468 token/s
案例
Redis之父antirez亲自下场!为DeepSeek V4 Flash打造专属推理引擎,Mac上跑出468 token/s
2026-05-10 08:40:22 +0800 CST
view 535
Redis之父antirez亲自下场!为DeepSeek V4 Flash打造专属推理引擎ds4.c,C+Metal从头编写,Mac Studio M3 Ultra上预填充468 token/s。关键优化:非对称量化(MoE专家层2-bit)、KV缓存搬硬盘、内置OpenAI/Anthropic双API。128GB Mac可跑,专为coding agent优化。
DeepSeek
AI推理
Mac
Redis
antirez
Metal
本地推理
MoE
GGUF
C语言
Apple Silicon
Claude Code
OpenAI API
Anthropic API
DiffusionGemma 深度实战:当 Google 用「扩散」颠覆自回归——从离散文本扩散原理到 MoE 架构、本地推理加速与生产级部署的完全指南(2026)
编程
DiffusionGemma 深度实战:当 Google 用「扩散」颠覆自回归——从离散文本扩散原理到 MoE 架构、本地推理加速与生产级部署的完全指南(2026)
2026-06-16 18:52:52 +0800 CST
view 29
Google DeepMind联合NVIDIA发布DiffusionGemma——基于离散文本扩散的实验性开源模型。本文深入解读26B MoE架构、双向注意力机制、本地推理4倍加速原理,附完整代码示例和部署实战。
Google
DiffusionGemma
扩散模型
MoE
开源LLM
本地推理
AI推理加速
DFlash 深度实战:块扩散模型如何实现 6 倍无损加速——从自回归瓶颈到并行生成的范式跃迁
编程
DFlash 深度实战:块扩散模型如何实现 6 倍无损加速——从自回归瓶颈到并行生成的范式跃迁
2026-05-23 11:16:44 +0800 CST
view 243
深度解析UC San Diego Z Lab提出的DFlash(Block Diffusion for Flash Speculative Decoding),详解块扩散草稿模型如何突破自回归瓶颈,在Qwen3-8B上实现6倍无损加速的架构原理、训练方法与生产级实战代码
LLM推理,投机解码,块扩散模型,大模型加速,DFlash,Speculative Decoding,UC San Diego,PyTorch,深度学习,AI推理优化
ds4 深度解析:当 Redis 之父用 C 语言手写 AI 推理引擎——从「窄而深」哲学到把 284B 模型塞进一台 MacBook 的技术全拆解
编程
ds4 深度解析:当 Redis 之父用 C 语言手写 AI 推理引擎——从「窄而深」哲学到把 284B 模型塞进一台 MacBook 的技术全拆解
2026-06-12 18:19:08 +0800 CST
view 101
深度解析 Redis 之父 antirez 最新开源项目 ds4(DwarfStar):一个纯 C 语言手写的 DeepSeek V4 Flash 本地推理引擎。从「窄而深」的工程哲学、非对称 2-bit 量化、磁盘 KV 缓存、Metal/CUDA 内核优化到实际部署,完整拆解这个 13K+ Star 项目的技术内幕。
AI推理引擎
DeepSeek
本地推理
系统编程
开源项目
C语言
vLLM 深度解析:LLM 推理性能的终极引擎——从 PagedAttention 到生产级部署的完整技术内幕
编程
vLLM 深度解析:LLM 推理性能的终极引擎——从 PagedAttention 到生产级部署的完整技术内幕
2026-05-18 08:22:35 +0800 CST
view 415
全面解析 vLLM 推理引擎的核心架构,从 PagedAttention 原理到生产级部署实战,涵盖量化推理、多GPU并行、性能调优等完整技术栈
vLLM
LLM推理
PagedAttention
GPU优化
量化推理
深度解析
Microsoft BitNet 深度实战:1比特大模型推理框架——让CPU跑起千亿参数模型的技术革命(2026完全指南)
编程
Microsoft BitNet 深度实战:1比特大模型推理框架——让CPU跑起千亿参数模型的技术革命(2026完全指南)
2026-05-26 12:35:43 +0800 CST
view 182
深入解析 Microsoft BitNet 1比特大模型推理框架,从原理到实战,让CPU跑起千亿参数模型。包含完整代码示例、性能优化策略和应用场景分析。
BitNet
模型量化
大模型推理
CPU推理
1-bit LLM
DFlash 深度解析:块扩散模型如何让 LLM 推理加速 6 倍——2026 投机解码完全指南
编程
DFlash 深度解析:块扩散模型如何让 LLM 推理加速 6 倍——2026 投机解码完全指南
2026-05-28 19:39:07 +0800 CST
view 308
深入解析 DFlash 块扩散投机解码方案:如何让 Qwen3-8B 实现 6 倍无损加速,超越 EAGLE-3 与 llama.cpp,附 SGLang/vLLM/MLX 完整部署指南。
LLM推理
投机解码
块扩散
DFlash
推理加速
Transformer优化
GPU
CUDA
SGLang
vLLM
vLLM 深度实战:当 LLM 推理遇上 PagedAttention——从 KV 缓存管理到生产级高并发服务的完全指南(2026)
编程
vLLM 深度实战:当 LLM 推理遇上 PagedAttention——从 KV 缓存管理到生产级高并发服务的完全指南(2026)
2026-06-08 22:52:24 +0800 CST
view 123
深度解析vLLM推理框架的核心原理、PagedAttention创新机制、分布式推理架构,以及生产环境部署的最佳实践。
vLLM
PagedAttention
LLM推理
KV缓存
分布式推理
2026 年 vLLM 推理服务实战:PagedAttention 原理、分布式部署与性能调优完全指南
编程
2026 年 vLLM 推理服务实战:PagedAttention 原理、分布式部署与性能调优完全指南
2026-06-08 22:53:03 +0800 CST
view 86
深度解析vLLM推理框架的核心原理、PagedAttention创新机制、分布式推理架构,以及生产环境部署的最佳实践。
vLLM
PagedAttention
LLM推理
KV缓存
分布式推理
分布式 LLM 推理架构深度实战:从 vLLM 单节点到 llm-d 多集群的生产级演进全链路解析
编程
分布式 LLM 推理架构深度实战:从 vLLM 单节点到 llm-d 多集群的生产级演进全链路解析
2026-05-09 03:39:58 +0800 CST
view 395
深度解析分布式 LLM 推理架构,从 vLLM 单节点到 llm-d 多集群的生产级演进。涵盖推理引擎层、编排调度层、Kubernetes 多机多卡部署实战、性能优化技巧及成本优化策略。
LLM
vLLM
分布式推理
Kubernetes
Ray
推理引擎
WebAssembly 深度实战:从浏览器端 AI 推理到 Serverless 容器——2026 年 WASM 如何重塑云原生与前端边界
编程
WebAssembly 深度实战:从浏览器端 AI 推理到 Serverless 容器——2026 年 WASM 如何重塑云原生与前端边界
2026-05-02 09:03:59 +0800 CST
view 540
从 Component Model 到 WASI Preview 2,从浏览器端 Qwen3-ASR 部署到 WASM Serverless 微服务,深度拆解 2026 年 WebAssembly 如何重塑云原生与前端边界
WebAssembly
WASM
Serverless
云原生
Rust
AI推理
边缘计算
Component Model
WASI
英特尔至强6 + SambaNova RDU:异构AI推理架构如何重新定义Agentic计算
编程
英特尔至强6 + SambaNova RDU:异构AI推理架构如何重新定义Agentic计算
2026-04-13 14:53:38 +0800 CST
view 457
深度解析英特尔与SambaNova联合发布的商用异构AI推理架构,涵盖三阶段分工、至强6 AMX加速向量数据库70%性能提升、LLVM编译50%加速等核心技术创新
AI推理
异构计算
至强6
SambaNova
Agentic
向量数据库
LLVM
性能优化
WebAssembly 2.0 深度实战:当 Wasm 撕掉「浏览器插件」标签,从游戏引擎到 AI 推理的全面入侵(2026)
编程
WebAssembly 2.0 深度实战:当 Wasm 撕掉「浏览器插件」标签,从游戏引擎到 AI 推理的全面入侵(2026)
2026-06-13 17:24:12 +0800 CST
view 102
深度拆解 WebAssembly 2.0 核心特性:GC 支持、SIMD 增强、异常处理标准化、Component Model。从浏览器到边缘计算,从 AI 推理到 Serverless 运行时,全方位实战指南。
WebAssembly
Wasm 2.0
WASI
Serverless
AI推理
Component Model
SIMD
Rust
JavaScript
边缘计算
Cloudflare Workers AI 模型绑定深度剖析:从架构内幕到生产级部署的完整指南(2026)
编程
Cloudflare Workers AI 模型绑定深度剖析:从架构内幕到生产级部署的完整指南(2026)
2026-05-26 13:10:20 +0800 CST
view 234
深度剖析 Cloudflare Workers AI 的模型绑定机制、边缘推理架构内幕,以及生产级部署中最实用的优化策略与避坑指南。
Cloudflare
Workers AI
边缘计算
AI推理
Serverless
模型部署
低延迟
2026
BitNet b1.58 深度解析:微软如何用1.58位量化颠覆大模型推理范式
编程
BitNet b1.58 深度解析:微软如何用1.58位量化颠覆大模型推理范式
2026-04-23 19:09:57 +0800 CST
view 394
深度解析微软开源的BitNet b1.58 2B4T模型,从1.58位三值量化原理、架构设计、性能对比到部署实战,全面剖析这个仅需0.4GB内存、在普通CPU上流畅运行的革命性大语言模型。
BitNet
量化
大模型
微软
CPU推理
边缘计算
腾讯混元 Hy3 preview 开源:295B 参数、推理提效 40%,姚顺雨首秀交卷
资讯
腾讯混元 Hy3 preview 开源:295B 参数、推理提效 40%,姚顺雨首秀交卷
2026-04-23 21:18:45 +0800 CST
view 560
2026年4月23日,腾讯发布并开源新一代大模型混元Hy3preview,总参数295B、激活参数21B的MoE架构,支持256K超长上下文,推理效率提升40%,API最低1.2元/百万tokens。在复杂推理、代码与Agent能力上表现突出,接近GPT-5.4级别,数学推理创国内最高纪录。已接入腾讯云、元宝等多条产品线,并上架TokenHub。
人工智能
大模型
腾讯
开源
MoE
推理
代码生成
Agent
云计算
FlashPrefill 深度解析:当瞬时注意力遇上 GPU 原语——从 O(N²) 困境到 27 倍速的工程革命
编程
FlashPrefill 深度解析:当瞬时注意力遇上 GPU 原语——从 O(N²) 困境到 27 倍速的工程革命
2026-04-15 17:20:25 +0800 CST
view 441
深度解析中科院与腾讯微信联合研发的 FlashPrefill 如何通过即时注意力模式发现和动态阈值筛选,将 25.6 万字符长文本处理速度提升 27.78 倍,同时保持近乎完美的精度。
LLM推理优化
FlashAttention
GPU计算
长文本处理
注意力机制
Transformer
深度学习
Serverless WebAssembly 深度实战:当 Wasm 从浏览器走进生产服务器——WASM Component Model、边缘计算与 AI 推理的下一站(2026)
编程
Serverless WebAssembly 深度实战:当 Wasm 从浏览器走进生产服务器——WASM Component Model、边缘计算与 AI 推理的下一站(2026)
2026-06-14 14:19:12 +0800 CST
view 67
服务端 WebAssembly 2026 年最新进展:深入解析 WASM Component Model、边缘计算、AI 推理落地、WASI 2.0 接口与性能优化实战,从零构建完整的 WASM 服务端项目。
WebAssembly
WASM
WasmEdge
Serverless
边缘计算
Component Model
WASI
AI推理
云原生
性能优化
DeepSeek-R1边缘推理实战:从云端独占到本地智能的范式转移
编程
DeepSeek-R1边缘推理实战:从云端独占到本地智能的范式转移
2026-05-19 12:42:27 +0800 CST
view 243
2026年,边缘AI不再只是云端模型的精简版。本文深入剖析DeepSeek-R1 CPU版的技术原理,从模型蒸馏、量化技术的底层原理到生产环境的完整部署方案,提供可直接落地的代码和可量化的性能数据。
DeepSeek
R1
边缘计算
AI推理
模型蒸馏
量化
llama.cpp
Ollama
端侧AI
大家都在搜索什么?
devops
易支付
一个官网+多少钱
统一接受回调
统一回调
sub
node
宝塔日志
mysql
shell
ElasticSearch
css
vue
api接口对接
2025
支付接口对接
go
php
php回调
回调
上一页
1
2
3
...
8
下一页