程序员茄子
全部
编程
代码
资讯
案例
综合
联系我们
html在线编辑
登录注册
AI,自己全程接管维护
php
mysql
shell
go
vue
css
api接口对接
支付接口对接
最新
最热
从140GB到4GB:AirLLM无量化层间推理原理深度剖析与生产级部署实战(2026)
编程
从140GB到4GB:AirLLM无量化层间推理原理深度剖析与生产级部署实战(2026)
2026-06-22 19:28:19 +0800 CST
view 111
深入解析 AirLLM 的无量化层间 Offloading 技术原理,探讨如何通过 CPU-GPU 混合推理在 4GB 显存上运行 70B 大模型,附完整代码实战与生产部署指南。
LLM推理
GPU优化
CPU Offload
层间调度
AirLLM
PyTorch
LLM推理引擎全栈优化实战:从PagedAttention到投机解码,榨干GPU的每一滴算力
编程
LLM推理引擎全栈优化实战:从PagedAttention到投机解码,榨干GPU的每一滴算力
2026-05-17 10:21:56 +0800 CST
view 374
深度拆解LLM推理引擎核心技术栈:PagedAttention消除内存碎片、连续批处理榨干GPU算力、NUMA感知调度、混合精度量化、投机解码加速、算子融合、分布式推理架构,附代码示例与性能数据
LLM
vLLM
PagedAttention
推理优化
量化
投机解码
ContinuousBatching
GPU
万字深度:PagedAttention、连续批处理与投机解码——LLM推理优化七层实战
编程
万字深度:PagedAttention、连续批处理与投机解码——LLM推理优化七层实战
2026-05-17 10:22:13 +0800 CST
view 356
深度拆解LLM推理引擎核心技术栈:PagedAttention消除内存碎片、连续批处理榨干GPU算力、NUMA感知调度、混合精度量化、投机解码加速、算子融合、分布式推理架构,附代码示例与性能数据
LLM
vLLM
PagedAttention
推理优化
量化
投机解码
ContinuousBatching
GPU
一行命令搞定!16.5k Star 的开源神器,让 AI 生成的前端终于有审美了
案例
一行命令搞定!16.5k Star 的开源神器,让 AI 生成的前端终于有审美了
2026-05-11 16:39:33 +0800 CST
view 360
16.5K Stars 的开源项目 taste-skill,让 AI 生成的前端代码告别紫蓝渐变 Hero + 三列圆角卡片的模板风。一行命令安装,支持 Cursor/Claude Code/Codex 等主流编程 Agent。
taste-skill
AI前端
设计规范
Claude Code
Cursor
反slop
前端开发
SKILL
samber/cc-skills-golang:给 AI 编程助手的 Go 技能包,让 AI 写 Go 少一点玄学
编程
samber/cc-skills-golang:给 AI 编程助手的 Go 技能包,让 AI 写 Go 少一点玄学
2026-06-13 08:23:38 +0800 CST
view 162
cc-skills-golang是一组面向AI编程助手的Go技能包,将Go工程判断、编码约定、排查方法整理成指令文档,让Claude Code/Codex/Cursor等AI在写Go时按统一口径工作,With Skill准确率98% vs 56%。
cc-skills-golang
Go
Claude Code
Codex
Cursor
AI编程
代码规范
Agent Skill
Code Review
vLLM 深度解析:LLM 推理性能的终极引擎——从 PagedAttention 到生产级部署的完整技术内幕
编程
vLLM 深度解析:LLM 推理性能的终极引擎——从 PagedAttention 到生产级部署的完整技术内幕
2026-05-18 08:22:35 +0800 CST
view 465
全面解析 vLLM 推理引擎的核心架构,从 PagedAttention 原理到生产级部署实战,涵盖量化推理、多GPU并行、性能调优等完整技术栈
vLLM
LLM推理
PagedAttention
GPU优化
量化推理
深度解析
Ollama 完全指南:本地大模型部署的事实标准——从原理到生产级 AI 应用开发(2026)
编程
Ollama 完全指南:本地大模型部署的事实标准——从原理到生产级 AI 应用开发(2026)
2026-06-05 04:13:34 +0800 CST
view 219
Ollama 本地大模型部署完全指南,从架构原理到生产级部署,涵盖 RAG 集成、性能优化、Docker/K8s 部署等核心内容。
Ollama
本地大模型
AI应用开发
Go语言
llama.cpp
Ollama 完全指南:本地大模型部署的事实标准——架构、实战与生产级部署(2026)
编程
Ollama 完全指南:本地大模型部署的事实标准——架构、实战与生产级部署(2026)
2026-06-05 04:13:52 +0800 CST
view 278
Ollama 本地大模型部署完全指南,从架构原理到生产级部署,涵盖 RAG 集成、性能优化、Docker/K8s 部署等核心内容。
Ollama
本地大模型
AI应用开发
Go语言
llama.cpp
vLLM 2026 Q2 路线图深度解析:从 v1 架构重构到九大 SIG 技术演进——生产级 LLM 推理引擎的下一站
编程
vLLM 2026 Q2 路线图深度解析:从 v1 架构重构到九大 SIG 技术演进——生产级 LLM 推理引擎的下一站
2026-05-05 19:01:32 +0800 CST
view 851
深度解析 vLLM 2026年第二季度技术路线图,涵盖 v1 架构核心设计、九大 SIG 技术演进方向、生产级部署实战经验。
vLLM
LLM推理
架构设计
性能优化
猛涨25K Star!LLMFit:一键检测你的电脑能跑哪些大模型
案例
猛涨25K Star!LLMFit:一键检测你的电脑能跑哪些大模型
2026-05-06 07:35:19 +0800 CST
view 400
25K+Star的LLMFit一键检测你的电脑能跑哪些大模型,Rust编写支持NVIDIA/AMD/Intel/Apple Silicon,智能量化推荐Q8到Q2,四维评分系统,TUI+CLI双模式
LLM部署
硬件检测
量化推荐
Rust
终端工具
本地部署
Ollama
DeepSeek-R1边缘推理实战:从云端独占到本地智能的范式转移
编程
DeepSeek-R1边缘推理实战:从云端独占到本地智能的范式转移
2026-05-19 12:42:27 +0800 CST
view 314
2026年,边缘AI不再只是云端模型的精简版。本文深入剖析DeepSeek-R1 CPU版的技术原理,从模型蒸馏、量化技术的底层原理到生产环境的完整部署方案,提供可直接落地的代码和可量化的性能数据。
DeepSeek
R1
边缘计算
AI推理
模型蒸馏
量化
llama.cpp
Ollama
端侧AI
vLLM 深度实战:当 LLM 推理遇上 PagedAttention——从 KV 缓存管理到生产级高并发服务的完全指南(2026)
编程
vLLM 深度实战:当 LLM 推理遇上 PagedAttention——从 KV 缓存管理到生产级高并发服务的完全指南(2026)
2026-06-08 22:52:24 +0800 CST
view 215
深度解析vLLM推理框架的核心原理、PagedAttention创新机制、分布式推理架构,以及生产环境部署的最佳实践。
vLLM
PagedAttention
LLM推理
KV缓存
分布式推理
2026 年 vLLM 推理服务实战:PagedAttention 原理、分布式部署与性能调优完全指南
编程
2026 年 vLLM 推理服务实战:PagedAttention 原理、分布式部署与性能调优完全指南
2026-06-08 22:53:03 +0800 CST
view 146
深度解析vLLM推理框架的核心原理、PagedAttention创新机制、分布式推理架构,以及生产环境部署的最佳实践。
vLLM
PagedAttention
LLM推理
KV缓存
分布式推理
Agent Skills 深度实战:当 AI 学会「工程师纪律」——从 Addy Osmani 的 7 个斜杠命令到生产级 AI 编程工作流的完全指南(2026)
编程
Agent Skills 深度实战:当 AI 学会「工程师纪律」——从 Addy Osmani 的 7 个斜杠命令到生产级 AI 编程工作流的完全指南(2026)
2026-06-15 00:50:09 +0800 CST
view 247
Agent Skills 是 Google 工程总监 Addy Osmani 开源的 AI 编程工程技能库,通过 7 个斜杠命令(/spec、/plan、/build、/test、/review、/code-simplify、/ship)将软件开发六阶段生命周期固化到 AI 工作流中,让 AI 从「代码生成器」升级为「工程助手」。
AI编程
Agent Skills
Addy Osmani
Claude Code
工程化
软件开发
Skill
生产级
LLM 推理优化全景实战:从 PagedAttention 到投机解码——让大模型推理成本下降 70% 的技术革命(2026)
编程
LLM 推理优化全景实战:从 PagedAttention 到投机解码——让大模型推理成本下降 70% 的技术革命(2026)
2026-05-30 15:42:55 +0800 CST
view 269
深度解析 LLM 推理优化的核心技术:PagedAttention 内存管理革命、投机解码加速策略、INT4/FP8 量化技术、MoE 架构优化,从架构原理到代码实战,让大模型推理成本下降 70%。
LLM
推理优化
vLLM
PagedAttention
投机解码
量化
MoE
LLM 推理的显存战争:从 PagedAttention 到统一内存架构——KV Cache 管理五世代深度解析(2026)
编程
LLM 推理的显存战争:从 PagedAttention 到统一内存架构——KV Cache 管理五世代深度解析(2026)
2026-06-15 11:18:23 +0800 CST
view 169
深度解析大模型推理中 KV Cache 管理的五世代演进:从连续分配到 PagedAttention,再到异构缓存、分布式 KV 和统一混合内存架构。结合 vLLM、SGLang、TensorRT-LLM 给出生产环境选型指南。
LLM
大模型
KVCache
PagedAttention
vLLM
SGLang
TensorRT
推理优化
显存管理
分布式
SGLang vs vLLM:2026年大模型推理框架深度对比与选型指南
编程
SGLang vs vLLM:2026年大模型推理框架深度对比与选型指南
2026-04-08 15:51:53 +0800 CST
view 1532
深度对比SGLang与vLLM两大LLM推理框架,从架构设计、核心原理、性能实测、适用场景多维度解析,附2026年选型建议
LLM
SGLang
vLLM
推理优化
大模型
Ollama 本地大模型部署实战:从零到生产级应用的完全指南(2026)
编程
Ollama 本地大模型部署实战:从零到生产级应用的完全指南(2026)
2026-06-10 01:20:57 +0800 CST
view 247
2026年Ollama本地大模型部署完全指南:从架构原理、GGUF量化、ModelFile自定义、多语言集成(Python/JS/Go)、RAG实战到Docker/K8s生产部署,8500字深度长文。
Ollama
本地部署
大模型
LLM
生产级
GGUF
量化
OpenMontage 深度实战:当 AI 编程助手变成视频工作室——从 Agent-First 架构到零成本生产管线、从 52+ 工具到 500+ Agent Skills 的开源视频生产完全指南(2026)
编程
OpenMontage 深度实战:当 AI 编程助手变成视频工作室——从 Agent-First 架构到零成本生产管线、从 52+ 工具到 500+ Agent Skills 的开源视频生产完全指南(2026)
2026-06-22 16:54:28 +0800 CST
view 161
深入剖析 OpenMontage 开源 Agentic 视频生产系统的架构设计、工具体系、12条生产管线、零成本路径和跨平台兼容性
OpenMontage
AI视频
开源项目
Agent
视频制作
Remotion
HyperFrames
GraphQL.js v17 + Hive Router Demand Control:当 GraphQL 终于学会「算账」——从原生 TypeScript 重写到成本控制革命的完全指南(2026)
编程
GraphQL.js v17 + Hive Router Demand Control:当 GraphQL 终于学会「算账」——从原生 TypeScript 重写到成本控制革命的完全指南(2026)
2026-06-22 21:26:46 +0800 CST
view 61
2026年6月19日 GraphQL.js v17 发布,原生 TypeScript 重写、ESM 优先。同日 Hive Router 推出 Demand Control 功能,解决 GraphQL 查询成本逃逸问题。本文深度剖析技术原理、迁移指南与生产实践。
GraphQL
TypeScript
ESM
Hive Router
Demand Control
OpenAPI
Supermemory 深度实战:AI 时代的记忆引擎完全指南——从混合检索到知识图谱的架构全解析(2026)
编程
Supermemory 深度实战:AI 时代的记忆引擎完全指南——从混合检索到知识图谱的架构全解析(2026)
2026-06-03 03:46:07 +0800 CST
view 351
Supermemory 深度实战:从混合检索到知识图谱的架构全解析。GitHub 24,537 ⭐,单日 677 stars,LongMemEval 85.2% SOTA。完整代码示例,生产级部署。
AI Agent
Supermemory
记忆引擎
RAG
知识图谱
TypeScript
生产实战
ClawKeeper 深度解析:当「用智能体监管智能体」从概念走向工程——三层防御架构如何为 OpenClaw 系上数字安全带
编程
ClawKeeper 深度解析:当「用智能体监管智能体」从概念走向工程——三层防御架构如何为 OpenClaw 系上数字安全带
2026-04-12 20:56:05 +0800 CST
view 570
深度解析智源、北邮、信通院联合发布的 ClawKeeper v1.0——首个面向 OpenClaw 的三层实时安全框架。从 CVE-2026-33579 等高危漏洞切入,详细剖析 Skill-based、Plugin-based、Watcher-based 三层防御架构的设计哲学与工程实现,探讨「用智能体监管智能体」的安全新范式。
AI安全
OpenClaw
ClawKeeper
eBPF
智能体
安全框架
Chrome DevTools MCP 深度解析:让 AI 编码助手拥有「浏览器之眼」——从 CDP 封装到生产级 AI Agent 调试的完整实战
编程
Chrome DevTools MCP 深度解析:让 AI 编码助手拥有「浏览器之眼」——从 CDP 封装到生产级 AI Agent 调试的完整实战
2026-05-21 20:26:57 +0800 CST
view 432
Google Chrome团队官方推出的Chrome DevTools MCP,通过将CDP封装为MCP工具,让AI编码助手能够真正「看见」和「操控」浏览器。本文从架构原理、核心能力、代码实战、性能优化四维度进行全方位深度解析。
Chrome DevTools MCP
AI编程
浏览器自动化
MCP协议
前端调试
TypeScript
Puppeteer
OpenCode 深度解析:157K Star 的开源 AI 编程智能体——如何打造 Claude Code 的完美平替
编程
OpenCode 深度解析:157K Star 的开源 AI 编程智能体——如何打造 Claude Code 的完美平替
2026-05-16 05:45:45 +0800 CST
view 359
深度解析OpenCode——157K Star的开源AI编程智能体,支持75+ LLM提供商,如何成为Claude Code的完美平替
AI编程
开源
OpenCode
Claude Code平替
LLM
大家都在搜索什么?
devops
易支付
一个官网+多少钱
统一接受回调
统一回调
sub
node
宝塔日志
mysql
shell
ElasticSearch
css
vue
api接口对接
2025
支付接口对接
go
php
php回调
回调
上一页
1
...
18
19
20
21
22
...
55
下一页