程序员茄子
全部
编程
代码
资讯
案例
综合
联系我们
html在线编辑
登录注册
AI,自己全程接管维护
php
mysql
shell
go
vue
css
api接口对接
支付接口对接
最新
最热
Google Gemma 4 深度解析:当开源AI进入「逐层嵌入平行化」时代
编程
Google Gemma 4 深度解析:当开源AI进入「逐层嵌入平行化」时代
2026-04-09 04:54:56 +0800 CST
view 734
Google于2026年4月发布Gemma 4开源模型系列,首次全面切换Apache 2.0许可证,搭载Per-Layer Embedding架构创新,26B MoE以3.8B激活参数击败Qwen3-235B。本文深度解析PLE架构、稀疏激活机制与全规格产品矩阵。
Gemma 4
Google
开源模型
Apache 2.0
MoE
Per-Layer Embedding
Brunost:一个强制使用挪威语Nynorsk编写代码的编程语言——深度解析与实战
编程
Brunost:一个强制使用挪威语Nynorsk编写代码的编程语言——深度解析与实战
2026-04-18 13:16:43 +0800 CST
view 469
深入解析Brunost:一款用Zig编写、强制使用挪威语Nynorsk书写代码的函数式编程语言。涵盖语法、架构设计、实战代码、性能分析。
Brunost
Nynorsk
编程语言
Zig
WebAssembly
函数式编程
Gleam
自然语言编程
CLI-Anything:把任意GUI软件自动转成AI Agent能用的CLI工具
编程
CLI-Anything:把任意GUI软件自动转成AI Agent能用的CLI工具
2026-05-22 11:59:13 +0800 CST
view 332
香港大学开源CLI-Anything,7阶段全自动流水线把任意GUI软件转成CLI工具,让AI Agent直接命令行驱动Blender、FreeCAD、GIMP等专业软件,支持Claude Code/OpenClaw/Codex等平台。
AI Agent
CLI工具
自动化
HKUDS
Claude Code
Blender
FreeCAD
vLLM 深度实战:当 PagedAttention 遇上生产级 LLM 推理——从内存革命到分布式部署的完全指南(2026)
编程
vLLM 深度实战:当 PagedAttention 遇上生产级 LLM 推理——从内存革命到分布式部署的完全指南(2026)
2026-06-10 10:17:56 +0800 CST
view 181
深度解析 vLLM 的核心架构 PagedAttention 和 Continuous Batching,从内存管理原理到生产级分布式部署的完全指南。
vLLM
LLM推理
PagedAttention
GPU优化
大模型部署
AI推理
Khazix Skills 深度解析:当「数字生命卡兹克」把压箱底的 AI Skills 一字不改开源出来
编程
Khazix Skills 深度解析:当「数字生命卡兹克」把压箱底的 AI Skills 一字不改开源出来
2026-04-10 00:44:17 +0800 CST
view 1756
数字生命卡兹克开源的 AI Skills 合集,支持 Claude Code、OpenClaw、Codex 三大平台,包含写作、代码、研究等核心 Skill,实用主义风格,真实生产环境验证。
AI Skills
Khazix
数字生命卡兹克
Agent Skills
开源
AI 编程助手瘫痪了吗?Karpathy Skills 与 CLAUDE.md 如何用数学约束驯服 LLM 的混乱天性——从四大失败模式到生产级行为规则的完全指南
编程
AI 编程助手瘫痪了吗?Karpathy Skills 与 CLAUDE.md 如何用数学约束驯服 LLM 的混乱天性——从四大失败模式到生产级行为规则的完全指南
2026-05-23 00:46:41 +0800 CST
view 304
深度剖析 AI 编码代理的四大核心失败模式(静默假设、过度工程、范围蔓延、缺乏验证),介绍 Karpathy Skills 项目如何用行为约束体系替代模糊提示,以及如何使用 CLAUDE.md 构建可维护的 AI 辅助开发流程。
AI编程
LLM
Karpathy Skills
CLAUDE.md
行为约束
提示工程
MCP 2026 深度解析:AI推理性能瓶颈诊断的12个隐性耗时陷阱——从TensorRT-LLM到vLLM再到Triton的全引擎实战
编程
MCP 2026 深度解析:AI推理性能瓶颈诊断的12个隐性耗时陷阱——从TensorRT-LLM到vLLM再到Triton的全引擎实战
2026-04-30 14:21:13 +0800 CST
view 419
深度解析MCP 2026基准测试框架,拆解TensorRT-LLM、vLLM、Triton三大推理引擎的12个隐性耗时陷阱,提供可落地的诊断方法与修复路径。
AI推理
性能优化
TensorRT-LLM
vLLM
Triton
MCP2026
GPU优化
2026 大模型推理框架终极对决:vLLM 0.5 vs TGI 2.0 vs TensorRT-LLM 1.8 vs DeepSpeed-MII 0.9——从架构原理到生产级部署的完全指南
编程
2026 大模型推理框架终极对决:vLLM 0.5 vs TGI 2.0 vs TensorRT-LLM 1.8 vs DeepSpeed-MII 0.9——从架构原理到生产级部署的完全指南
2026-06-16 23:24:43 +0800 CST
view 165
深度对比四大主流LLM推理框架:vLLM 0.5、TGI 2.0、TensorRT-LLM 1.8、DeepSpeed-MII 0.9。从PagedAttention架构原理、FlashAttention优化、量化支持到生产级部署实战,包含统一环境下的性能测试数据与代码示例,帮助你做出最优选型决策。
LLM
推理框架
vLLM
TensorRT
DeepSpeed
性能优化
AI
SGLang 深度解析:RadixAttention 如何重塑大模型推理的「结构化革命」
编程
SGLang 深度解析:RadixAttention 如何重塑大模型推理的「结构化革命」
2026-06-30 11:16:18 +0800 CST
view 23
深度解析 SGLang 大模型推理框架:RadixAttention 前缀缓存、零开销 CPU 调度器、结构化输出约束、推测解码、PD 分离等核心技术,对比 vLLM/TensorRT-LLM 选型,提供完整代码示例与生产级部署实践
SGLang
大模型推理
RadixAttention
前缀缓存
结构化输出
推测解码
PD分离
vLLM
TensorRT-LLM
SGLang 深度解析:RadixAttention 前缀缓存与结构化 LLM 推理革命——从 RAG/Agent 场景到生产级部署的完整指南
编程
SGLang 深度解析:RadixAttention 前缀缓存与结构化 LLM 推理革命——从 RAG/Agent 场景到生产级部署的完整指南
2026-06-30 11:17:15 +0800 CST
view 19
深度解析 SGLang 大模型推理框架:RadixAttention 前缀缓存、零开销 CPU 调度器、结构化输出约束、推测解码、PD 分离等核心技术,对比 vLLM/TensorRT-LLM 选型,提供完整代码示例与生产级部署实践
SGLang
大模型推理
RadixAttention
前缀缓存
结构化输出
推测解码
PD分离
vLLM
TensorRT-LLM
从140GB到4GB:AirLLM无量化层间推理原理深度剖析与生产级部署实战(2026)
编程
从140GB到4GB:AirLLM无量化层间推理原理深度剖析与生产级部署实战(2026)
2026-06-22 19:28:19 +0800 CST
view 153
深入解析 AirLLM 的无量化层间 Offloading 技术原理,探讨如何通过 CPU-GPU 混合推理在 4GB 显存上运行 70B 大模型,附完整代码实战与生产部署指南。
LLM推理
GPU优化
CPU Offload
层间调度
AirLLM
PyTorch
LLM推理引擎全栈优化实战:从PagedAttention到投机解码,榨干GPU的每一滴算力
编程
LLM推理引擎全栈优化实战:从PagedAttention到投机解码,榨干GPU的每一滴算力
2026-05-17 10:21:56 +0800 CST
view 403
深度拆解LLM推理引擎核心技术栈:PagedAttention消除内存碎片、连续批处理榨干GPU算力、NUMA感知调度、混合精度量化、投机解码加速、算子融合、分布式推理架构,附代码示例与性能数据
LLM
vLLM
PagedAttention
推理优化
量化
投机解码
ContinuousBatching
GPU
万字深度:PagedAttention、连续批处理与投机解码——LLM推理优化七层实战
编程
万字深度:PagedAttention、连续批处理与投机解码——LLM推理优化七层实战
2026-05-17 10:22:13 +0800 CST
view 384
深度拆解LLM推理引擎核心技术栈:PagedAttention消除内存碎片、连续批处理榨干GPU算力、NUMA感知调度、混合精度量化、投机解码加速、算子融合、分布式推理架构,附代码示例与性能数据
LLM
vLLM
PagedAttention
推理优化
量化
投机解码
ContinuousBatching
GPU
2026大模型推理框架终极对决:vLLM 0.5 vs TGI 2.0 vs TensorRT-LLM 1.8 vs DeepSpeed-MII 0.9——谁才是生产级部署的真正王者?
编程
2026大模型推理框架终极对决:vLLM 0.5 vs TGI 2.0 vs TensorRT-LLM 1.8 vs DeepSpeed-MII 0.9——谁才是生产级部署的真正王者?
2026-06-23 08:22:26 +0800 CST
view 152
深度对比2026年四大主流大模型推理框架:vLLM 0.5、TGI 2.0、TensorRT-LLM 1.8、DeepSpeed-MII 0.9,从核心架构、性能压测、成本分析到代码实战的完全指南。
vLLM
TensorRT-LLM
大模型推理
性能优化
DeepSpeed
TGI
10天破3800星!Claude Code Skill一句话生成7种风格技术图表
编程
10天破3800星!Claude Code Skill一句话生成7种风格技术图表
2026-04-21 11:04:25 +0800 CST
view 466
fireworks-tech-graph:10天3800星的Claude Code Skill,用自然语言生成7种风格的技术图表,支持RAG、Mem0、多Agent等架构图,Mermaid画不出来的它能补位
Claude Code
Skill
AI画图
图表生成
Claude Code Skills
技术图
架构图
Mermaid
开源
GitHub
vLLM 2026 深度解析:从 PagedAttention 到多节点分布式推理的全链路技术实战
编程
vLLM 2026 深度解析:从 PagedAttention 到多节点分布式推理的全链路技术实战
2026-05-03 15:13:07 +0800 CST
view 477
2026年深度解析vLLM核心架构,从PagedAttention进化到多节点分布式推理,涵盖SIG社区组织、v1架构重写、生产部署实战与性能优化全链路指南。
vLLM
PagedAttention
LLM
推理优化
分布式
Kubernetes
Python
NVIDIA garak + SkillSpector 深度实战:当 AI Agent 学会「安全自检」——从 LLM 漏洞扫描到技能市场治理的完全指南(2026)
编程
NVIDIA garak + SkillSpector 深度实战:当 AI Agent 学会「安全自检」——从 LLM 漏洞扫描到技能市场治理的完全指南(2026)
2026-06-13 12:20:18 +0800 CST
view 425
深入剖析 NVIDIA garak 和 SkillSpector 两款 AI 安全工具,解读 arXiv:2606.01494 论文关于三方扫描器低重合度的发现,提供 Agent Skills 安全治理的完整指南。
NVIDIA
garak
SkillSpector
AI安全
LLM
Agent
vLLM 深度解析:LLM 推理性能的终极引擎——从 PagedAttention 到生产级部署的完整技术内幕
编程
vLLM 深度解析:LLM 推理性能的终极引擎——从 PagedAttention 到生产级部署的完整技术内幕
2026-05-18 08:22:35 +0800 CST
view 497
全面解析 vLLM 推理引擎的核心架构,从 PagedAttention 原理到生产级部署实战,涵盖量化推理、多GPU并行、性能调优等完整技术栈
vLLM
LLM推理
PagedAttention
GPU优化
量化推理
深度解析
SKILL0深度解析:当技能不再是外挂——浙大与美团如何用技能内化重新定义小模型智能体
编程
SKILL0深度解析:当技能不再是外挂——浙大与美团如何用技能内化重新定义小模型智能体
2026-04-13 18:57:15 +0800 CST
view 830
浙江大学联合美团和清华大学发布SKILL0论文,提出技能内化范式,让3B小模型通过上下文强化学习将AI技能内化到模型参数中,推理时零Token开销,在ALFWorld等基准上超越GPT-4o和Gemini。
SKILL0
技能内化
Skill Internalization
AI Agent
强化学习
浙大
美团
小模型
Ollama 完全指南:本地大模型部署的事实标准——从原理到生产级 AI 应用开发(2026)
编程
Ollama 完全指南:本地大模型部署的事实标准——从原理到生产级 AI 应用开发(2026)
2026-06-05 04:13:34 +0800 CST
view 258
Ollama 本地大模型部署完全指南,从架构原理到生产级部署,涵盖 RAG 集成、性能优化、Docker/K8s 部署等核心内容。
Ollama
本地大模型
AI应用开发
Go语言
llama.cpp
Ollama 完全指南:本地大模型部署的事实标准——架构、实战与生产级部署(2026)
编程
Ollama 完全指南:本地大模型部署的事实标准——架构、实战与生产级部署(2026)
2026-06-05 04:13:52 +0800 CST
view 318
Ollama 本地大模型部署完全指南,从架构原理到生产级部署,涵盖 RAG 集成、性能优化、Docker/K8s 部署等核心内容。
Ollama
本地大模型
AI应用开发
Go语言
llama.cpp
vLLM 2026 Q2 路线图深度解析:从 v1 架构重构到九大 SIG 技术演进——生产级 LLM 推理引擎的下一站
编程
vLLM 2026 Q2 路线图深度解析:从 v1 架构重构到九大 SIG 技术演进——生产级 LLM 推理引擎的下一站
2026-05-05 19:01:32 +0800 CST
view 891
深度解析 vLLM 2026年第二季度技术路线图,涵盖 v1 架构核心设计、九大 SIG 技术演进方向、生产级部署实战经验。
vLLM
LLM推理
架构设计
性能优化
猛涨25K Star!LLMFit:一键检测你的电脑能跑哪些大模型
案例
猛涨25K Star!LLMFit:一键检测你的电脑能跑哪些大模型
2026-05-06 07:35:19 +0800 CST
view 429
25K+Star的LLMFit一键检测你的电脑能跑哪些大模型,Rust编写支持NVIDIA/AMD/Intel/Apple Silicon,智能量化推荐Q8到Q2,四维评分系统,TUI+CLI双模式
LLM部署
硬件检测
量化推荐
Rust
终端工具
本地部署
Ollama
DeepSeek-R1边缘推理实战:从云端独占到本地智能的范式转移
编程
DeepSeek-R1边缘推理实战:从云端独占到本地智能的范式转移
2026-05-19 12:42:27 +0800 CST
view 337
2026年,边缘AI不再只是云端模型的精简版。本文深入剖析DeepSeek-R1 CPU版的技术原理,从模型蒸馏、量化技术的底层原理到生产环境的完整部署方案,提供可直接落地的代码和可量化的性能数据。
DeepSeek
R1
边缘计算
AI推理
模型蒸馏
量化
llama.cpp
Ollama
端侧AI
大家都在搜索什么?
devops
易支付
一个官网+多少钱
统一接受回调
统一回调
sub
node
宝塔日志
mysql
shell
ElasticSearch
css
vue
api接口对接
2025
支付接口对接
go
php
php回调
回调
上一页
1
...
26
27
28
29
30
...
39
下一页