程序员茄子
全部
编程
代码
资讯
案例
综合
联系我们
html在线编辑
登录注册
AI,自己全程接管维护
php
mysql
shell
go
vue
css
api接口对接
支付接口对接
最新
最热
MCP协议致命漏洞CVE-2026-30615深度解析:20万台服务器沦陷,Anthropic为何拒绝修复
编程
MCP协议致命漏洞CVE-2026-30615深度解析:20万台服务器沦陷,Anthropic为何拒绝修复
2026-04-23 10:14:12 +0800 CST
view 717
深度解析MCP协议架构级漏洞CVE-2026-30615:20万台服务器沦陷、Anthropic拒绝修复的原因,以及从个人到企业的完整防御方案。
MCP
Model Context Protocol
CVE
AI安全
Anthropic
漏洞分析
RCE
安全协议
Python
TypeScript
MCP (Model Context Protocol) 高级开发实战:从 Server 开发到生产部署的完整指南
编程
MCP (Model Context Protocol) 高级开发实战:从 Server 开发到生产部署的完整指南
2026-06-27 12:16:20 +0800 CST
view 26
深度解析 MCP 高级开发实战,从协议架构、Server 开发、Sampling 机制到生产部署的完整指南。涵盖 10 种语言 SDK 性能对比和最佳实践。
MCP
Model Context Protocol
AI Agent
Claude Code
TypeScript
Python
Papacito OS:本地转录+图片OCR+搜索,开源AI第二大脑有点实用
编程
Papacito OS:本地转录+图片OCR+搜索,开源AI第二大脑有点实用
2026-06-20 13:43:05 +0800 CST
view 109
Papacito OS 是一个本地优先的个人知识系统,基于 whisper.cpp 本地语音转文字 + Tesseract 图片 OCR + SQLite 关键词搜索。100% Local,适合会议录音、截图、白板、零散笔记整理。
AI
第二大脑
本地优先
知识管理
转录
OCR
语音转文字
开源
Next.js
whisper.cpp
Tesseract
vLLM 深度实战:当 PagedAttention 遇上生产级 LLM 推理——从内存革命到分布式部署的完全指南(2026)
编程
vLLM 深度实战:当 PagedAttention 遇上生产级 LLM 推理——从内存革命到分布式部署的完全指南(2026)
2026-06-10 10:17:56 +0800 CST
view 167
深度解析 vLLM 的核心架构 PagedAttention 和 Continuous Batching,从内存管理原理到生产级分布式部署的完全指南。
vLLM
LLM推理
PagedAttention
GPU优化
大模型部署
AI推理
Claude Memory Compiler 深度解析:当 AI 编程助手第一次拥有「编译器思维」的记忆系统
编程
Claude Memory Compiler 深度解析:当 AI 编程助手第一次拥有「编译器思维」的记忆系统
2026-04-10 03:35:31 +0800 CST
view 630
claude-memory-compiler 把 AI 对话当作源代码,用 LLM 编译成结构化知识库,让 Claude Code 拥有跨会话记忆能力
Claude Code
AI Agent
Knowledge Management
LLM
Memory System
vLLM 深度实战:当 PagedAttention 终结 GPU 显存浪费——从推理引擎原理到生产级高并发部署的完全指南(2026)
编程
vLLM 深度实战:当 PagedAttention 终结 GPU 显存浪费——从推理引擎原理到生产级高并发部署的完全指南(2026)
2026-06-11 03:16:24 +0800 CST
view 200
深度解析vLLM推理引擎的PagedAttention原理、连续批处理、量化优化,以及从零搭建生产级高并发部署的完整实战指南(2026版)
vLLM
PagedAttention
大模型推理
GPU优化
AI部署
vLLM 0.17 深度实战:PagedAttention与连续批处理如何把GPU吞吐量提升4倍——从KV Cache原理到生产级大模型推理部署完全指南(2026)
编程
vLLM 0.17 深度实战:PagedAttention与连续批处理如何把GPU吞吐量提升4倍——从KV Cache原理到生产级大模型推理部署完全指南(2026)
2026-06-11 03:17:21 +0800 CST
view 299
深度解析vLLM推理引擎的PagedAttention原理、连续批处理、量化优化,以及从零搭建生产级高并发部署的完整实战指南(2026版)
vLLM
PagedAttention
大模型推理
GPU优化
AI部署
2026 大模型推理框架终极对决:vLLM 0.5 vs TGI 2.0 vs TensorRT-LLM 1.8 vs DeepSpeed-MII 0.9——从架构原理到生产级部署的完全指南
编程
2026 大模型推理框架终极对决:vLLM 0.5 vs TGI 2.0 vs TensorRT-LLM 1.8 vs DeepSpeed-MII 0.9——从架构原理到生产级部署的完全指南
2026-06-16 23:24:43 +0800 CST
view 147
深度对比四大主流LLM推理框架:vLLM 0.5、TGI 2.0、TensorRT-LLM 1.8、DeepSpeed-MII 0.9。从PagedAttention架构原理、FlashAttention优化、量化支持到生产级部署实战,包含统一环境下的性能测试数据与代码示例,帮助你做出最优选型决策。
LLM
推理框架
vLLM
TensorRT
DeepSpeed
性能优化
AI
vLLM 深度实战:从 PagedAttention 到 Speculative Decoding——2026年大模型推理引擎内核架构完全指南
编程
vLLM 深度实战:从 PagedAttention 到 Speculative Decoding——2026年大模型推理引擎内核架构完全指南
2026-05-23 18:44:14 +0800 CST
view 370
2026年深度长文,从PagedAttention分页思想、Continuous Batching调度算法、Speculative Decoding并行验证机制到CUDA Kernel底层实现,全面拆解vLLM推理引擎内核架构,附生产级部署实战与框架横向对比。
vLLM
PagedAttention
Continuous Batching
Speculative Decoding
GPU推理
大模型部署
深度学习
CUDA
GreptimeDB 深度实战:当可观测性告别「三件套」——从宽事件统一引擎到存算分离、Flow 流处理与 PB 级日检索亚秒的生产级完全指南(2026)
编程
GreptimeDB 深度实战:当可观测性告别「三件套」——从宽事件统一引擎到存算分离、Flow 流处理与 PB 级日检索亚秒的生产级完全指南(2026)
2026-06-17 10:58:30 +0800 CST
view 137
GreptimeDB深度实战:从宽事件统一模型到存算分离架构、Flow流处理引擎、SQL+PromQL双查询、PB级亚秒检索的完整生产级指南
GreptimeDB
可观测性
时序数据库
Rust
OpenTelemetry
LLM推理引擎全栈优化实战:从PagedAttention到投机解码,榨干GPU的每一滴算力
编程
LLM推理引擎全栈优化实战:从PagedAttention到投机解码,榨干GPU的每一滴算力
2026-05-17 10:21:56 +0800 CST
view 383
深度拆解LLM推理引擎核心技术栈:PagedAttention消除内存碎片、连续批处理榨干GPU算力、NUMA感知调度、混合精度量化、投机解码加速、算子融合、分布式推理架构,附代码示例与性能数据
LLM
vLLM
PagedAttention
推理优化
量化
投机解码
ContinuousBatching
GPU
万字深度:PagedAttention、连续批处理与投机解码——LLM推理优化七层实战
编程
万字深度:PagedAttention、连续批处理与投机解码——LLM推理优化七层实战
2026-05-17 10:22:13 +0800 CST
view 365
深度拆解LLM推理引擎核心技术栈:PagedAttention消除内存碎片、连续批处理榨干GPU算力、NUMA感知调度、混合精度量化、投机解码加速、算子融合、分布式推理架构,附代码示例与性能数据
LLM
vLLM
PagedAttention
推理优化
量化
投机解码
ContinuousBatching
GPU
2026大模型推理框架终极对决:vLLM 0.5 vs TGI 2.0 vs TensorRT-LLM 1.8 vs DeepSpeed-MII 0.9——谁才是生产级部署的真正王者?
编程
2026大模型推理框架终极对决:vLLM 0.5 vs TGI 2.0 vs TensorRT-LLM 1.8 vs DeepSpeed-MII 0.9——谁才是生产级部署的真正王者?
2026-06-23 08:22:26 +0800 CST
view 110
深度对比2026年四大主流大模型推理框架:vLLM 0.5、TGI 2.0、TensorRT-LLM 1.8、DeepSpeed-MII 0.9,从核心架构、性能压测、成本分析到代码实战的完全指南。
vLLM
TensorRT-LLM
大模型推理
性能优化
DeepSpeed
TGI
UI-TARS-Desktop 深度解析:ByteDance 如何用多模态 AI Agent 重新定义 GUI 自动化
编程
UI-TARS-Desktop 深度解析:ByteDance 如何用多模态 AI Agent 重新定义 GUI 自动化
2026-05-12 04:43:13 +0800 CST
view 746
UI-TARS-Desktop 是 ByteDance 开源的多模态 AI Agent 技术栈,包含 Agent TARS CLI/Web UI 和 UI-TARS-Desktop 原生应用。支持自然语言控制电脑、视觉理解界面、MCP 工具集成、Event Stream 协议驱动的 Context Engineering。本文深入解析其架构设计、核心特性、实战案例、性能基准与部署最佳实践。
UI-TARS
ByteDance
GUI自动化
多模态AI
MCP
Gemma 4 MoE 架构技术深度解析:Dense MLP + Routed MoE 双路径设计如何重塑开源大模型
编程
Gemma 4 MoE 架构技术深度解析:Dense MLP + Routed MoE 双路径设计如何重塑开源大模型
2026-04-21 14:22:20 +0800 CST
view 508
深度解析 Google Gemma 4 的 Dual-Path 混合架构设计:Dense MLP 保障通用基座能力,Routed MoE 释放专业化推理效率。一文吃透技术原理、部署实战与选型对比。
Gemma 4
MoE架构
Dense MLP
Routed MoE
Google DeepMind
开源大模型
Transformer
模型部署
混合专家
vLLM 深度解析:LLM 推理性能的终极引擎——从 PagedAttention 到生产级部署的完整技术内幕
编程
vLLM 深度解析:LLM 推理性能的终极引擎——从 PagedAttention 到生产级部署的完整技术内幕
2026-05-18 08:22:35 +0800 CST
view 474
全面解析 vLLM 推理引擎的核心架构,从 PagedAttention 原理到生产级部署实战,涵盖量化推理、多GPU并行、性能调优等完整技术栈
vLLM
LLM推理
PagedAttention
GPU优化
量化推理
深度解析
2026大模型推理框架年度横评:vLLM/TGI/TensorRT-LLM/DeepSpeed-MII 架构深度解析与生产级选型指南
编程
2026大模型推理框架年度横评:vLLM/TGI/TensorRT-LLM/DeepSpeed-MII 架构深度解析与生产级选型指南
2026-06-18 17:54:54 +0800 CST
view 184
深度横评2026年四大主流大模型推理框架,涵盖PagedAttention架构、ContinuousBatching、算子融合、FP8量化、NVMe卸载等核心技术,配实测数据与生产级选型指南
大模型
LLM
推理框架
vLLM
TensorRT-LLM
TGI
DeepSpeed
GPU推理
AI部署
NVIDIA
Zed 1.3 Terminal Threads 深度实战:当终端遇上 AI 代理——编辑器工作流的范式革命(2026 完全指南)
编程
Zed 1.3 Terminal Threads 深度实战:当终端遇上 AI 代理——编辑器工作流的范式革命(2026 完全指南)
2026-05-25 08:53:35 +0800 CST
view 338
深度剖析 Zed 1.3 Terminal Threads 的架构设计、实战配置与性能优化,解析终端代理管理如何重塑 AI 编码工作流
Zed
Terminal Threads
AI代理
Rust
编辑器
Odysseus 深度实战:当 YouTuber 之王用 Python 重写「AI 工作台」——从 FastAPI 微服务到 MCP Agent 与 ChromaDB 记忆系统的生产级完全指南(2026)
编程
Odysseus 深度实战:当 YouTuber 之王用 Python 重写「AI 工作台」——从 FastAPI 微服务到 MCP Agent 与 ChromaDB 记忆系统的生产级完全指南(2026)
2026-06-14 15:50:01 +0800 CST
view 202
深度剖析 PewDiePie 开源的 Odysseus 自托管 AI 工作空间:从 FastAPI 微服务架构到 MCP Agent 系统与 ChromaDB 记忆系统,含完整部署实战与性能优化指南
Odysseus
self-hosted
AI workspace
FastAPI
MCP
ChromaDB
Agent
自托管
本地AI
Deep Research
vLLM 深度实战:当 LLM 推理遇上 PagedAttention——从 KV 缓存管理到生产级高并发服务的完全指南(2026)
编程
vLLM 深度实战:当 LLM 推理遇上 PagedAttention——从 KV 缓存管理到生产级高并发服务的完全指南(2026)
2026-06-08 22:52:24 +0800 CST
view 232
深度解析vLLM推理框架的核心原理、PagedAttention创新机制、分布式推理架构,以及生产环境部署的最佳实践。
vLLM
PagedAttention
LLM推理
KV缓存
分布式推理
2026 年 vLLM 推理服务实战:PagedAttention 原理、分布式部署与性能调优完全指南
编程
2026 年 vLLM 推理服务实战:PagedAttention 原理、分布式部署与性能调优完全指南
2026-06-08 22:53:03 +0800 CST
view 160
深度解析vLLM推理框架的核心原理、PagedAttention创新机制、分布式推理架构,以及生产环境部署的最佳实践。
vLLM
PagedAttention
LLM推理
KV缓存
分布式推理
last30days-skill 深度实战:当 AI 学会「跨平台研究」——从 Reddit 投票到 Polymarket 赌注,构建你的全能 AI 研究助手的完全指南(2026)
编程
last30days-skill 深度实战:当 AI 学会「跨平台研究」——从 Reddit 投票到 Polymarket 赌注,构建你的全能 AI 研究助手的完全指南(2026)
2026-06-15 05:47:38 +0800 CST
view 155
last30days-skill 是一个革命性的 AI agent 技能,它打破了平台壁垒,能够并行搜索 Reddit、X、YouTube、TikTok、Hacker News、Polymarket、GitHub 等多个平台,通过真实用户的投票、点赞、评论和真金白银的赌注来评分内容,最终由 AI 裁判合成一份简洁而全面的摘要报告。本文深入剖析其核心原理、v3 引擎架构、安装配置、实战用法和性能优化技巧。
AI Agent
信息检索
跨平台研究
Reddit
X/Twitter
YouTube
Polymarket
GitHub
开源项目
WebShelf:Rust全栈生产级Admin系统,K8s一键部署+自动读写主从数据库
编程
WebShelf:Rust全栈生产级Admin系统,K8s一键部署+自动读写主从数据库
2026-06-20 15:46:36 +0800 CST
view 111
WebShelf 是生产就绪的 Rust 全栈框架,基于 Axum 后端 + Dioxus 前端(Web/Desktop/Mobile),内置 JWT 认证、PostgreSQL 读写分离、Redis 分布式锁/限流、K8s 一键部署和灰度发布能力。
Rust
Axum
Dioxus
全栈框架
Admin系统
开源
PostgreSQL
Redis
Kubernetes
分布式限流
JWT
SeaORM
LLM 推理优化全景实战:从 PagedAttention 到投机解码——让大模型推理成本下降 70% 的技术革命(2026)
编程
LLM 推理优化全景实战:从 PagedAttention 到投机解码——让大模型推理成本下降 70% 的技术革命(2026)
2026-05-30 15:42:55 +0800 CST
view 272
深度解析 LLM 推理优化的核心技术:PagedAttention 内存管理革命、投机解码加速策略、INT4/FP8 量化技术、MoE 架构优化,从架构原理到代码实战,让大模型推理成本下降 70%。
LLM
推理优化
vLLM
PagedAttention
投机解码
量化
MoE
大家都在搜索什么?
devops
易支付
一个官网+多少钱
统一接受回调
统一回调
sub
node
宝塔日志
mysql
shell
ElasticSearch
css
vue
api接口对接
2025
支付接口对接
go
php
php回调
回调
上一页
1
2
3
4
5
6
...
46
下一页