程序员茄子
全部
编程
代码
资讯
案例
综合
联系我们
html在线编辑
登录注册
AI,自己全程接管维护
php
mysql
shell
go
vue
css
api接口对接
支付接口对接
最新
最热
VPS 搭建 7×24 时时无人监看推流服务器实现多平台同步直播
编程
VPS 搭建 7×24 时时无人监看推流服务器实现多平台同步直播
2025-04-01 22:19:52 +0800 CST
view 1664
本教程指导用户如何在VPS上搭建7×24小时无人监看推流服务器,实现YouTube、B站、抖音、TikTok等多个平台的同步直播。包括环境准备、依赖安装、推流脚本下载、使用Screen管理进程等步骤,确保直播稳定高效。
VPS
直播技术
多媒体
stop-slop 深度实战:让 AI 写作告别"机器味"——从 AI Tells 识别到零痕迹输出的完全指南(2026)
编程
stop-slop 深度实战:让 AI 写作告别"机器味"——从 AI Tells 识别到零痕迹输出的完全指南(2026)
2026-06-02 15:55:21 +0800 CST
view 459
深度解析 stop-slop 项目,系统性移除 AI 写作痕迹的实战指南,涵盖规则体系、评分标准、实战集成与完整代码示例。
AI写作
stop-slop
LLM
提示工程
技术写作
LiteRT-LM:Google端侧大模型推理引擎的革命性架构——从TensorFlow Lite的困境到LLM原生推理的全链路解析
编程
LiteRT-LM:Google端侧大模型推理引擎的革命性架构——从TensorFlow Lite的困境到LLM原生推理的全链路解析
2026-04-19 22:17:39 +0800 CST
view 733
深入解析Google LiteRT-LM端侧LLM推理引擎的核心架构:分层内存池、KV Cache量化、算子融合、WebGPU运行时。与TensorFlow Lite、llama.cpp、MLX横向对比,提供生产级部署实战指南。
Google
端侧AI
LiteRT-LM
WebGPU
量化
KV Cache
TensorFlow Lite
LLM推理
万字深度解析 MinerU:当文档解析遇见「视觉语言模型」——从 PDF 到结构化 Markdown 的端到端工程化实践(2026)
编程
万字深度解析 MinerU:当文档解析遇见「视觉语言模型」——从 PDF 到结构化 Markdown 的端到端工程化实践(2026)
2026-07-02 01:13:03 +0800 CST
view 21
深度解析MinerU开源项目:72.3K GitHub Star的文档解析引擎,VLM+OCR双引擎,1.2B参数达到95.69分(OmniDocBench),支持PDF/DOCX/PPTX/XLSX解析,原生集成LangChain/Dify/RAGFlow等六大框架,含15+可运行代码示例。
MinerU
PDF解析
文档解析
RAG
LLM
VLM
OCR
LangChain
Dify
MCP
智谱 GLM-5.1 深度解析:当开源模型突破「8小时自治」临界点
编程
智谱 GLM-5.1 深度解析:当开源模型突破「8小时自治」临界点
2026-04-09 00:53:51 +0800 CST
view 1215
2026年4月8日智谱发布GLM-5.1,744B参数MIT开源,SWE-bench Pro 58.4分超越Claude Opus 4.6,全球首个支持8小时长程自治的开源模型。
GLM-5.1
智谱AI
开源大模型
MoE
SWE-bench
长程自治
LLM
Ollama 深度实战:当本地大模型成为生产级基础设施——从模型量化到高并发推理、从 REST API 到 Kubernetes 部署的完全指南(2026)
编程
Ollama 深度实战:当本地大模型成为生产级基础设施——从模型量化到高并发推理、从 REST API 到 Kubernetes 部署的完全指南(2026)
2026-06-20 01:25:22 +0800 CST
view 270
Ollama本地大模型生产级部署完全指南:从GGUF格式原理、INT4/INT8量化实战、REST API集成、多语言SDK(Python/Go/TypeScript)、GPU显存管理、Kubernetes+Helm生产部署、性能调优到RAG知识库构建,全流程深度实战。
Ollama
本地大模型
LLM部署
模型量化
GGUF
llama.cpp
REST API
Kubernetes
GPU
RAG
Ollama 0.30 深度实战:当本地 LLM 推理有了双引擎——从 llama.cpp + MLX 双后端到 Gemma 4 QAT、从 Cohere2 MoE 到 ollama launch AI 编程助手生态的生产级完全指南(2026)
编程
Ollama 0.30 深度实战:当本地 LLM 推理有了双引擎——从 llama.cpp + MLX 双后端到 Gemma 4 QAT、从 Cohere2 MoE 到 ollama launch AI 编程助手生态的生产级完全指南(2026)
2026-06-21 08:54:17 +0800 CST
view 258
Ollama 0.30 深度解析:双引擎推理架构、Gemma 4 QAT、Cohere2 MoE、ollama launch 生态与生产级部署完全指南
Ollama
LLM
本地推理
AI编程
llama.cpp
MLX
Gemma
开源
OpenCode 深度解析:157K Star 的开源 AI 编程智能体——如何打造 Claude Code 的完美平替
编程
OpenCode 深度解析:157K Star 的开源 AI 编程智能体——如何打造 Claude Code 的完美平替
2026-05-16 05:45:45 +0800 CST
view 406
深度解析OpenCode——157K Star的开源AI编程智能体,支持75+ LLM提供商,如何成为Claude Code的完美平替
AI编程
开源
OpenCode
Claude Code平替
LLM
OpenAI Jalapeño 深度解析:9个月流片的AI推理芯片如何把成本砍掉一半,英伟达GPU帝国的裂痕
编程
OpenAI Jalapeño 深度解析:9个月流片的AI推理芯片如何把成本砍掉一半,英伟达GPU帝国的裂痕
2026-06-29 21:14:35 +0800 CST
view 44
深度解析OpenAI首款自研AI推理芯片Jalapeño:9个月流片、推理成本降低50%、每瓦性能超越英伟达GPU。从架构设计、内存优化、数据流优化到产业链合作,全方位解读这款芯片如何重塑AI推理市场格局。
OpenAI
Jalapeño
AI芯片
ASIC
推理芯片
英伟达
GPU
博通
Broadcom
LLM推理
TriAttention深度解析:用三角函数革命性压缩KV Cache,让长推理从「显存地狱」中脱困
编程
TriAttention深度解析:用三角函数革命性压缩KV Cache,让长推理从「显存地狱」中脱困
2026-05-17 04:14:18 +0800 CST
view 355
深入解析MIT韩松团队提出的TriAttention方法,利用Pre-RoPE空间Q/K集中性和三角函数级数实现革命性的KV Cache压缩,在AIME25上以3072 KV budget达到与Full Attention持平的40.8%准确率,同时实现10.7倍KV显存压缩和2.5-6.3倍吞吐量提升。
LLM
KV Cache
TriAttention
MIT
英伟达
浙大
长推理
KV压缩
三角函数
RoPE
Attention优化
【重制版】TriAttention深度解析:三角函数如何让长推理从显存地狱中脱困
编程
【重制版】TriAttention深度解析:三角函数如何让长推理从显存地狱中脱困
2026-05-17 04:14:33 +0800 CST
view 328
深入解析MIT韩松团队提出的TriAttention方法,利用Pre-RoPE空间Q/K集中性和三角函数级数实现革命性的KV Cache压缩,在AIME25上以3072 KV budget达到与Full Attention持平的40.8%准确率,同时实现10.7倍KV显存压缩和2.5-6.3倍吞吐量提升。
LLM
KV Cache
TriAttention
MIT
英伟达
浙大
长推理
KV压缩
三角函数
RoPE
Attention优化
Headroom 深度实战:当 Netflix 工程师用「上下文压缩」掀翻 AI 成本底牌——从 CCR 可逆机制到跨 Agent 记忆的生产级完全指南(2026)
编程
Headroom 深度实战:当 Netflix 工程师用「上下文压缩」掀翻 AI 成本底牌——从 CCR 可逆机制到跨 Agent 记忆的生产级完全指南(2026)
2026-06-11 15:20:19 +0800 CST
view 342
Netflix工程师开源的AI上下文压缩工具Headroom,能在保持答案质量的前提下将Token消耗压缩60-95%,累计节省70万美元成本。本文深度剖析其架构设计、CCR可逆机制、跨Agent记忆共享与生产级集成实践。
AI编程
Token压缩
上下文管理
LLM优化
OpenSource
OpenTelemetry 深度实战:从链路追踪到AI可观测,构建生产级可观测性体系的完全指南(2026)
编程
OpenTelemetry 深度实战:从链路追踪到AI可观测,构建生产级可观测性体系的完全指南(2026)
2026-06-13 10:47:34 +0800 CST
view 254
全面解析 OpenTelemetry 生产级部署:从 Traces/Metrics/Logs 三元闭包到 LLM AI 追踪,涵盖 Go/Python 代码实战、Collector 两阶段架构、Tail Sampling 成本控制与 otel-mcp AI 可观测智能体。
OpenTelemetry
可观测性
链路追踪
Go
Python
LLM
MarkItDown 深度解析:微软如何用一款工具重塑 RAG 文档处理管线
编程
MarkItDown 深度解析:微软如何用一款工具重塑 RAG 文档处理管线
2026-04-13 12:25:55 +0800 CST
view 845
微软开源的 MarkItDown 如何统一 PDF、Word、Excel、PPT 等格式转换为 Markdown,成为 RAG 数据预处理的事实标准。
RAG
Python
文档处理
Markdown
微软
OpenAI
LLM
AI应用可观测性工程2026:LLM调用追踪、评估体系与成本监控全栈实践
编程
AI应用可观测性工程2026:LLM调用追踪、评估体系与成本监控全栈实践
2026-06-18 18:33:15 +0800 CST
view 224
系统介绍2026年AI应用可观测性工程:从OpenTelemetry Tracing、LLM Judge评估、Token成本监控到智能告警,涵盖Python/Go/TypeScript全栈代码实践。
AI可观测性
OpenTelemetry
LLM监控
LangFuse
成本优化
Grafana
分布式追踪
OpenAI Jalapeño 芯片深度解析:从"借道英伟达"到"自建帝国",一颗"辣椒"如何重塑 AI 算力格局
编程
OpenAI Jalapeño 芯片深度解析:从"借道英伟达"到"自建帝国",一颗"辣椒"如何重塑 AI 算力格局
2026-06-27 10:43:27 +0800 CST
view 86
2026年6月24日OpenAI发布首款自研AI推理芯片Jalapeño,从架构设计到流片仅用9个月。本文深度解析这颗ASIC的技术架构、数据流设计、AI辅助芯片工程、对英伟达的影响以及整个AI算力产业格局的重塑。
OpenAI,Jalapeño,AI芯片,ASIC,博通,Broadcom,LLM推理,AI基础设施,半导体,大模型
AI 编程助手瘫痪了吗?Karpathy Skills 与 CLAUDE.md 如何用数学约束驯服 LLM 的混乱天性——从四大失败模式到生产级行为规则的完全指南
编程
AI 编程助手瘫痪了吗?Karpathy Skills 与 CLAUDE.md 如何用数学约束驯服 LLM 的混乱天性——从四大失败模式到生产级行为规则的完全指南
2026-05-23 00:46:41 +0800 CST
view 312
深度剖析 AI 编码代理的四大核心失败模式(静默假设、过度工程、范围蔓延、缺乏验证),介绍 Karpathy Skills 项目如何用行为约束体系替代模糊提示,以及如何使用 CLAUDE.md 构建可维护的 AI 辅助开发流程。
AI编程
LLM
Karpathy Skills
CLAUDE.md
行为约束
提示工程
llama.cpp 深度实战:从 GGUF 量化到 CUDA 内核优化——纯 C/C++ 如何在 CPU/GPU 上榨出 LLM 推理的极限性能
编程
llama.cpp 深度实战:从 GGUF 量化到 CUDA 内核优化——纯 C/C++ 如何在 CPU/GPU 上榨出 LLM 推理的极限性能
2026-05-23 17:18:22 +0800 CST
view 1574
2026年深度拆解 llama.cpp 的核心架构:GGUF 格式原理、20+量化方法对比、KV Cache 优化、多硬件后端性能实测,与 Ollama/vLLM 完整横评。
llama.cpp
GGUF
量化
CUDA
Metal
LLM推理
C++
本地部署
性能优化
GGML
万字深度解析 Andrej Karpathy Skills:当 AI 编程遇见行为约束——从 CLAUDE.md 四原则到生产级 AI 编码工作流的工程化实践(2026)
编程
万字深度解析 Andrej Karpathy Skills:当 AI 编程遇见行为约束——从 CLAUDE.md 四原则到生产级 AI 编码工作流的工程化实践(2026)
2026-07-01 05:13:58 +0800 CST
view 24
2026年Andrej Karpathy Skills在GitHub狂揽11.7万Star。深度解析CLAUDE.md四核心原则:先思考再编码、简洁性优先、精准修改、目标驱动执行,以及生产级AI编程工作流工程化实践。
Andrej Karpathy Skills
CLAUDE.md
AI编程
Vibe Coding
LLM
行为约束
AI Agent
Cursor
NVIDIA garak + SkillSpector 深度实战:当 AI Agent 学会「安全自检」——从 LLM 漏洞扫描到技能市场治理的完全指南(2026)
编程
NVIDIA garak + SkillSpector 深度实战:当 AI Agent 学会「安全自检」——从 LLM 漏洞扫描到技能市场治理的完全指南(2026)
2026-06-13 12:20:18 +0800 CST
view 429
深入剖析 NVIDIA garak 和 SkillSpector 两款 AI 安全工具,解读 arXiv:2606.01494 论文关于三方扫描器低重合度的发现,提供 Agent Skills 安全治理的完整指南。
NVIDIA
garak
SkillSpector
AI安全
LLM
Agent
猛涨25K Star!LLMFit:一键检测你的电脑能跑哪些大模型
案例
猛涨25K Star!LLMFit:一键检测你的电脑能跑哪些大模型
2026-05-06 07:35:19 +0800 CST
view 433
25K+Star的LLMFit一键检测你的电脑能跑哪些大模型,Rust编写支持NVIDIA/AMD/Intel/Apple Silicon,智能量化推荐Q8到Q2,四维评分系统,TUI+CLI双模式
LLM部署
硬件检测
量化推荐
Rust
终端工具
本地部署
Ollama
Ollama 本地大模型部署实战:从零到生产级应用的完全指南(2026)
编程
Ollama 本地大模型部署实战:从零到生产级应用的完全指南(2026)
2026-06-10 01:20:57 +0800 CST
view 299
2026年Ollama本地大模型部署完全指南:从架构原理、GGUF量化、ModelFile自定义、多语言集成(Python/JS/Go)、RAG实战到Docker/K8s生产部署,8500字深度长文。
Ollama
本地部署
大模型
LLM
生产级
GGUF
量化
从零构建企业级本地化RAG系统:Ollama与RAGFlow深度实战
编程
从零构建企业级本地化RAG系统:Ollama与RAGFlow深度实战
2026-06-29 01:46:19 +0800 CST
view 103
深入探讨如何基于Ollama和RAGFlow构建完全本地化的RAG系统,涵盖架构设计、部署实战、代码实现和性能优化。
RAG
Ollama
RAGFlow
本地部署
LLM
2026 大模型推理优化:TensorRT-LLM v0.19 + Blackwell + 低比特量化实战手册
编程
2026 大模型推理优化:TensorRT-LLM v0.19 + Blackwell + 低比特量化实战手册
2026-04-09 03:15:44 +0800 CST
view 823
2026年TensorRT-LLM v0.19全面解析:Skip Softmax稀疏注意力、Paged KV Cache显存管理、INT8/INT4低比特量化完整实战,Blackwell架构适配指南,70B模型单卡部署方案
TensorRT-LLM
低比特量化
Blackwell
INT8
INT4
推理优化
NVIDIA
大家都在搜索什么?
devops
易支付
一个官网+多少钱
统一接受回调
统一回调
sub
node
宝塔日志
mysql
shell
ElasticSearch
css
vue
api接口对接
2025
支付接口对接
go
php
php回调
回调
上一页
1
...
5
6
7
8
9
...
32
下一页