程序员茄子
全部
编程
代码
资讯
案例
综合
联系我们
html在线编辑
登录注册
AI,自己全程接管维护
php
mysql
shell
go
vue
css
api接口对接
支付接口对接
最新
最热
当 Apple Silicon 遇上视觉大模型:MLX-VLM 如何把「本地多模态推理」变成现实
编程
当 Apple Silicon 遇上视觉大模型:MLX-VLM 如何把「本地多模态推理」变成现实
2026-04-11 10:24:48 +0800 CST
view 485
深度解析 Apple Silicon 上的视觉语言模型推理引擎 MLX-VLM,涵盖架构设计、模型支持、性能优化与实战部署。
Apple Silicon
MLX
视觉语言模型
VLM
Mac本地AI
多模态推理
DBCooker深度解析:当大语言模型学会给数据库「写代码」,SIGMOD 2026 论文揭示的自动化革命
编程
DBCooker深度解析:当大语言模型学会给数据库「写代码」,SIGMOD 2026 论文揭示的自动化革命
2026-04-23 03:10:18 +0800 CST
view 213
深度解析SIGMOD 2026论文DBCooker:上交大联合清华等机构提出的AI自动生成数据库原生函数系统,准确率比Claude Code等竞争对手高34.55%,成功为SQLite添加17个新函数。
AI
数据库
大语言模型
PostgreSQL
SQLite
DuckDB
代码生成
SIGMOD
自动化
ReAct 框架深度解析:AI Agent 的「思考-行动-观察」循环,从字符串解析到原生 Tool Calling 的演进
编程
ReAct 框架深度解析:AI Agent 的「思考-行动-观察」循环,从字符串解析到原生 Tool Calling 的演进
2026-05-14 01:14:23 +0800 CST
view 172
ReAct框架是AI Agent的核心架构范式,通过Thought-Action-Observation循环实现智能推理与行动。本文深度解析其从字符串解析到原生Tool Calling的演进历程、LangGraph状态机架构、代码实战及最佳实践。
ReAct,AI Agent,TAO循环,Function Calling,LangGraph,大语言模型,深度学习,Python,机器学习,智能体
综合
Llama 3.1 Omni:颠覆性的文本与语音双输出模型
2024-11-19 09:57:33 +0800 CST
view 1703
Llama3.1Omni模型是一种创新的多模态语言模型,能够同时生成文本和语音,提升用户体验。它适用于客户服务、教育和医疗等多个领域,具有强大的推理能力和生成质量。该模型开源,易于使用,开发者可以根据需求进行定制。Llama3.1Omni的出现为AI应用带来了更智能和多样化的可能性,值得关注和应用。
人工智能
语言模型
多模态交互
开源技术
用户体验
DBCooker深度解析:AI如何让数据库"自学会"新增原生函数
编程
DBCooker深度解析:AI如何让数据库"自学会"新增原生函数
2026-04-18 11:43:56 +0800 CST
view 235
2026年上交大、清华、蚂蚁集团联合发布DBCooker系统,借助大语言模型自动完成数据库原生函数的代码合成,平均准确率比Claude Code、Qwen Code等竞争对手高出34.55%
数据库
AI
大语言模型
PostgreSQL
SQLite
DuckDB
代码生成
函数合成
开源!低代码AI模型训练系统:工业级智能开发平台深度解析
案例
开源!低代码AI模型训练系统:工业级智能开发平台深度解析
2026-05-05 19:05:49 +0800 CST
view 218
开源低代码AI模型训练系统,工业级智能开发平台,图像采集、智能检测、数据标注、模型训练四大模块,单张检测<2秒,字符识别率≥99.5%
AI
深度学习
工业智能
低代码
机器视觉
模型训练
工业质检
在 Rust 中使用 OpenCV 进行绘图
编程
在 Rust 中使用 OpenCV 进行绘图
2024-11-19 06:58:07 +0800 CST
view 1697
本文详细介绍了如何在Rust中使用OpenCV进行绘图,包括绘制线条、形状和文本。OpenCV提供了丰富的绘图函数和参数选项,涵盖了直线、矩形、圆形、椭圆、多边形及文本的添加,配有示例代码,帮助读者理解和应用这些功能。
编程
计算机视觉
图像处理
Rust
OpenCV
视觉即代码:GLM-5V-Turbo 如何用 94.8 分重新定义 Design2Code
编程
视觉即代码:GLM-5V-Turbo 如何用 94.8 分重新定义 Design2Code
2026-05-11 09:52:48 +0800 CST
view 216
智谱AI发布GLM-5V-Turbo多模态编程基座模型,从预训练阶段原生融合视觉与语言,在Design2Code基准测试中以94.8分超越所有竞品。本文深度解析CogViT视觉编码器、MMTP多模态多Token预测、多任务RL优化等技术细节,以及如何用API接入实现从设计稿到可运行代码的完整工作流。
GLM-5V-Turbo
视觉编程
Design2Code
多模态
CogViT
MMTP
智谱AI
AI编程
Agent TARS 深度解析:字节跳动开源的「视觉-行动」双引擎 GUI Agent——从 UI-TARS 模型架构到计算机控制的完整技术内幕
编程
Agent TARS 深度解析:字节跳动开源的「视觉-行动」双引擎 GUI Agent——从 UI-TARS 模型架构到计算机控制的完整技术内幕
2026-05-17 14:14:17 +0800 CST
view 139
深入解析字节跳动开源的 Agent TARS / UI-TARS-Desktop 多模态 GUI Agent 技术栈,从底层视觉语言模型到三层感知-规划-执行 Pipeline,配详细代码示例和实战案例。
AI Agent
GUI自动化
字节跳动
多模态
UI-TARS
计算机视觉
VLM
MCP
Python
sagiri,一个Python中非常有用的图像处理库
综合
sagiri,一个Python中非常有用的图像处理库
2024-11-17 11:40:16 +0800 CST
view 1555
sagiri是一个功能强大的Python图像处理库,提供丰富的API,支持图像加载、显示、转换、滤波、边缘检测、轮廓检测和特征匹配等功能。本文介绍了sagiri的安装、基本用法和实际案例,展示了如何使用该库进行人脸检测等任务。sagiri适用于数据处理、科学研究和计算机视觉项目,是一个简单且强大的选择。
图像处理
Python库
计算机视觉
三行CSS实现惊艳像素化效果:揭秘Element-plus官网视觉魔法
编程
三行CSS实现惊艳像素化效果:揭秘Element-plus官网视觉魔法
2025-08-19 16:30:01 +0800 CST
view 1311
本文深入剖析了Element-plus官网的像素化效果,展示了如何用三行CSS代码实现复古像素风格。通过创建半透明像素网格遮罩层,结合径向渐变和模糊滤镜,用户可以轻松复现这一视觉效果。文章还提供了代码示例、参数调优指南及技术原理解析,强调了CSS在视觉设计中的强大能力。
CSS
前端开发
视觉设计
用户体验
技术解析
HTML文档,包含用于创建星空背景的CSS样式
代码
HTML文档,包含用于创建星空背景的CSS样式
2024-11-18 11:27:40 +0800 CST
view 1431
该文本是一个HTML文档,包含用于创建星空背景的CSS样式。通过使用渐变和动画效果,页面展示了一个动态的星空效果。文档结构包括头部和主体,主体中包含多个星星的div元素,以及一个显示标题的div。整体设计旨在提供视觉上的美感和动态效果。
网页设计
前端开发
视觉效果
编程
Poster-Design:开源海报设计工具的完全指南与核心技术解析
2025-09-01 09:49:16 +0800 CST
view 1187
Poster-Design是一个功能强大的开源海报设计工具,旨在满足日益增长的高质量视觉设计需求。它基于现代Web技术栈构建,提供从简单图片编辑到复杂排版设计的全方位能力。本文深入解析其架构设计、核心功能及快速创建专业级视觉内容的方法,适用于电商、社交媒体、企业宣传等多个场景。
设计工具
开源软件
视觉设计
技术架构
开发
Mano-P + Cider:4B模型本地操控Mac,端侧GUI Agent新时代
案例
Mano-P + Cider:4B模型本地操控Mac,端侧GUI Agent新时代
2026-05-07 13:34:32 +0800 CST
view 172
明略科技开源Mano-P(4B量化模型本地操控Mac)和Cider(MLX推理加速框架)。476 tokens/s预填充,76 tokens/s解码,峰值内存4.3GB,完全本地运行数据不出设备,离线长任务自主规划
GUI Agent
端侧AI
Apple Silicon
MLX
视觉理解
本地运行
Mano-P
Cider
Flipbook:无限视觉浏览器,UI的终极形态来了?
编程
Flipbook:无限视觉浏览器,UI的终极形态来了?
2026-04-27 06:11:36 +0800 CST
view 855
前OpenAI研究员Zain Shah团队发布Flipbook,用AI像素流彻底替代HTML/CSS,成为可以实时生成百科全书式动态插画的无限视觉浏览器。本文深度解析其原理、特性、局限与未来影响。
AI
Flipbook
UI设计
未来技术
视觉交互
编程
OpenCV 检测与跟踪移动物体
2024-11-18 15:27:01 +0800 CST
view 2081
本文介绍了如何使用OpenCV和Python检测与跟踪移动物体,重点讲解了背景减除器的工作原理及其在视频流中的应用。通过比较帧之间的差异,背景减除技术能够有效隔离前景物体。文中详细描述了KNN和MOG2两种背景减除器的实现过程,并提供了相应的代码示例,帮助读者理解如何在实际应用中进行目标检测与追踪。
计算机视觉
目标检测
视频处理
MiniMind-O 深度实战:从0训练0.1B全模态Omni模型——2026年极简大模型工程化完全指南
编程
MiniMind-O 深度实战:从0训练0.1B全模态Omni模型——2026年极简大模型工程化完全指南
2026-05-24 16:30:13 +0800 CST
view 66
MiniMind-O 以仅0.1B参数实现能听能说能看的全模态Omni能力,4张RTX 3090仅需4小时完成训练。本文深入剖析Thinker-Talker双路架构、编码器融合技术,并提供从数据处理到推理部署的完整工程化指南。
MiniMind-O
全模态模型
Omni模型
大模型训练
多模态AI
边缘计算
Models.dev:OpenCode团队开源3.6K Star的AI模型数据库
案例
Models.dev:OpenCode团队开源3.6K Star的AI模型数据库
2026-05-07 07:11:58 +0800 CST
view 183
OpenCode团队开源的AI模型数据库,3.6K Star,219+贡献者维护。标准化整合数十家主流AI模型的价格、能力、规格信息,提供JSON API,支持精确成本估算,TOML格式数据
AI模型
模型对比
成本计算
OpenCode开源
TOML
JSON API
模型规格
Kimi K2.6 开源深度测评:国产模型首次登顶全球代码榜首,开发者必须知道的那些事
编程
Kimi K2.6 开源深度测评:国产模型首次登顶全球代码榜首,开发者必须知道的那些事
2026-04-28 15:51:45 +0800 CST
view 285
2026年4月20日月之暗面发布Kimi K2.6,在SWE-Bench Pro拿下58.6分首次超越GPT-5.4和Claude Opus 4.6。本文从技术架构、代码实测、API集成、性能优化、工具链集成等维度进行深度测评。
AI大模型
代码工具
Kimi
月之暗面
开源模型
SWE-Bench
开发者工具
代码审查
Google TimesFM 深度解析:14K Star 的时间序列基础模型如何用 200M 参数颠覆零样本预测
编程
Google TimesFM 深度解析:14K Star 的时间序列基础模型如何用 200M 参数颠覆零样本预测
2026-04-28 18:22:55 +0800 CST
view 246
深度解析 Google TimesFM:200M 参数如何在 1000 亿时间点上预训练后实现零样本超越有监督模型,覆盖架构原理、代码实战、性能对比与生产部署完整指南。
AI大模型
时间序列预测
Google
TimesFM
零样本预测
深度学习
GitHub开源
预训练模型
DeepSeek 专家模式深度解析:当低调更新成为AGI赛道的产品哲学宣言
编程
DeepSeek 专家模式深度解析:当低调更新成为AGI赛道的产品哲学宣言
2026-04-09 10:23:56 +0800 CST
view 361
2026年4月8日,DeepSeek悄然上线「专家模式」,无发布会无公告,却被业内视为V4发布前最有分量的产品预告。本文深度拆解双模式技术架构差异,实测数理推理、专业编程、创意写作三大场景,并解读这一低调更新背后的产品哲学与行业信号。
DeepSeek
AI大模型
V4
专家模式
推理模型
产品设计
国产AI
场景分层
Gemma 4 架构解密:MoE 路由 × GQA 注意力 × Thinking Mode——31B 如何击败 20 倍参数对手
编程
Gemma 4 架构解密:MoE 路由 × GQA 注意力 × Thinking Mode——31B 如何击败 20 倍参数对手
2026-04-19 17:47:49 +0800 CST
view 295
深入解析 Google Gemma 4 的核心技术架构:MoE 稀疏专家路由、GQA 分组查询注意力、PLE 逐层嵌入、Thinking Mode 推理机制,详解 31B 模型如何以小博大击败 20 倍参数对手,附全场景部署实战代码。
Gemma
Google
AI
开源大模型
MoE
GQA
Transformer
深度学习
模型架构
VibeVoice 深度解析:微软如何用 7.5Hz 超低帧率暴力破解 90 分钟长语音合成——开源语音 AI 的技术革命
编程
VibeVoice 深度解析:微软如何用 7.5Hz 超低帧率暴力破解 90 分钟长语音合成——开源语音 AI 的技术革命
2026-05-10 23:20:20 +0800 CST
view 224
深度解析微软开源语音 AI 项目 VibeVoice 的技术架构——从 7.5Hz 超低帧率分词器到 Next-Token Diffusion 框架,一次性处理 90 分钟多说话人音频的革命性突破。
VibeVoice
语音AI
TTS
ASR
微软
开源模型
LLM
扩散模型
SANA-WM 深度解析:2.6B 参数开源世界模型如何颠覆视频生成——从扩散Transformer到1分钟720p实时渲染的完整技术架构
编程
SANA-WM 深度解析:2.6B 参数开源世界模型如何颠覆视频生成——从扩散Transformer到1分钟720p实时渲染的完整技术架构
2026-05-16 21:15:15 +0800 CST
view 535
SANA-WM是NVIDIA Lab开源的2.6B参数世界模型视频生成系统,支持1分钟720p视频生成。本文从扩散Transformer底层数学到Flow Matching推理优化,完整解析其Dual-Pathway架构、3D VAE时空压缩、因果注意力掩码等核心技术,并提供完整PyTorch代码示例。
AI视频生成
世界模型
扩散模型
Transformer
Flow Matching
大家都在搜索什么?
devops
易支付
一个官网+多少钱
统一接受回调
统一回调
sub
node
宝塔日志
mysql
shell
ElasticSearch
css
vue
api接口对接
2025
支付接口对接
go
php
php回调
回调
上一页
1
2
3
...
13
下一页