编程 Sakana AI发布Fugu Ultra：多Agent编排系统包装成单一API，对标Fable 5

2026-06-22 14:40:08 +0800 CST views 11

Sakana AI 发布 Fugu Ultra：多 Agent 编排系统包装成单一 API，对标 Fable 5

标签: Sakana AI / Fugu / 多Agent编排 / ICLR 2026 / TRINITY / Conductor / 开源替代 / API
原文: 微信公众号「AGI Hunt」https://mp.weixin.qq.com/s/S_Owato-5lhzUzx_cQS55g
官网: https://sakana.ai/fugu/

一句话定位

日本 Sakana AI 发布 Fugu，一个把多 Agent 编排系统包装成单一模型 API 的产品。它本身不直接回答问题，而是决定让谁来回答——动态调度模型池，分步完成，自动验证。Fugu Ultra 在 SWE Bench Pro 上拿到 73.7，超过 Opus 4.8 的 69.2。

核心思路：调度模型，而非替代模型

维度	传统 LLM	Fugu
回答方式	自己直接回答	决定让谁来回答
架构	单体模型	Agent 池 + 协调器
调度	无	动态选择模型、分步、验证、递归
用户感知	调一个 API	调一个 API（无感）

Fugu 背后维护一个 Agent 池，包含各种专长不同的模型。任务进来后，Fugu 动态决定：

调哪个模型
分几步完成
要不要验证结果
要不要递归调用自己

整个过程对用户透明——调一个 API，拿一个结果。

两个版本

版本	定位	适用场景
Fugu	平衡性能和延迟	日常编码、代码审查、交互式场景
Fugu Ultra	优化答案质量	高难度问题，调用更深层专家 Agent 池

Benchmark 成绩

Benchmark	Fugu	Fugu Ultra	Opus 4.8	Gemini 3.1 Pro	GPT 5.5
SWE Bench Pro	59.0	73.7	69.2	54.2	58.6
LiveCodeBench	92.9	93.2	87.8	88.5	85.3
GPQA-D	95.5	95.5	92.0	94.3	93.6
HLE	47.2	50.0	49.8	44.4	41.4
TerminalBench 2.1	—	82.1	—	—	—

SWE Bench Pro：73.7，超过 Opus 4.8（69.2）
GPQA-D：95.5，目前公开可用模型中最高分
HLE：50.0，略微超过 Opus 4.8（49.8）

技术原理：RL 训练的协调策略

协调策略没有任何手工设计，全是学出来的。基于两篇 ICLR 2026 论文：

TRINITY — 进化协调器

自适应分配三种角色：Thinker（思考者）、Worker（执行者）、Verifier（验证者）
协调器通过进化算法优化，不依赖人工设定规则

Conductor — RL 指挥家

通过强化学习训练出一个"指挥家"
让它自己发现最优的 Agent 通信模式和协作策略
核心发现：RL 训练出的协调策略是**「非直觉但高效」**的——人类设计师不太会想到那种分工方式

关键区别

Fugu 不是写死的 pipeline，而是一个学会了怎么当项目经理的 LLM。它会动态组装团队，通过非显而易见但高效的协作模式协调完成任务。

六个实战案例

1. AutoResearch（自动化 ML 研究）

自主运行 123 次实验
拿到最优 BPB 得分：0.9774 ± 0.0019
超过所有 frontier 竞争者

2. 日文古籍识别

处理日本历史文献阅读顺序恢复
NED 达到 0.80，竞品只有 0.24 或直接失败
（与 Sakana 日本基因有关，其他家没专门研究日本古籍）

3. 魔方求解器

生成的代码成功解出全部 300 个测试魔方
竞品生成的代码无法正常运行
解法步数：7 胜 293 平 0 负

4. CAD 机械设计

设计了一个可工作的虹膜机构
其他模型产出的设计存在间隙或不完整

5. 盲棋

连续四局对弈保持完美准确率

6. 股票交易回测

50 周回测实现 +19.43% 平均回报
其他 frontier 模型均低于 15%

价格

订阅制（含 Fugu + Fugu Ultra）

方案	月费	额度
Standard	$20	基础额度
Pro	$100	10× Standard
Max	$200	20× Standard

2026 年 7 月前订阅可免费获第二个月。

按量计费（Fugu Ultra）

项目	价格
输入	$5/1M tokens（>272K 上下文时 $10）
输出	$30/1M tokens（>272K 上下文时 $45）
缓存输入	$0.50/1M tokens

对比：Opus 4.8 是 $15 输入 / $75 输出。Fugu Ultra 输入仅其 1/3，输出不到一半。

Fugu 兼容 OpenAI API 格式，改个 endpoint 即可使用。

无出口管制风险

Sakana 反复强调：frontier capability without the risk of export controls。

编排架构天然具有弹性——底层模型切换不影响可用性，最多性能下降，不会从 frontier 直接掉到不可用。

社区反应

已有人火速开源了 TypeScript 实现的简化版 Fugu runtime，用 DSPy 风格的 Agent 框架复刻了 Conductor 的核心模式：指挥、分工、上下文传递、验证和综合。

开发者 Chris 评价：

如果是一个干净的单次 prompt，你大概还是会直接用 Fable 5 或 Mythos。但任务越复杂、越混乱——涉及分工、验证、综合、代码审查、研究循环、安全评估——这种编排系统就越有意义。

可用性

✅ 全球可用
❌ 欧盟/欧洲经济区暂不支持（GDPR 合规进行中）
用户可选择退出特定底层模型（Fugu 版本），Fugu Ultra Agent 池固定
数据默认用于性能改进，可随时在控制台关闭
底层模型路由信息属于专有技术，不公开

总结

Fugu 代表了一种新的 AI 产品思路：不造更大的模型，而是造更好的调度器。

🧠 调度思维：自己不回答，决定让谁回答
📈 成绩硬核：SWE Bench Pro 73.7，GPQA-D 95.5，HLE 50.0
🔬 RL 协调：进化算法 + 强化学习，非直觉但高效
💰 性价比高：输入 $5/1M tokens，输出 $30/1M tokens
🔒 无出口管制：编排架构天然弹性
🔄 兼容 OpenAI API：改个 endpoint 即可

单一供应商的风险越来越大，Fugu 的多 Agent 编排架构提供了一种不依赖单一模型的 frontier 能力路径。

2026-04-29 04:40:38 +0800 CST

eBPF 深度实战：当 Linux 内核学会「动态编程」——从 XDP 百万 QPS 到生产级可观测性的完全指南（2026）

2026-06-14 01:48:10 +0800 CST

Rust 1.94 深度解析：6倍编译提速背后的工程革命，从 Eddy 后端到 Axum 微服务网关实战

2026-04-26 03:12:23 +0800 CST

向量数据库深度实战：PGVector vs Qdrant vs Milvus vs Chroma——从嵌入式到分布式的生产级完全指南（2026）

2026-06-16 22:52:56 +0800 CST

Qdrant 2026 深度实战：当 Rust 遇上向量数据库——从 HNSW 算法到亿级向量检索、从内存优化到生产级 RAG 管道的完全指南

2026-06-22 05:29:50 +0800 CST

IndexedDB-极速本地存储：浏览器中的超级数据库

2024-11-18 16:21:21 +0800 CST

微软 VibeVoice 深度解析：突破长音频处理的语音AI架构革命

2026-05-19 05:47:47 +0800 CST

TypeDOM 深度解析：当 TypeScript 原生面向对象设计重塑前端开发——一个程序员的深度实践与思考

2026-06-16 00:47:55 +0800 CST

4万Star的AI Agent底层框架pi-mono：OpenClaw的发动机，用4个工具做到了极致

2026-04-27 21:05:47 +0800 CST

php使用文件锁解决少量并发问题

2024-11-17 05:07:57 +0800 CST

PostgreSQL 17 深度实战：当「世界上最先进的开源数据库」再次进化——从架构原理到生产级新特性完全指南（2026）

2026-06-05 13:07:25 +0800 CST

PostgreSQL 18 深度解析：异步 I/O 3倍性能飞跃、虚拟生成列、uuidv7() 与 OAuth 2.0——一个数据库大版本的全景技术拆解

2026-05-01 14:05:58 +0800 CST

如何实现生产环境代码加密

2024-11-18 14:19:35 +0800 CST

Gemini 2.5 Pro I/O 版深度实战：从思考模型到 AI 编程之巅——2026 年最强推理大模型工程化完全指南

2026-05-24 14:03:27 +0800 CST

SKILL0深度解析：当技能不再是外挂——浙大与美团如何用技能内化重新定义小模型智能体

2026-04-13 18:57:15 +0800 CST

GSAP是一个高性能的JavaScript动画库

2024-11-19 02:18:10 +0800 CST

GitHub 3.5K Star！DeepSeek TUI：终端中的深度思考编码智能体

2026-05-05 19:10:30 +0800 CST

Kreuzberg：用Rust重塑文档智能，92种格式一键解析的RAG利器

2026-04-08 14:27:27 +0800 CST

deepcopy一个Go语言的深拷贝工具库

2024-11-18 18:17:40 +0800 CST

Go语言的并发编程，包括Mutex、RWMutex、WaitGroup和Channel等机制

2024-11-19 08:09:19 +0800 CST

Little Snitch for Linux 开源深度解析：当 macOS 传奇防火墙「杀入」Linux 生态

2026-04-10 00:25:47 +0800 CST

当 OpenAI 掷出 60 万美元：Rust 如何从系统编程语言变成 AI 基础设施的底层操作系统

2026-06-21 07:57:04 +0800 CST

Shannon 深度实战：当 AI 成为自主黑客——从 96.15% 漏洞命中率到生产级 AI 渗透测试完全指南（2026）

2026-06-08 18:55:11 +0800 CST

Neovim 0.12 深度解析：终端模拟器重构、多光标支持与"电池全内置"时代——2026年最值得关注的开源编辑器升级

2026-05-15 19:47:21 +0800 CST

AI-Scientist-v2 深度实战：当 AI 从「辅助工具」进化成「第一作者」——从树搜索自动化到顶会同行评审的完全指南（2026）

2026-06-08 23:26:28 +0800 CST

OmniVoice Studio：5k Star开源声音克隆工具，646种语言，无GPU也能跑

2026-05-28 20:50:27 +0800 CST

stop-slop 深度实战：让 AI 写作告别"机器味"——从 AI Tells 识别到零痕迹输出的完全指南（2026）

2026-06-02 15:55:21 +0800 CST

Goroutine 泄漏无处遁形：Go 1.27 将 GC 变成并发调试利器

2026-06-09 20:45:09 +0800 CST

2026年AI编程工具深度实战对比：从Cursor到TRAE，五大工具架构原理与多场景实测的完全指南

2026-06-10 06:47:56 +0800 CST

Hermes Agent + Bridge 深度解析：开源自进化 AI Agent 如何实现手机自动化操控

2026-05-09 13:11:22 +0800 CST

Deno 2.0/2.8 深度实战：当 JavaScript 运行时告别「node_modules 地狱」——从安全沙箱到 76% Node.js 兼容性的生产级完全指南（2026）

2026-06-15 22:46:48 +0800 CST

nginx 1.29.8 深度解析：从 max_headers 到 OpenSSL 4.0 兼容，一次性吃透本次版本全部升级点

2026-04-12 12:56:27 +0800 CST

10个几乎无人使用的罕见HTML标签

2024-11-18 21:44:46 +0800 CST

如何使用 Vue 3 中的 `watch` 和 `watchEffect`？

2024-11-18 14:24:45 +0800 CST

Superpowers 深度实战：当 AI 编程助手学会「工程纪律」——从 TDD 闭环到子 Agent 驱动开发的完全指南（2026）

2026-06-14 12:53:44 +0800 CST

Shopify GraphQL Cardinal 深度解析：广度优先执行引擎如何让大型列表查询提速 15 倍

2026-05-10 19:53:54 +0800 CST

Chrome DevTools MCP 深度实战：从浏览器自动化到 AI 编程超能力——Google 官方 MCP 服务器的架构设计与生产级实践

2026-05-22 17:17:43 +0800 CST

如何使用Generator和Promise实现async/await的功能

2024-11-18 14:00:00 +0800 CST

Google LangExtract 深度解析：用LLM实现非结构化文本的精准结构化提取与可视化

2026-05-17 19:18:49 +0800 CST

OpenClaw 深度实战：从"聊天AI"到"本地执行智能体"的范式跃迁——2026年最火开源AI Agent框架完全指南

2026-05-31 02:14:52 +0800 CST

NVIDIA garak + SkillSpector 深度实战：当 AI Agent 学会「安全自检」——从 LLM 漏洞扫描到技能市场治理的完全指南（2026）

2026-06-13 12:20:18 +0800 CST

CSS 2026 深度解析：8 大原生特性终结 JavaScript 依赖，前端开发范式正在重写

2026-05-15 11:18:21 +0800 CST

Rust 异步编程深度剖析：从 Future 状态机到 Tokio 调度器的全链路实战

2026-04-29 05:10:14 +0800 CST

Anthropic Project Glasswing 深度实战：AI 吞噬软件安全的元年——从 Claude Mythos 扫描引擎到全球关键基础设施防御体系的完全指南（2026）

2026-06-03 01:16:03 +0800 CST

PostgreSQL 18深度解析：从WAL延迟检测到Kubernetes原位大版本升级——一次数据库工程能力的大跨越

2026-04-12 19:55:15 +0800 CST

eBPF驱动的可观测性革命：零侵入自动采集、3%节点开销替代Sidecar 10%损耗——Grafana Beyla、DeepFlow与Cilium Hubble生产级深度实战

2026-06-01 16:24:33 +0800 CST

DigitalPlat FreeDomain 深度实战：免费域名服务的架构哲学与工程化实践（2026完全指南）

2026-06-02 15:24:24 +0800 CST

Go语言中的`strconv`包，提供了字符串与基本数据类型之间的转换函数

2024-11-19 02:02:18 +0800 CST

Claude Code官方桌面端正式发布，实时预览太强了

2026-05-29 04:15:00 +0800 CST

Superpowers：78,000星背后，AI编程从「玩具」进化到「工友」的秘密

2026-04-08 10:58:42 +0800 CST