Sakana AI 发布 Fugu Ultra:多 Agent 编排系统包装成单一 API,对标 Fable 5
标签: Sakana AI / Fugu / 多Agent编排 / ICLR 2026 / TRINITY / Conductor / 开源替代 / API
原文: 微信公众号「AGI Hunt」https://mp.weixin.qq.com/s/S_Owato-5lhzUzx_cQS55g
官网: https://sakana.ai/fugu/
一句话定位
日本 Sakana AI 发布 Fugu,一个把多 Agent 编排系统包装成单一模型 API 的产品。它本身不直接回答问题,而是决定让谁来回答——动态调度模型池,分步完成,自动验证。Fugu Ultra 在 SWE Bench Pro 上拿到 73.7,超过 Opus 4.8 的 69.2。
核心思路:调度模型,而非替代模型
| 维度 | 传统 LLM | Fugu |
|---|---|---|
| 回答方式 | 自己直接回答 | 决定让谁来回答 |
| 架构 | 单体模型 | Agent 池 + 协调器 |
| 调度 | 无 | 动态选择模型、分步、验证、递归 |
| 用户感知 | 调一个 API | 调一个 API(无感) |
Fugu 背后维护一个 Agent 池,包含各种专长不同的模型。任务进来后,Fugu 动态决定:
- 调哪个模型
- 分几步完成
- 要不要验证结果
- 要不要递归调用自己
整个过程对用户透明——调一个 API,拿一个结果。
两个版本
| 版本 | 定位 | 适用场景 |
|---|---|---|
| Fugu | 平衡性能和延迟 | 日常编码、代码审查、交互式场景 |
| Fugu Ultra | 优化答案质量 | 高难度问题,调用更深层专家 Agent 池 |
Benchmark 成绩
| Benchmark | Fugu | Fugu Ultra | Opus 4.8 | Gemini 3.1 Pro | GPT 5.5 |
|---|---|---|---|---|---|
| SWE Bench Pro | 59.0 | 73.7 | 69.2 | 54.2 | 58.6 |
| LiveCodeBench | 92.9 | 93.2 | 87.8 | 88.5 | 85.3 |
| GPQA-D | 95.5 | 95.5 | 92.0 | 94.3 | 93.6 |
| HLE | 47.2 | 50.0 | 49.8 | 44.4 | 41.4 |
| TerminalBench 2.1 | — | 82.1 | — | — | — |
- SWE Bench Pro:73.7,超过 Opus 4.8(69.2)
- GPQA-D:95.5,目前公开可用模型中最高分
- HLE:50.0,略微超过 Opus 4.8(49.8)
技术原理:RL 训练的协调策略
协调策略没有任何手工设计,全是学出来的。基于两篇 ICLR 2026 论文:
TRINITY — 进化协调器
- 自适应分配三种角色:Thinker(思考者)、Worker(执行者)、Verifier(验证者)
- 协调器通过进化算法优化,不依赖人工设定规则
Conductor — RL 指挥家
- 通过强化学习训练出一个"指挥家"
- 让它自己发现最优的 Agent 通信模式和协作策略
- 核心发现:RL 训练出的协调策略是**「非直觉但高效」**的——人类设计师不太会想到那种分工方式
关键区别
Fugu 不是写死的 pipeline,而是一个学会了怎么当项目经理的 LLM。它会动态组装团队,通过非显而易见但高效的协作模式协调完成任务。
六个实战案例
1. AutoResearch(自动化 ML 研究)
- 自主运行 123 次实验
- 拿到最优 BPB 得分:0.9774 ± 0.0019
- 超过所有 frontier 竞争者
2. 日文古籍识别
- 处理日本历史文献阅读顺序恢复
- NED 达到 0.80,竞品只有 0.24 或直接失败
- (与 Sakana 日本基因有关,其他家没专门研究日本古籍)
3. 魔方求解器
- 生成的代码成功解出全部 300 个测试魔方
- 竞品生成的代码无法正常运行
- 解法步数:7 胜 293 平 0 负
4. CAD 机械设计
- 设计了一个可工作的虹膜机构
- 其他模型产出的设计存在间隙或不完整
5. 盲棋
- 连续四局对弈保持完美准确率
6. 股票交易回测
- 50 周回测实现 +19.43% 平均回报
- 其他 frontier 模型均低于 15%
价格
订阅制(含 Fugu + Fugu Ultra)
| 方案 | 月费 | 额度 |
|---|---|---|
| Standard | $20 | 基础额度 |
| Pro | $100 | 10× Standard |
| Max | $200 | 20× Standard |
2026 年 7 月前订阅可免费获第二个月。
按量计费(Fugu Ultra)
| 项目 | 价格 |
|---|---|
| 输入 | $5/1M tokens(>272K 上下文时 $10) |
| 输出 | $30/1M tokens(>272K 上下文时 $45) |
| 缓存输入 | $0.50/1M tokens |
对比:Opus 4.8 是 $15 输入 / $75 输出。Fugu Ultra 输入仅其 1/3,输出不到一半。
Fugu 兼容 OpenAI API 格式,改个 endpoint 即可使用。
无出口管制风险
Sakana 反复强调:frontier capability without the risk of export controls。
编排架构天然具有弹性——底层模型切换不影响可用性,最多性能下降,不会从 frontier 直接掉到不可用。
社区反应
已有人火速开源了 TypeScript 实现的简化版 Fugu runtime,用 DSPy 风格的 Agent 框架复刻了 Conductor 的核心模式:指挥、分工、上下文传递、验证和综合。
开发者 Chris 评价:
如果是一个干净的单次 prompt,你大概还是会直接用 Fable 5 或 Mythos。但任务越复杂、越混乱——涉及分工、验证、综合、代码审查、研究循环、安全评估——这种编排系统就越有意义。
可用性
- ✅ 全球可用
- ❌ 欧盟/欧洲经济区暂不支持(GDPR 合规进行中)
- 用户可选择退出特定底层模型(Fugu 版本),Fugu Ultra Agent 池固定
- 数据默认用于性能改进,可随时在控制台关闭
- 底层模型路由信息属于专有技术,不公开
总结
Fugu 代表了一种新的 AI 产品思路:不造更大的模型,而是造更好的调度器。
- 🧠 调度思维:自己不回答,决定让谁回答
- 📈 成绩硬核:SWE Bench Pro 73.7,GPQA-D 95.5,HLE 50.0
- 🔬 RL 协调:进化算法 + 强化学习,非直觉但高效
- 💰 性价比高:输入 $5/1M tokens,输出 $30/1M tokens
- 🔒 无出口管制:编排架构天然弹性
- 🔄 兼容 OpenAI API:改个 endpoint 即可
单一供应商的风险越来越大,Fugu 的多 Agent 编排架构提供了一种不依赖单一模型的 frontier 能力路径。
相关链接
- 官网: https://sakana.ai/fugu/
- 技术博客: https://sakana.ai/fugu-release/
- 注册: https://console.sakana.ai/login
- 原文: https://mp.weixin.qq.com/s/S_Owato-5lhzUzx_cQS55g
Keywords: Sakana AI, Fugu, Fugu Ultra, 多Agent编排, TRINITY, Conductor, ICLR 2026, SWE Bench, API, 出口管制, 开源替代, RL协调