编程 Sakana AI发布Fugu Ultra:多Agent编排系统包装成单一API,对标Fable 5

2026-06-22 14:40:08 +0800 CST views 11

Sakana AI 发布 Fugu Ultra:多 Agent 编排系统包装成单一 API,对标 Fable 5

标签: Sakana AI / Fugu / 多Agent编排 / ICLR 2026 / TRINITY / Conductor / 开源替代 / API
原文: 微信公众号「AGI Hunt」https://mp.weixin.qq.com/s/S_Owato-5lhzUzx_cQS55g
官网: https://sakana.ai/fugu/


一句话定位

日本 Sakana AI 发布 Fugu,一个把多 Agent 编排系统包装成单一模型 API 的产品。它本身不直接回答问题,而是决定让谁来回答——动态调度模型池,分步完成,自动验证。Fugu Ultra 在 SWE Bench Pro 上拿到 73.7,超过 Opus 4.8 的 69.2。


核心思路:调度模型,而非替代模型

维度传统 LLMFugu
回答方式自己直接回答决定让谁来回答
架构单体模型Agent 池 + 协调器
调度动态选择模型、分步、验证、递归
用户感知调一个 API调一个 API(无感)

Fugu 背后维护一个 Agent 池,包含各种专长不同的模型。任务进来后,Fugu 动态决定:

  1. 调哪个模型
  2. 分几步完成
  3. 要不要验证结果
  4. 要不要递归调用自己

整个过程对用户透明——调一个 API,拿一个结果。


两个版本

版本定位适用场景
Fugu平衡性能和延迟日常编码、代码审查、交互式场景
Fugu Ultra优化答案质量高难度问题,调用更深层专家 Agent 池

Benchmark 成绩

BenchmarkFuguFugu UltraOpus 4.8Gemini 3.1 ProGPT 5.5
SWE Bench Pro59.073.769.254.258.6
LiveCodeBench92.993.287.888.585.3
GPQA-D95.595.592.094.393.6
HLE47.250.049.844.441.4
TerminalBench 2.182.1
  • SWE Bench Pro:73.7,超过 Opus 4.8(69.2)
  • GPQA-D:95.5,目前公开可用模型中最高分
  • HLE:50.0,略微超过 Opus 4.8(49.8)

技术原理:RL 训练的协调策略

协调策略没有任何手工设计,全是学出来的。基于两篇 ICLR 2026 论文:

TRINITY — 进化协调器

  • 自适应分配三种角色:Thinker(思考者)、Worker(执行者)、Verifier(验证者)
  • 协调器通过进化算法优化,不依赖人工设定规则

Conductor — RL 指挥家

  • 通过强化学习训练出一个"指挥家"
  • 让它自己发现最优的 Agent 通信模式和协作策略
  • 核心发现:RL 训练出的协调策略是**「非直觉但高效」**的——人类设计师不太会想到那种分工方式

关键区别

Fugu 不是写死的 pipeline,而是一个学会了怎么当项目经理的 LLM。它会动态组装团队,通过非显而易见但高效的协作模式协调完成任务。


六个实战案例

1. AutoResearch(自动化 ML 研究)

  • 自主运行 123 次实验
  • 拿到最优 BPB 得分:0.9774 ± 0.0019
  • 超过所有 frontier 竞争者

2. 日文古籍识别

  • 处理日本历史文献阅读顺序恢复
  • NED 达到 0.80,竞品只有 0.24 或直接失败
  • (与 Sakana 日本基因有关,其他家没专门研究日本古籍)

3. 魔方求解器

  • 生成的代码成功解出全部 300 个测试魔方
  • 竞品生成的代码无法正常运行
  • 解法步数:7 胜 293 平 0 负

4. CAD 机械设计

  • 设计了一个可工作的虹膜机构
  • 其他模型产出的设计存在间隙或不完整

5. 盲棋

  • 连续四局对弈保持完美准确率

6. 股票交易回测

  • 50 周回测实现 +19.43% 平均回报
  • 其他 frontier 模型均低于 15%

价格

订阅制(含 Fugu + Fugu Ultra)

方案月费额度
Standard$20基础额度
Pro$10010× Standard
Max$20020× Standard

2026 年 7 月前订阅可免费获第二个月。

按量计费(Fugu Ultra)

项目价格
输入$5/1M tokens(>272K 上下文时 $10)
输出$30/1M tokens(>272K 上下文时 $45)
缓存输入$0.50/1M tokens

对比:Opus 4.8 是 $15 输入 / $75 输出。Fugu Ultra 输入仅其 1/3,输出不到一半。

Fugu 兼容 OpenAI API 格式,改个 endpoint 即可使用。


无出口管制风险

Sakana 反复强调:frontier capability without the risk of export controls

编排架构天然具有弹性——底层模型切换不影响可用性,最多性能下降,不会从 frontier 直接掉到不可用。


社区反应

已有人火速开源了 TypeScript 实现的简化版 Fugu runtime,用 DSPy 风格的 Agent 框架复刻了 Conductor 的核心模式:指挥、分工、上下文传递、验证和综合。

开发者 Chris 评价:

如果是一个干净的单次 prompt,你大概还是会直接用 Fable 5 或 Mythos。但任务越复杂、越混乱——涉及分工、验证、综合、代码审查、研究循环、安全评估——这种编排系统就越有意义。


可用性

  • ✅ 全球可用
  • ❌ 欧盟/欧洲经济区暂不支持(GDPR 合规进行中)
  • 用户可选择退出特定底层模型(Fugu 版本),Fugu Ultra Agent 池固定
  • 数据默认用于性能改进,可随时在控制台关闭
  • 底层模型路由信息属于专有技术,不公开

总结

Fugu 代表了一种新的 AI 产品思路:不造更大的模型,而是造更好的调度器

  • 🧠 调度思维:自己不回答,决定让谁回答
  • 📈 成绩硬核:SWE Bench Pro 73.7,GPQA-D 95.5,HLE 50.0
  • 🔬 RL 协调:进化算法 + 强化学习,非直觉但高效
  • 💰 性价比高:输入 $5/1M tokens,输出 $30/1M tokens
  • 🔒 无出口管制:编排架构天然弹性
  • 🔄 兼容 OpenAI API:改个 endpoint 即可

单一供应商的风险越来越大,Fugu 的多 Agent 编排架构提供了一种不依赖单一模型的 frontier 能力路径。


相关链接


Keywords: Sakana AI, Fugu, Fugu Ultra, 多Agent编排, TRINITY, Conductor, ICLR 2026, SWE Bench, API, 出口管制, 开源替代, RL协调

推荐文章

php使用文件锁解决少量并发问题
2024-11-17 05:07:57 +0800 CST
如何实现生产环境代码加密
2024-11-18 14:19:35 +0800 CST
deepcopy一个Go语言的深拷贝工具库
2024-11-18 18:17:40 +0800 CST
10个几乎无人使用的罕见HTML标签
2024-11-18 21:44:46 +0800 CST
程序员茄子在线接单