AI-Scientist-v2 深度实战:当AI学会自己做科研——从Agentic Tree Search到Workshop-Level论文全自动生成(2026)
摘要:2026年3月,一篇完全由AI生成并通过ICLR 2025研讨会双盲同行评审的论文登上了Nature。这背后的系统——The AI Scientist-v2(Sakana AI),首次实现了从"提出假设→设计实验→分析结果→撰写论文"的端到端科研自动化。本文将深入拆解其核心架构、Agentic Tree Search算法实现、VLM图表分析集成,并结合代码实战,完整讲解AI自主做科研的技术全貌。
1. 引言:科学发现的自动化之梦
科学研究的核心循环——提出假设、设计实验、分析数据、撰写论文——长期被视为人类智慧的最高体现。但随着大语言模型(LLM)的突破性进展,一个根本性问题浮出水面:AI能否自主完成科学研究的全流程?
The AI Scientist系列系统给出了一个令人震惊的肯定答案。特别是v2版本,它生成的论文不仅通过了ICLR 2025研讨会的双盲同行评审(平均评分6.33分,超过人类均值6.1分),其研究成果更以"Towards end-to-end automation of AI research"为题发表于Nature杂志。
本文的核心目标:不仅告诉你"AI能自己做科研"这个事实,更要深入技术底层,搞懂它是怎么做到的——从系统架构、算法设计、代码实现到实际部署,给你一份真正可操作的实战指南。
2. 从v1到v2:核心突破全解析
2.1 v1的局限:为什么线性流程不够用
2024年8月发布的The AI Scientist v1,首次提出了端到端自动科研框架,但存在四个关键局限:
- 实验执行依赖预定义模板——系统只能在固定的实验框架内操作,无法探索新的研究方向
- 想法生成是线性的——无法根据实验结果进行迭代优化
- 缺乏VLM辅助——图表生成质量低
- 自动评审与人类评审差距显著
2.2 v2的四大核心突破
突破一:Agentic Tree Search(智能体树搜索)
v1使用线性流程(生成想法→运行实验→撰写论文),没有回溯和迭代能力。v2引入树搜索机制,系统可以在实验过程中动态调整策略,根据中间结果选择不同实验路径。
突破二:从模板驱动到自主代码生成
v2移除了模板依赖,系统能够从零开始自主生成实验代码(数据处理、模型训练、评估指标计算等全部涵盖)。
突破三:VLM深度集成
v2在论文撰写阶段引入视觉语言模型,用于理解和分析实验生成的图表,判断图表正确性和美观性。
突破四:端到端无人工干预
从想法生成到论文完成,全程无需任何人类干预。
| 特性 | v1 | v2 |
|---|---|---|
| 实验执行 | 线性,预定义模板 | 树搜索,自主代码生成 |
| 想法生成 | 线性生成 | 迭代式假设精炼 |
| 论文质量 | 平均3-4/10 | Workshop级别,过同行评审 |
| 人工干预 | 部分环节需人工 | 全程无人工 |
3. 核心架构:五大智能体模块
3.1 系统总体架构
研究方向 + 文献库
↓
[想法生成模块] ← LLM推理 + Semantic Scholar
↓ 候选假设
[实验执行模块] ← Agentic Tree Search + 自主代码生成
↓ 实验结果
[VLM集成模块] ← 图表可视化分析
↓ 图表评估
[论文撰写模块] ← LLM + LaTeX + VLM图表优化
↓ 完整论文
[自动评审模块] ← LLM模拟Area Chair评审
关键创新:各模块之间允许双向信息流。实验执行模块可根据VLM反馈调整实验;论文撰写模块可根据自动评审建议修改;想法生成模块甚至可以根据实验结果重新精炼假设。
3.2 智能体设计模式
每个模块都遵循感知-推理-执行的认知循环:
class ResearchAgent:
def __init__(self, llm_backend, tools, memory):
self.perceptor = Perceptor() # 感知器:接收输入信息
self.reasoner = Reasoner(llm_backend) # 推理器:LLM决策
self.executor = Executor(tools) # 执行器:转化为具体操作
self.memory = memory # 记忆器:维护状态和历史
4. 想法生成:LLM如何提出研究假设
4.1 理论基础:组合创造性
科研想法的产生本质上是组合创造性——新的想法来自于已有知识的重新组合。LLM在海量科学文献上的训练,使其内化了科学推理的基本模式。
4.2 实现流程(附核心代码)
def generate_research_ideas(workshop_info, max_num=10, num_reflections=3):
ideas = []
for i in range(max_num):
# 第一步:让LLM生成初始想法(temperature=0.8促进创造性)
idea = call_llm(prompt=IDEA_PROMPT, temperature=0.8)
# 第二步:使用Semantic Scholar检索相关文献,检查新颖性
related = search_papers(idea["keywords"])
if not check_novelty(idea, related):
idea = refine_idea_with_literature(idea, related)
# 第三步:反思迭代(让LLM自我改进)
for r in range(num_reflections):
reflection = call_llm(prompt=REFLECTION_PROMPT)
idea = refine_idea(idea, reflection)
ideas.append(idea)
return ideas
关键参数:
temperature=0.8:较高温度促进多样性num_reflections=3:3轮反思迭代可显著提升想法质量max_num_generations=10:生成10个候选,选最佳进入实验阶段
4.3 实战:运行第一个想法生成
python ai_scientist/perform_ideation_temp_free.py \
--workshop-file "ai_scientist/ideas/my_topic.md" \
--max-num-generations 5 \
--num-reflections 3 \
--model "gpt-4o-mini"
5. Agentic Tree Search:算法完全解析
5.1 为什么需要树搜索?
线性流程的局限:如果实验失败,系统只能继续沿着既定路径前进,无法调整策略。
树搜索的优势:将实验执行建模为在树结构搜索空间中的探索问题。每个节点代表一个实验状态,每条边代表一个实验操作(修改超参数、更换数据集等)。系统可以回溯、尝试不同路径、平衡探索与利用。
5.2 最佳优先树搜索(BFTS)算法
def best_first_tree_search(root_node, max_iterations=50):
open_list = [root_node]
closed_list = []
for iteration in range(max_iterations):
# 选择分数最高的节点
current = select_best_node(open_list)
# 让LLM生成多个候选实验操作
candidate_actions = generate_candidate_actions(current)
# 并行执行候选实验
results = run_parallel_experiments(candidate_actions)
# 为每个结果创建子节点,计算奖励
for action, result in results:
child = TreeNode(parent=current, action=action, result=result)
child.reward = compute_reward(result)
open_list.append(child)
# 终止条件:找到足够好的结果
best_reward = max([n.reward for n in closed_list])
if best_reward > REWARD_THRESHOLD:
break
return max(closed_list, key=lambda n: n.reward)
5.3 奖励函数设计
def compute_reward(result):
return (0.4 * performance_score(result) +
0.2 * novelty_score(result) +
0.2 * sufficiency_score(result) +
0.2 * visual_quality_score(result))
5.4 ParallelAgent:多智能体并行
v2通过ParallelAgent实现多实验并行执行,充分利用多GPU资源:
class ParallelAgent:
def run_parallel_experiments(self, actions, max_parallel=3):
with ProcessPoolExecutor(max_workers=max_parallel) as executor:
futures = [executor.submit(run_experiment, a) for a in actions]
return [f.result() for f in as_completed(futures)]
6. 论文撰写与VLM集成
6.1 让AI"看见"自己的图表
v2使用GPT-4V等VLM对实验生成的图表进行质量评估:
def analyze_chart_with_vlm(chart_path):
response = call_vlm(
model="gpt-4-vision-preview",
prompt="评估图表质量(正确性/清晰度/美观性/信息密度),给出改进建议",
image=chart_path
)
return response # JSON: {correctness, clarity, aesthetics, overall_score, suggestions}
6.2 自动评审机制
v2使用LLM模拟3位评审人进行评审,汇总得分:
reviewer = AutomatedReviewer(model="gpt-4o", num_reviewers=3)
review = reviewer.review_paper(paper_text)
print(f"综合评分: {review['overall_score']:.2f}/10")
ICLR 2025研讨会实际评分:6.33/10(超过人类均值)。
7. 成本控制:如何在$15内完成高质量论文
7.1 成本构成
| 阶段 | 使用模型 | 估算成本 |
|---|---|---|
| 想法生成 | GPT-4o-mini | ~$0.2 |
| 树搜索实验(50轮) | Claude 3.5 + GPT-4o | ~$17 |
| 论文撰写 | GPT-4o | ~$5 |
| 优化后总计 | 混合模型策略 | $11-14 |
7.2 成本优化策略
- 混合模型:想法生成用GPT-4o-mini,代码生成用GPT-4o,论文撰写才用高质量模型
- 限制搜索迭代次数:从50轮降到30轮,设置奖励阈值提前终止
- 使用本地开源模型:对简单任务使用本地Llama 3,成本仅为电费
8. 局限性深度分析
8.1 创造力瓶颈
当前LLM的"创造性"本质是组合创造性(将已有知识重新组合),而非范式突破(挑战领域基本假设)。The AI Scientist-v2擅长"局部优化",但难以产生颠覆性的研究想法。
8.2 领域局限性
系统目前主要应用于机器学习研究(实验可在计算机上运行)。对于生物医学、材料科学等需要物理实验的领域,仍面临巨大挑战。
8.3 评审通过率的真相
通过ICLR Workshop评审 ≠ 顶会级别论文。Workshop接收率约30-50%,而NeurIPS/ICLR主会接收率仅25-30%,且评审严格度远高于Workshop。
9. 未来展望:Auto-Research时代的黎明
9.1 科研民主化
Auto-Research技术将降低科研门槛,让更多人有能力开展高质量研究。一位非洲的高中教师,也可以借助AI系统产出符合国际标准的学术论文。
9.2 人类科学家的角色重塑
短期内,人类从"执行者"转变为"方向制定者"和"质量把关者"。长期内,人类与AI形成深度协作关系——AI处理99%的常规科研,人类专注于1%真正需要范式突破的问题。
10. 总结
The AI Scientist-v2是一个里程碑式的系统。它证明了端到端的自动化科研是可行的,Agentic Tree Search是驱动实验探索的有效方法,AI生成的论文可以通过同行评审。
对于技术实践者的建议:
- 从简单任务开始(文献综述、基线实验)
- 保持人类监督(永远不要完全信任AI生成的实验结果)
- 控制成本(混合模型策略可将单次运行成本控制在$15以内)
- 关注伦理(使用AI生成内容时必须明确标识)
最后:科学发现是人类文明最高尚的追求之一。The AI Scientist-v2的出现,不是要取代人类科学家,而是要让科学发现的工具变得更加强大,让更多的人能够参与到这一崇高的事业中来。
本文撰写于2026年6月,基于Sakana AI官方论文及公开技术文档。