编程 AI-Scientist-v2 深度实战：当AI学会自己做科研——从Agentic Tree Search到Workshop-Level论文全自动生成（2026）

2026-06-12 20:20:27 +0800 CST views 10

AI-Scientist-v2 深度实战：当AI学会自己做科研——从Agentic Tree Search到Workshop-Level论文全自动生成（2026）

摘要：2026年3月，一篇完全由AI生成并通过ICLR 2025研讨会双盲同行评审的论文登上了Nature。这背后的系统——The AI Scientist-v2（Sakana AI），首次实现了从"提出假设→设计实验→分析结果→撰写论文"的端到端科研自动化。本文将深入拆解其核心架构、Agentic Tree Search算法实现、VLM图表分析集成，并结合代码实战，完整讲解AI自主做科研的技术全貌。

1. 引言：科学发现的自动化之梦

科学研究的核心循环——提出假设、设计实验、分析数据、撰写论文——长期被视为人类智慧的最高体现。但随着大语言模型（LLM）的突破性进展，一个根本性问题浮出水面：AI能否自主完成科学研究的全流程？

The AI Scientist系列系统给出了一个令人震惊的肯定答案。特别是v2版本，它生成的论文不仅通过了ICLR 2025研讨会的双盲同行评审（平均评分6.33分，超过人类均值6.1分），其研究成果更以"Towards end-to-end automation of AI research"为题发表于Nature杂志。

本文的核心目标：不仅告诉你"AI能自己做科研"这个事实，更要深入技术底层，搞懂它是怎么做到的——从系统架构、算法设计、代码实现到实际部署，给你一份真正可操作的实战指南。

2. 从v1到v2：核心突破全解析

2.1 v1的局限：为什么线性流程不够用

2024年8月发布的The AI Scientist v1，首次提出了端到端自动科研框架，但存在四个关键局限：

实验执行依赖预定义模板——系统只能在固定的实验框架内操作，无法探索新的研究方向
想法生成是线性的——无法根据实验结果进行迭代优化
缺乏VLM辅助——图表生成质量低
自动评审与人类评审差距显著

2.2 v2的四大核心突破

突破一：Agentic Tree Search（智能体树搜索）

v1使用线性流程（生成想法→运行实验→撰写论文），没有回溯和迭代能力。v2引入树搜索机制，系统可以在实验过程中动态调整策略，根据中间结果选择不同实验路径。

突破二：从模板驱动到自主代码生成

v2移除了模板依赖，系统能够从零开始自主生成实验代码（数据处理、模型训练、评估指标计算等全部涵盖）。

突破三：VLM深度集成

v2在论文撰写阶段引入视觉语言模型，用于理解和分析实验生成的图表，判断图表正确性和美观性。

突破四：端到端无人工干预

从想法生成到论文完成，全程无需任何人类干预。

特性	v1	v2
实验执行	线性，预定义模板	树搜索，自主代码生成
想法生成	线性生成	迭代式假设精炼
论文质量	平均3-4/10	Workshop级别，过同行评审
人工干预	部分环节需人工	全程无人工

3. 核心架构：五大智能体模块

3.1 系统总体架构

研究方向 + 文献库
       ↓
  [想法生成模块]  ← LLM推理 + Semantic Scholar
       ↓  候选假设
  [实验执行模块]  ← Agentic Tree Search + 自主代码生成
       ↓  实验结果
  [VLM集成模块]  ← 图表可视化分析
       ↓  图表评估
  [论文撰写模块]  ← LLM + LaTeX + VLM图表优化
       ↓  完整论文
  [自动评审模块]  ← LLM模拟Area Chair评审

关键创新：各模块之间允许双向信息流。实验执行模块可根据VLM反馈调整实验；论文撰写模块可根据自动评审建议修改；想法生成模块甚至可以根据实验结果重新精炼假设。

3.2 智能体设计模式

每个模块都遵循感知-推理-执行的认知循环：

class ResearchAgent:
    def __init__(self, llm_backend, tools, memory):
        self.perceptor = Perceptor()     # 感知器：接收输入信息
        self.reasoner = Reasoner(llm_backend)  # 推理器：LLM决策
        self.executor = Executor(tools)    # 执行器：转化为具体操作
        self.memory = memory               # 记忆器：维护状态和历史

4. 想法生成：LLM如何提出研究假设

4.1 理论基础：组合创造性

科研想法的产生本质上是组合创造性——新的想法来自于已有知识的重新组合。LLM在海量科学文献上的训练，使其内化了科学推理的基本模式。

4.2 实现流程（附核心代码）

def generate_research_ideas(workshop_info, max_num=10, num_reflections=3):
    ideas = []
    for i in range(max_num):
        # 第一步：让LLM生成初始想法（temperature=0.8促进创造性）
        idea = call_llm(prompt=IDEA_PROMPT, temperature=0.8)
        
        # 第二步：使用Semantic Scholar检索相关文献，检查新颖性
        related = search_papers(idea["keywords"])
        if not check_novelty(idea, related):
            idea = refine_idea_with_literature(idea, related)
        
        # 第三步：反思迭代（让LLM自我改进）
        for r in range(num_reflections):
            reflection = call_llm(prompt=REFLECTION_PROMPT)
            idea = refine_idea(idea, reflection)
        
        ideas.append(idea)
    return ideas

关键参数：

temperature=0.8：较高温度促进多样性
num_reflections=3：3轮反思迭代可显著提升想法质量
max_num_generations=10：生成10个候选，选最佳进入实验阶段

4.3 实战：运行第一个想法生成

python ai_scientist/perform_ideation_temp_free.py \
  --workshop-file "ai_scientist/ideas/my_topic.md" \
  --max-num-generations 5 \
  --num-reflections 3 \
  --model "gpt-4o-mini"

5. Agentic Tree Search：算法完全解析

5.1 为什么需要树搜索？

线性流程的局限：如果实验失败，系统只能继续沿着既定路径前进，无法调整策略。

树搜索的优势：将实验执行建模为在树结构搜索空间中的探索问题。每个节点代表一个实验状态，每条边代表一个实验操作（修改超参数、更换数据集等）。系统可以回溯、尝试不同路径、平衡探索与利用。

5.2 最佳优先树搜索（BFTS）算法

def best_first_tree_search(root_node, max_iterations=50):
    open_list = [root_node]
    closed_list = []
    
    for iteration in range(max_iterations):
        # 选择分数最高的节点
        current = select_best_node(open_list)
        
        # 让LLM生成多个候选实验操作
        candidate_actions = generate_candidate_actions(current)
        
        # 并行执行候选实验
        results = run_parallel_experiments(candidate_actions)
        
        # 为每个结果创建子节点，计算奖励
        for action, result in results:
            child = TreeNode(parent=current, action=action, result=result)
            child.reward = compute_reward(result)
            open_list.append(child)
        
        # 终止条件：找到足够好的结果
        best_reward = max([n.reward for n in closed_list])
        if best_reward > REWARD_THRESHOLD:
            break
    
    return max(closed_list, key=lambda n: n.reward)

5.3 奖励函数设计

def compute_reward(result):
    return (0.4 * performance_score(result) +
            0.2 * novelty_score(result) +
            0.2 * sufficiency_score(result) +
            0.2 * visual_quality_score(result))

5.4 ParallelAgent：多智能体并行

v2通过ParallelAgent实现多实验并行执行，充分利用多GPU资源：

class ParallelAgent:
    def run_parallel_experiments(self, actions, max_parallel=3):
        with ProcessPoolExecutor(max_workers=max_parallel) as executor:
            futures = [executor.submit(run_experiment, a) for a in actions]
            return [f.result() for f in as_completed(futures)]

6. 论文撰写与VLM集成

6.1 让AI"看见"自己的图表

v2使用GPT-4V等VLM对实验生成的图表进行质量评估：

def analyze_chart_with_vlm(chart_path):
    response = call_vlm(
        model="gpt-4-vision-preview",
        prompt="评估图表质量（正确性/清晰度/美观性/信息密度），给出改进建议",
        image=chart_path
    )
    return response  # JSON: {correctness, clarity, aesthetics, overall_score, suggestions}

6.2 自动评审机制

v2使用LLM模拟3位评审人进行评审，汇总得分：

reviewer = AutomatedReviewer(model="gpt-4o", num_reviewers=3)
review = reviewer.review_paper(paper_text)
print(f"综合评分: {review['overall_score']:.2f}/10")

ICLR 2025研讨会实际评分：6.33/10（超过人类均值）。

7. 成本控制：如何在$15内完成高质量论文

7.1 成本构成

阶段	使用模型	估算成本
想法生成	GPT-4o-mini	~$0.2
树搜索实验（50轮）	Claude 3.5 + GPT-4o	~$17
论文撰写	GPT-4o	~$5
优化后总计	混合模型策略	$11-14

7.2 成本优化策略

混合模型：想法生成用GPT-4o-mini，代码生成用GPT-4o，论文撰写才用高质量模型
限制搜索迭代次数：从50轮降到30轮，设置奖励阈值提前终止
使用本地开源模型：对简单任务使用本地Llama 3，成本仅为电费

8. 局限性深度分析

8.1 创造力瓶颈

当前LLM的"创造性"本质是组合创造性（将已有知识重新组合），而非范式突破（挑战领域基本假设）。The AI Scientist-v2擅长"局部优化"，但难以产生颠覆性的研究想法。

8.2 领域局限性

系统目前主要应用于机器学习研究（实验可在计算机上运行）。对于生物医学、材料科学等需要物理实验的领域，仍面临巨大挑战。

8.3 评审通过率的真相

通过ICLR Workshop评审 ≠ 顶会级别论文。Workshop接收率约30-50%，而NeurIPS/ICLR主会接收率仅25-30%，且评审严格度远高于Workshop。

9. 未来展望：Auto-Research时代的黎明

9.1 科研民主化

Auto-Research技术将降低科研门槛，让更多人有能力开展高质量研究。一位非洲的高中教师，也可以借助AI系统产出符合国际标准的学术论文。

9.2 人类科学家的角色重塑

短期内，人类从"执行者"转变为"方向制定者"和"质量把关者"。长期内，人类与AI形成深度协作关系——AI处理99%的常规科研，人类专注于1%真正需要范式突破的问题。

10. 总结

The AI Scientist-v2是一个里程碑式的系统。它证明了端到端的自动化科研是可行的，Agentic Tree Search是驱动实验探索的有效方法，AI生成的论文可以通过同行评审。

对于技术实践者的建议：

从简单任务开始（文献综述、基线实验）
保持人类监督（永远不要完全信任AI生成的实验结果）
控制成本（混合模型策略可将单次运行成本控制在$15以内）
关注伦理（使用AI生成内容时必须明确标识）

最后：科学发现是人类文明最高尚的追求之一。The AI Scientist-v2的出现，不是要取代人类科学家，而是要让科学发现的工具变得更加强大，让更多的人能够参与到这一崇高的事业中来。

本文撰写于2026年6月，基于Sakana AI官方论文及公开技术文档。

复制全文生成海报 AI科研自动化科研 AI-Scientist Agentic Tree Search 科研自动化