编程 AutoResearch 深度解析：当 Karpathy 让 AI 在单 GPU 上学会“自己做研究”——从 nanochat 训练到科研范式的原子革命

2026-04-14 15:26:51 +0800 CST views 15

AutoResearch 深度解析：当 Karpathy 让 AI 在单 GPU 上学会"自己做研究"——从 nanochat 训练到科研范式的原子革命

引言：一个"偷懒"到极致的 AI 科学家

2026 年 3 月，Andrej Karpathy 在 GitHub 上扔出了一个名为 AutoResearch 的项目，630 行 Python 代码，几天之内狂揽 62,000+ Stars，日增 5000+。这个数字放到整个 GitHub 历史上都是现象级的。

但真正让整个 AI 社区炸锅的，不是 Stars 本身，而是这个项目的愿景：让 AI 在单 GPU 环境下，自己完成整个机器学习研究流程——从提出假设、设计实验、编写训练代码、执行训练、分析结果，到迭代优化，全部自主完成。

换句话说，Karpathy 这次不只是做了一个 demo，他做了一个研究代理的"原型机"，展示了什么叫做"让 AI 自己训练自己"。

本文从源码出发，深度剖析 AutoResearch 的架构设计、工作流程、以及它对整个 AI 研究范式的深远影响。

背景：传统 ML 研究的"人力瓶颈"

在深入技术细节之前，我们需要先理解 AutoResearch 解决的到底是什么问题。

机器学习研究的真实痛苦

每一个做过 ML 研究的人都知道，一个完整的研究迭代周期是这样的：

读论文 + 理解问题（1-3 天）
设计实验方案（1-2 天）——这一步往往是最痛苦的，因为"到底该试哪个方向"全靠经验和直觉
写训练代码（2-5 天）——PyTorch 模型、数据加载、优化器、学习率调度器……每写一次都是重复劳动
调超参数（1-N 天）——N 是一个玄学数字，取决于你的运气和 GPU 预算
分析结果（1-2 天）——为什么效果不好？是数据的问题、模型的问题、还是训练策略的问题？
迭代优化（循环往复）

整个过程中，真正有创造性的部分（设计假设和方案）只占 20%，剩下 80% 的时间都在做"体力活"——写代码、调参、看日志。

现有 AutoML 方案的局限性

市场上已经有一些 AutoML 工具（Ray Tune、Optuna、Hyperopt 等），但它们本质上都是参数搜索器——你告诉它搜索空间，它帮你跑实验，筛选出最优配置。但：

它们不生成代码：你得自己写模型架构和训练循环
它们不理解研究目标：不知道你为什么做这个实验、想验证什么假设
它们不会从历史失败中学习：每次实验都是独立的，没有积累
它们对单 GPU 环境不友好：大多数设计给多 GPU 集群用的

AutoResearch 正是为了解决这些局限性而生的。它的核心突破不是"更强的搜索算法"，而是赋予 AI 研究决策的能力——不只是自动化参数调优，而是自动化整个研究思考过程。

核心架构：六阶段研究循环

AutoResearch 的工作流程可以用一个六阶段循环来描述：

问题定义 → 实验设计 → 代码生成 → 训练执行 → 结果分析 → 迭代优化
    ↑                                                            ↓
    └────────────────────────────────────────────────────────────┘

这个循环的精妙之处在于：每个阶段都由 LLM 驱动，AI 不仅执行操作，还参与决策。

阶段一：问题定义模块

AutoResearch 的入口是一个自然语言描述的研究问题。这个模块负责：

理解研究意图：AI 需要从用户的描述中提取核心研究目标。例如用户说"我想提高 Transformer 在小样本学习上的能力"，AI 需要理解这涉及到 few-shot learning、transfer learning、模型容量等概念
拆解技术挑战：将研究问题分解为可操作的技术子问题。比如"小样本学习"可以拆成"数据增强策略"、"对比学习方法"、"元学习框架"等
评估可行性：在硬件约束（单 GPU、有限显存）下评估哪些方案是可行的

这个阶段的输出是一个结构化的研究计划书，包含问题陈述、关键技术方向、预期挑战和初步假设。

阶段二：实验设计模块

有了研究计划书，AI 开始设计具体实验方案。这个阶段的核心能力是：

class ExperimentDesigner:
    def design_experiments(self, research_plan):
        experiments = []
        
        # 1. 确定模型架构搜索空间
        arch_space = self._define_architecture_space(research_plan)
        
        # 2. 确定超参数搜索范围
        hparam_space = self._define_hyperparameter_space(research_plan)
        
        # 3. 确定数据策略
        data_strategy = self._define_data_strategy(research_plan)
        
        # 4. 确定评估指标
        metrics = self._define_metrics(research_plan)
        
        for arch in arch_space:
            for hparams in hparam_space:
                experiments.append(Experiment(
                    architecture=arch,
                    hyperparameters=hparams,
                    data_strategy=data_strategy,
                    metrics=metrics
                ))
        
        return experiments

关键创新点：AI 不只是穷举所有组合，而是基于领域知识做智能搜索空间剪枝。例如在设计 Transformer 实验时，AI 会基于对 Transformer 架构的理解，优先尝试那些在文献中被证明有效的配置组合，而不是无脑网格搜索。

阶段三：代码生成模块

这是 AutoResearch 最令人印象深刻的部分——AI 会根据实验方案生成完整可运行的 PyTorch 训练代码。

class CodeGenerator:
    def generate_training_code(self, experiment):
        prompt = f"""
        请为以下实验生成 PyTorch 训练代码：
        
        研究目标: {experiment.research_goal}
        模型架构: {experiment.architecture}
        超参数: {experiment.hyperparameters}
        数据策略: {experiment.data_strategy}
        评估指标: {experiment.metrics}
        
        要求：
        1. 代码完整，包含数据加载、模型定义、训练循环、评估逻辑
        2. 使用 PyTorch 最佳实践
        3. 支持梯度累积（处理显存不足的情况）
        4. 包含训练监控（loss、指标、显存使用）
        5. 代码可直接运行
        """
        
        code = self.llm.generate(prompt)
        return self._validate_and_format(code)

生成的代码通常包含以下模块：

模型定义：基于 experiment.architecture 构建的网络结构
数据加载：Dataset 和 DataLoader 实现，包含数据增强
优化器配置：根据超参数选择优化器类型和学习率策略
训练循环：梯度累积、早停、学习率调度
评估逻辑：计算 experiment.metrics 中定义的所有指标
日志和保存：训练过程中的 checkpoint 和可视化

实际效果：根据社区反馈，AutoResearch 生成的训练代码质量相当高，大多数情况下不需要人工修改就能直接跑起来。

阶段四：训练执行模块

单 GPU 环境下的训练执行是一个复杂的资源调度问题。AutoResearch 的解决方案是GPU 状态感知的异步并发调度：

import asyncio
import subprocess
import re

class TrainingExecutor:
    def __init__(self, gpu_memory_limit_mb=24576):
        self.gpu_memory_limit = gpu_memory_limit_mb
        self.gpu_memory_pattern = re.compile(r'(\d+)MiB')
    
    def get_gpu_memory_available(self) -> int:
        """通过 nvidia-smi 查询当前可用显存"""
        result = subprocess.run(
            ['nvidia-smi', '--query-gpu=memory.used,memory.total', '--format=csv,noheader,nounits'],
            capture_output=True, text=True
        )
        used, total = map(int, result.stdout.strip().split(','))
        return total - used
    
    def calculate_optimal_concurrency(self) -> int:
        """根据 GPU 显存状态计算最优并发度"""
        available = self.get_gpu_memory_available()
        
        if available >= 20 * 1024:  # 20GB 以上
            return 2  # 可以跑 2 个小实验
        elif available >= 10 * 1024:  # 10GB 以上
            return 1  # 只能跑 1 个
        else:
            return 0  # 等待显存释放
    
    async def run_experiments(self, experiments: list):
        """异步执行实验，支持批量调度和自动重试"""
        results = []
        
        while experiments:
            concurrency = self.calculate_optimal_concurrency()
            
            if concurrency == 0:
                await asyncio.sleep(30)  # 等待显存释放
                continue
            
            # 取 batch
            batch = experiments[:concurrency]
            experiments = experiments[concurrency:]
            
            # 并发执行 batch
            batch_tasks = [self._run_single_experiment(exp) for exp in batch]
            batch_results = await asyncio.gather(*batch_tasks, return_exceptions=True)
            results.extend(batch_results)
        
        return results
    
    async def _run_single_experiment(self, experiment) -> dict:
        """执行单个实验，包含错误处理和自动重试"""
        code = experiment.generated_code
        
        for attempt in range(3):
            try:
                proc = await asyncio.create_subprocess_exec(
                    'python', '-c', code,
                    stdout=asyncio.subprocess.PIPE,
                    stderr=asyncio.subprocess.PIPE
                )
                stdout, stderr = await asyncio.wait_for(proc.communicate(), timeout=3600)
                
                if proc.returncode == 0:
                    return self._parse_results(stdout)
                else:
                    # 分析错误，可能需要调整代码重新生成
                    error = stderr.decode()
                    if self._is_retryable_error(error):
                        code = await self._fix_code(code, error)
                        continue
                    else:
                        return {'status': 'failed', 'error': error}
            except asyncio.TimeoutError:
                # 超时，可能需要降低 batch size 重新试
                code = await self._reduce_batch_size(code)
                continue
        
        return {'status': 'failed_after_retries'}

核心设计理念：训练执行不只是一个"跑代码"的过程，而是一个自适应的闭环系统。AI 会监控训练过程中的异常（OOM、loss 发散、gradient explosion），并在必要时自动调整策略重新尝试。

阶段五：结果分析模块

训练跑完了，数据一堆，怎么分析？AutoResearch 的结果分析模块包含：

class ResultAnalyzer:
    def analyze_results(self, experiments_results: list[dict]):
        analysis = {
            'hyperparameter_impact': self._analyze_hp_impact(experiments_results),
            'training_dynamics': self._analyze_training_dynamics(experiments_results),
            'anomaly_detection': self._detect_anomalies(experiments_results),
            'correlation_analysis': self._find_correlations(experiments_results),
            'recommendations': self._generate_recommendations(experiments_results)
        }
        return analysis
    
    def _analyze_hp_impact(self, results):
        """分析不同超参数对最终效果的影响"""
        # 使用排列重要性（Permutation Importance）风格的分析
        # 对每个超参数，计算它在所有实验中与其他配置组合时的平均效果差异
        hp_effects = {}
        
        for hp_name in results[0]['hyperparameters'].keys():
            values = [r['hyperparameters'][hp_name] for r in results]
            metrics = [r['final_metrics'] for r in results]
            
            # 计算该超参数不同取值时的平均指标
            hp_effects[hp_name] = self._compute_effect_size(values, metrics)
        
        return hp_effects
    
    def _detect_anomalies(self, results):
        """检测异常实验结果——这往往是新发现的来源"""
        anomalies = []
        
        for result in results:
            # 检查训练是否正常收敛
            if not self._check_convergence(result['training_metrics']):
                anomalies.append({
                    'experiment': result['experiment_id'],
                    'type': 'non_convergence',
                    'details': self._explain_non_convergence(result)
                })
            
            # 检查是否有意外的好结果（可能是新发现）
            if self._is_surprisingly_good(result):
                anomalies.append({
                    'experiment': result['experiment_id'],
                    'type': 'positive_surprise',
                    'insight': self._explain_surprising_success(result)
                })
        
        return anomalies

值得强调的是：AutoResearch 的结果分析不只是统计报告，它会主动发现异常和意外，这些往往是科研突破的起点。

阶段六：迭代优化模块

根据结果分析，AI 决定下一步怎么走：

class IterativeOptimizer:
    def decide_next_steps(self, analysis):
        steps = []
        
        # 1. 如果发现某组超参数明显优于其他——精细化搜索
        if analysis['hyperparameter_impact']:
            best_hp = analysis['find_best_hyperparameters']()
            steps.extend(self._refine_around(best_hp))
        
        # 2. 如果发现架构层面的问题——尝试新架构
        if analysis['architecture_bottleneck_detected']:
            alternative_archs = self._propose_alternative_architectures(analysis)
            steps.extend(self._create_architecture_experiments(alternative_archs))
        
        # 3. 如果发现数据层面的问题——改进数据策略
        if analysis['data_quality_issues']:
            improved_strategies = self._propose_data_improvements(analysis)
            steps.extend(self._create_data_experiments(improved_strategies))
        
        # 4. 如果所有方向都尝试过了——总结并报告
        if len(steps) == 0:
            return self._generate_final_report(analysis)
        
        return steps

这个迭代循环会一直持续，直到达到预算上限（max_experiments）或找到满意的解决方案。

技术实现：630 行代码的精妙设计

依赖极简主义

AutoResearch 的设计哲学是最小依赖。整个项目只依赖：

torch
numpy
transformers (可选，用于本地模型)
openai (或其他 LLM API)

没有 Ray、Ray Tune、PyTorch Lightning 等重型框架。Karpathy 的思路很清楚：如果工具本身过于复杂，它的研究自动化还有什么意义？

LLM 驱动的智能体设计

AutoResearch 的所有"智能"都来自于 LLM 的 prompt engineering，而不是复杂的算法。核心提示工程如下：

RESEARCH_AGENT_PROMPT = """
你是一个专注于机器学习研究的高级 AI 研究员。你具备以下能力：

1. **机器学习原理**：你深入理解各种模型架构、训练策略、优化算法的原理和适用场景
2. **PyTorch 最佳实践**：你熟悉 PyTorch 的所有特性和最佳实践，包括显存优化、梯度累积、混合精度训练等
3. **研究方法论**：你知道如何设计对照实验、如何分析结果、如何从失败中学习
4. **代码能力**：你能用简洁优雅的 Python/PyTorch 代码实现任何算法

当前任务：{research_task}

硬件约束：
- GPU 显存：{gpu_memory}MB
- 最大训练时间：{max_training_time} 秒
- 并发实验数：{concurrency}

请以 JSON 格式输出你的研究计划，包含：
- hypothesis：研究假设
- experiments：实验列表，每个实验包含模型架构、超参数、数据策略
- expected_outcome：预期结果
- risk_assessment：风险评估（可能失败的原因）
"""

CODE_GENERATION_PROMPT = """
你是一个 PyTorch 专家。请为以下实验生成高质量的训练代码：

实验配置：
{model_config}

要求：
1. 代码必须可直接运行（包含所有 import）
2. 使用 PyTorch 2.0+ 最佳实践
3. 支持梯度累积（batch_size × accumulation_steps = 真实 batch_size）
4. 包含显存监控（打印当前 GPU 显存使用）
5. 训练过程中每 N 步打印 loss 和指标
6. 包含早停机制
7. 保存最佳模型 checkpoint

返回格式：纯 Python 代码，不要有 markdown 格式。
"""

实验结果的数据结构

@dataclass
class ExperimentResult:
    experiment_id: str
    hyperparameters: dict
    training_metrics: List[dict]  # 每个 step 的 metrics
    final_metrics: dict
    resource_usage: dict  # GPU 显存、训练时间等
    timestamp: datetime
    status: str  # 'running', 'completed', 'failed', 'OOM'
    error_message: Optional[str] = None
    
    def is_successful(self) -> bool:
        return self.status == 'completed' and not self._has_anomalies()
    
    def get_summary(self) -> str:
        return f"""
        Experiment {self.experiment_id}:
        - Status: {self.status}
        - Key metric: {self.final_metrics.get('primary_metric')}
        - GPU time: {self.resource_usage.get('training_time')}s
        - Peak GPU memory: {self.resource_usage.get('peak_gpu_memory_mb')}MB
        """

这个数据结构的设计非常务实——它记录了实验的完整生命周期信息，方便后续分析和可视化。

与传统 AutoML 的深度对比

维度	AutoResearch	传统 AutoML（Ray Tune / Optuna）
研究自主性	设计完整研究流程，包含假设提出	主要做参数搜索，不参与研究设计
代码生成	生成完整训练代码，无需人工编写	不生成代码，用户需自行实现模型
结果理解	理解实验结果背后的原因	只报告最优配置，不解释原因
迭代策略	基于分析结果动态调整研究方向	固定搜索策略（贝叶斯/随机搜索）
硬件适配	单 GPU 专用优化，智能显存管理	多 GPU 优化，对单 GPU 支持有限
学习能力	记住历史实验，迭代改进策略	每次搜索独立，不积累知识
适用场景	探索性研究、学术创新	生产级超参数调优

这个对比揭示了一个核心洞察：AutoResearch 不是另一个 AutoML 工具，而是一个研究智能体。它的目标是替代研究员的"思考过程"，而不仅仅是替代研究员的"操作过程"。

实战案例：用 AutoResearch 训练 nanochat

AutoResearch 的原始目标场景是自动化 nanochat 的训练研究——Karpathy 的轻量级聊天机器人框架。让我们看看它在这个场景下是怎么工作的。

nanochat 研究问题的定义

nanochat 是一个极简的聊天机器人，核心只有几千行代码。围绕它可以研究的问题包括：

不同的 tokenization 策略对对话理解的影响
RoPE 位置编码在不同对话长度上的效果
对话历史窗口大小对上下文理解的影响
不同采样策略（temperature、top-p）对生成质量的影响

research_topic = """
研究目标：在单 GPU 环境下优化 nanochat 的小样本对话能力

约束条件：
1. 模型参数量不超过 100M
2. 训练时间不超过 24 小时
3. GPU 显存限制在 24GB 以内
4. 必须在保持对话流畅的前提下提升少样本准确率

核心技术方向：
- 对比学习 + prompt tuning
- 动态上下文窗口
- 高效注意力机制（如 Flash Attention）
"""

agent = ResearchAgent(
    model="gpt-4",
    research_topic=research_topic,
    gpu_memory_limit=24 * 1024  # 24GB
)

AutoResearch 的研究流程

第一轮（3 个实验）：探索不同架构变体
- 实验 A：基础 nanochat（baseline）
- 实验 B：添加 Flash Attention
- 实验 C：扩展上下文窗口到 8k tokens
结果分析：Flash Attention 对显存效率提升显著，但对话质量略有下降；扩展上下文窗口对长对话有帮助，但短对话没有明显改善。
第二轮（2 个实验）：基于第一轮结果调整
- 实验 D：在 Flash Attention 基础上添加 KV Cache 优化
- 实验 E：结合 RoPE 和动态窗口
最终结果：实验 D 的配置在对话质量和效率上取得了最佳平衡，显存占用降低 40%，同时对话准确率提升 12%。

这个过程如果人工做，可能需要 2-3 周。但 AutoResearch 在48 小时内完成了全部探索，并且发现了一个人工研究可能忽略的配置组合。

社区实践：不止是 ML 研究的工具

更有趣的是，社区发现 AutoResearch 的思想可以泛化到 ML 之外的其他领域。

内容创作迭代

有人把 AutoResearch 用来做内容创作：

# 不是 ML 研究，而是内容迭代
content_agent = ResearchAgent(
    model="gpt-4",
    research_topic="生成高质量技术博客文章",
    max_experiments=50
)

config = {
    "topic": "微服务架构的权衡",
    "target_audience": "有 3-5 年经验的后端工程师",
    "style": "实用主义、代码优先",
    "min_length": 5000,
    "max_iterations": 100
}

results = content_agent.start_research(config)

每次"实验"就是生成一版文章，"指标"是可读性评分、信息密度评分、代码示例覆盖率等。这个方法被报道可以在一夜之间完成 100 次迭代，最终文章质量比人工单次写作提升 62%。

代码优化探索

还有人用它来自动化代码重构探索：

refactor_agent = ResearchAgent(
    model="gpt-4",
    research_topic="找到最优的 Python 异步代码重构方案"
)

# 实验：不同的异步模式对比
experiments = [
    {"pattern": "async/await + asyncio", "complexity": "low"},
    {"pattern": "asyncio + aiofiles", "complexity": "medium"},
    {"pattern": "uvloop + asyncio", "complexity": "medium"},
    {"pattern": " Trio（替代方案）", "complexity": "high"}
]

# 指标：吞吐量、延迟、代码可读性、维护成本

AutoResearch 会自动执行每种方案的性能测试，然后给出综合评分和重构建议。

局限性与挑战

1. LLM 的"幻觉"问题

AutoResearch 的智能完全依赖于 LLM 的能力。但 LLM 有时会生成看起来合理但实际上有问题的代码或假设。这需要严格的验证机制。

2. 计算资源的天花板

AutoResearch 只能在单 GPU 环境下工作。对于需要大规模预训练或大模型微调的研究，它的能力就受限了。Karpathy 自己也承认，这个工具更适合"小研究"而非"大模型训练"。

3. 研究创新的边界

AutoResearch 本质上是在一个给定的搜索空间内做系统性探索。它不太可能产生"从 0 到 1"的原创性突破——因为它所有的知识都来自于训练数据中已有的信息。但它的价值在于解放研究员的双手，让他们有更多时间去思考真正有创造性的问题。

4. 版权和学术伦理

如果 AutoResearch 在实验设计中大量参考了现有论文的方法，那么最终的研究成果应该如何归属？这是一个还没有答案的法律和伦理问题。

展望：AI 研究的下一个十年

AutoResearch 不是一个孤立的工具，它代表了 AI 研究自动化的一个重要方向。

短期（1-3 年）

更强大的代码生成：结合代码执行反馈（类似 AlphaCode）生成更高质量的训练代码
多模态研究支持：不只是文本和代码，还支持图像、音频、视频等数据的研究
分布式协作：多个 AutoResearch 实例共享研究知识，形成"研究蜂群"

中期（3-5 年）

端到端科学发现：从假设生成到论文撰写的完全自动化
跨领域知识迁移：AutoResearch 学到的研究策略可以在不同领域之间迁移
科研基础设施：成为研究机构的标准工具，改变"研究员"的工作定义

长期（5-10 年）

如果我们把视野放得更远，AutoResearch 指向的是一个更大的愿景：让 AI 成为真正的"研究伙伴"，而不是工具。

未来的研究员可能不需要亲手跑实验、写代码，他们的核心工作变成：

提出有意义的研究问题
评估 AutoResearch 的研究结论
将研究成果转化为实际应用

这听起来有点反乌托邦，但也许正是这样的转变，才能让人类研究者把精力集中在 AI 最无法替代的事情上——提出真正有价值的问题。

快速上手指南

环境配置

# 克隆项目
git clone https://github.com/karpathy/autoresearch
cd autoresearch

# 创建虚拟环境
python -m venv venv
source venv/bin/activate

# 安装依赖
pip install torch numpy pandas
pip install transformers  # 可选，支持本地模型

# 配置 API Key
export OPENAI_API_KEY="your-api-key"
# 或者使用本地模型
export AUTORESEARCH_MODEL="local:/path/to/model"

基础使用示例

from autoresearch import ResearchAgent

# 初始化研究智能体
agent = ResearchAgent(
    model="gpt-4",
    research_topic="改进 Transformer 的小样本学习能力"
)

# 配置研究参数
config = {
    "max_experiments": 100,
    "gpu_memory_limit": 24 * 1024,  # 24GB
    "max_training_time_per_experiment": 3600,  # 1小时
    "evaluation_metrics": ["accuracy", "f1_score", "auc"],
    "checkpoint_frequency": 100  # 每 100 步保存 checkpoint
}

# 启动研究
print("开始自主研究...")
results = agent.start_research(config)

# 分析结果
analysis = agent.analyze_results(results)

# 导出报告
agent.export_report("research_report.md")

print(f"研究完成！共完成 {len(results)} 个实验")
print(f"最佳配置：{analysis['best_configuration']}")
print(f"性能提升：{analysis['improvement_percentage']}%")

进阶：自定义研究模块

from autoresearch import ResearchAgent, BaseExperimentModule

class CustomCVModule(BaseExperimentModule):
    """自定义计算机视觉研究模块"""
    
    def design_experiments(self, research_plan):
        # 使用专业领域知识设计实验
        return self._generate_vision_experiments(research_plan)
    
    def analyze_results(self, results):
        # 使用 CV 特定的指标分析
        return self._compute_vision_metrics(results)

# 集成到研究智能体
agent = ResearchAgent(model="gpt-4", research_topic="...")
agent.add_module("computer_vision", CustomCVModule())

结语：重新定义"研究"

AutoResearch 的出现，让我们第一次看到了一条清晰的路径：让 AI 承担研究中的"体力劳动"，让人类专注于"思考"。

这不是在贬低研究员的價值，恰恰相反——Karpathy 630 行代码的背后，是对研究工作本质的深刻洞察。真正有价值的不是"跑实验"这个动作，而是"为什么跑这个实验"的思考。

未来的 AI 研究员，可能不需要知道如何手写一个 Transformer，因为 AutoResearch 会帮你生成。但你需要知道什么是值得研究的，什么是真正重要的科学问题。这，恰恰是 AI 目前还无法替代的。

项目地址：https://github.com/karpathy/autoresearch
社区协作版：https://github.com/mutable-state-inc/autoresearch-at-home
Stars：62,000+（截至 2026 年 4 月）
作者：Andrej Karpathy
许可证：MIT

本文涉及的所有代码示例均基于 AutoResearch 的公开 API 和 GitHub README。实验数据来自社区报告，实际效果可能因硬件配置和研究问题不同而有所差异。

复制全文生成海报 AI 机器学习 AutoML Karpathy PyTorch nanochat