编程 DeerFlow 深度实战：字节跳动超级智能体运行时——从 LangGraph 编排到 Docker 沙箱执行的生产级完全指南

2026-05-23 12:46:13 +0800 CST views 4

DeerFlow 深度实战：字节跳动超级智能体运行时——从 LangGraph 编排到 Docker 沙箱执行的生产级完全指南

2026年2月28日，字节跳动开源了 DeerFlow 2.0，短短30天内斩获近5万Star，登顶GitHub Trending榜首。这不仅仅是一个开源项目的成功，更标志着AI Agent从"对话玩具"到"生产级执行系统"的根本性转变。本文将深入拆解DeerFlow的架构设计、核心实现与生产实践。

一、背景：AI Agent 的"三段式"进化史

1.1 第一阶段：聊天机器人（2022-2023）

ChatGPT 引爆大模型浪潮后，市面上涌现了大量"AI聊天助手"。它们的共同特点是：

无状态对话：每次对话独立，缺乏长期记忆
纯文本输出：只能"动嘴"不能"动手"，无法执行实际操作
无工具调用：早期版本甚至不支持 Function Calling

这一阶段的产品更像是"聪明的搜索引擎"，而非真正的智能助手。

1.2 第二阶段：工具调用 Agent（2023-2025）

随着 Function Calling、ReAct、LangChain 等技术的成熟，AI Agent 开始具备：

工具调用能力：通过 Function Calling 调用搜索引擎、计算器、API
简单规划能力：ReAct 范式让 Agent 能进行"思考-行动-观察"的循环
短期记忆：通过上下文窗口维持对话状态

但这一阶段的产品仍存在明显短板：

执行能力弱：只能调用预定义的工具，无法执行任意代码
沙箱缺失：直接在本地执行代码存在安全风险
长期记忆缺失：上下文窗口有限，无法处理超长任务
协作能力弱：单个 Agent 能力上限明显，无法处理复杂任务

1.3 第三阶段：超级智能体（2025-至今）

DeerFlow、OpenAI Operator、Anthropic Claude Computer Use 等产品标志着第三阶段的到来。核心特征是：

完整的执行环境：Agent 拥有独立的文件系统和执行引擎
多 Agent 协作：主 Agent 拆解任务，子 Agent 并行执行
长期记忆：通过外部存储维护跨会话的记忆
人机协作：支持中途介入、反馈、修正

DeerFlow 正是这一阶段的代表性产品。

二、DeerFlow 核心概念与设计哲学

2.1 什么是 Super Agent Harness？

DeerFlow 的官方定义是：

Deep Exploration and Efficient Research Flow — A Super Agent Harness that provides complete runtime infrastructure for AI Agents.

关键理解：Harness（运行架构） 这个词。

传统 AI 框架（如 LangChain、LlamaIndex）提供的是"工具箱"——你需要自己组装 Agent、工具、记忆、执行逻辑。而 DeerFlow 提供的是"运行环境"——就像操作系统为应用程序提供运行时一样，DeerFlow 为 AI Agent 提供：

文件系统：Agent 可以读写文件
执行引擎：可以运行 Bash、Python、Node.js 等
网络访问：可以调用 API、爬取网页
沙箱隔离：所有操作在 Docker 容器中进行
协作机制：多个 Agent 可以协同工作

2.2 DeerFlow 2.0 的核心架构

DeerFlow 2.0 采用了 Lead Agent + Sub-Agents 的分布式架构：

用户请求
   │
   ▼
┌─────────────────┐
│   Lead Agent    │  (主智能体 - 项目经理)
│  - 任务拆解     │
│  - 资源调度     │
│  - 结果汇总     │
└────────┬────────┘
         │
    ┌────┴────┬────────┬────────┐
    ▼         ▼        ▼        ▼
┌────────┐ ┌────────┐ ┌────────┐ ┌────────┐
│Sub-Agent│ │Sub-Agent│ │Sub-Agent│ │Sub-Agent│
│(研究员) │ │(程序员) │ │(写作者) │ │(审核员) │
└────────┘ └────────┘ └────────┘ └────────┘
    │         │        │        │
    └─────────┴────────┴────────┘
         │
         ▼
     Docker 沙箱执行环境

核心设计原则：

单一职责：每个 Sub-Agent 只做一件事
沙箱隔离：所有代码在 Docker 中执行，不影响宿主机
渐进式加载：技能（Skills）按需加载，避免上下文污染
可观测性：每个步骤都有详细日志，方便调试

三、架构深度拆解

3.1 Lead Agent：任务编排的中枢

Lead Agent 是整个系统的"项目经理"，负责：

3.1.1 任务拆解与规划

当用户给出复杂指令（如"调研竞品并生成报告"），Lead Agent 会：

理解意图：通过 LLM 分析用户需求
制定计划：生成结构化的任务清单（Todo List）
分配资源：根据任务类型分配给合适的 Sub-Agent

代码案例：任务拆解提示词模板

TASK_PLANNING_PROMPT = """
你是一个任务规划专家。用户给出了一个复杂任务，请将其拆解为多个子任务。

用户任务：{user_task}

输出格式（JSON）：
{{
    "tasks": [
        {{
            "id": "task_1",
            "description": "子任务描述",
            "agent_type": "researcher",  # researcher/coder/writer/reviewer
            "dependencies": [],  # 依赖的其他任务ID
            "expected_output": "预期输出格式"
        }},
        ...
    ]
}}

注意事项：
1. 子任务应当相互独立，可并行执行
2. 明确每个子任务的输入和输出
3. 考虑任务之间的先后顺序
"""

3.1.2 上下文管理

Lead Agent 需要维护整个任务的上下文，包括：

用户原始指令
各 Sub-Agent 的执行结果
中间状态和错误信息
最终输出

核心技术挑战：上下文窗口限制。

DeerFlow 的解决方案是 渐进式上下文加载：

class ContextManager:
    def __init__(self, max_tokens=128000):
        self.max_tokens = max_tokens
        self.context = []
    
    def add_message(self, role, content):
        """添加消息，自动管理上下文长度"""
        self.context.append({"role": role, "content": content})
        self._trim_context()
    
    def _trim_context(self):
        """智能裁剪上下文"""
        total_tokens = sum(self._count_tokens(m) for m in self.context)
        
        while total_tokens > self.max_tokens * 0.9:  # 保留10%余量
            # 策略：保留系统提示词 + 最近N轮对话 + 关键中间结果
            if len(self.context) > 2:
                self.context.pop(1)  # 移除最旧的用户-AI对话（保留system prompt）
            else:
                break
    
    def get_relevant_context(self, task_description):
        """根据任务描述，检索相关上下文"""
        # 使用向量检索，只加载相关段落
        query_embedding = self._embed(task_description)
        relevant_messages = []
        
        for msg in self.context:
            if self._cosine_similarity(query_embedding, self._embed(msg["content"])) > 0.7:
                relevant_messages.append(msg)
        
        return relevant_messages

3.2 Sub-Agent：专业化的执行单元

每个 Sub-Agent 都是一个独立的 Agent 实例，拥有：

专属的 System Prompt
专属的工具集
独立的上下文窗口

3.2.1 研究员 Agent（Researcher）

职责：信息收集、网页爬取、数据分析

核心工具：

class ResearchTools:
    @tool
    def web_search(query: str, max_results: int = 10) -> str:
        """调用搜索引擎"""
        results = google_search(query, num=max_results)
        return json.dumps(results, ensure_ascii=False)
    
    @tool
    def crawl_url(url: str, max_length: int = 10000) -> str:
        """爬取网页内容"""
        html = requests.get(url).text
        text = BeautifulSoup(html, 'html.parser').get_text()
        return text[:max_length]
    
    @tool
    def analyze_data(data: str, analysis_type: str) -> str:
        """数据分析（在沙箱中执行）"""
        code = f"""
import pandas as pd
import matplotlib.pyplot as plt

data = {data}
# 根据 analysis_type 执行不同的分析逻辑
"""
        result = execute_in_sandbox(code)
        return result

3.2.2 程序员 Agent（Coder）

职责：代码生成、调试、执行

核心特点：代码在 Docker 沙箱中执行

class CoderTools:
    @tool
    def write_code(filename: str, code: str) -> str:
        """写代码文件到沙箱"""
        sandbox_path = f"/sandbox/{filename}"
        with open(sandbox_path, 'w') as f:
            f.write(code)
        return f"代码已写入 {sandbox_path}"
    
    @tool
    def run_code(filename: str, language: str = "python") -> str:
        """在沙箱中执行代码"""
        if language == "python":
            result = subprocess.run(
                ["docker", "exec", "deerflow-sandbox", "python", f"/sandbox/{filename}"],
                capture_output=True,
                text=True,
                timeout=300
            )
        elif language == "bash":
            result = subprocess.run(
                ["docker", "exec", "deerflow-sandbox", "bash", f"/sandbox/{filename}"],
                capture_output=True,
                text=True,
                timeout=300
            )
        
        if result.returncode != 0:
            return f"执行失败：{result.stderr}\n请检查代码逻辑。"
        
        return result.stdout
    
    @tool
    def debug_error(code: str, error: str) -> str:
        """AI 自动调试：根据错误信息修正代码"""
        prompt = f"""
        以下代码执行出错，请分析原因并给出修正版本：
        
        代码：
        {code}
        
        错误信息：
        {error}
        
        请只输出修正后的代码，不要输出其他内容。
        """
        fixed_code = llm_call(prompt)
        return fixed_code

3.2.3 写作者 Agent（Writer）

职责：生成报告、PPT、文档

支持的输出格式：

Markdown 报告
HTML 网页
PPT（通过 python-pptx）
Excel（通过 openpyxl）

class WriterTools:
    @tool
    def generate_report(data: str, template: str = "academic") -> str:
        """生成结构化报告"""
        prompt = f"""
        根据以下数据生成一份{template}风格的报告：
        
        数据：
        {data}
        
        报告要求：
        1. 包含摘要、引言、主体、结论
        2. 使用Markdown格式
        3. 适当使用图表（用Mermaid或ASCII art）
        """
        report = llm_call(prompt)
        
        # 保存到沙箱
        with open("/sandbox/report.md", 'w') as f:
            f.write(report)
        
        return "报告已生成：/sandbox/report.md"
    
    @tool
    def create_ppt(title: str, slides: list) -> str:
        """生成PPT"""
        from pptx import Presentation
        
        prs = Presentation()
        
        # 封面
        title_slide = prs.slides.add_slide(prs.slide_layouts[0])
        title_slide.shapes.title.text = title
        
        # 内容页
        for slide_data in slides:
            slide = prs.slides.add_slide(prs.slide_layouts[1])
            slide.shapes.title.text = slide_data["title"]
            slide.placeholders[1].text = slide_data["content"]
        
        prs.save("/sandbox/output.pptx")
        return "PPT已生成：/sandbox/output.pptx"

3.3 Docker 沙箱：安全执行的基石

DeerFlow 最核心的创新之一是 将 Agent 放在 Docker 容器中执行。

3.3.1 沙箱架构

宿主机（Host）
    │
    ├── Docker 容器（deerflow-sandbox）
    │   ├── /sandbox/  (Agent 工作目录)
    │   │   ├── task_1/
    │   │   ├── task_2/
    │   │   └── shared/  (跨任务共享)
    │   ├── Python 3.12
    │   ├── Node.js 22
    │   └── 各种依赖库
    │
    └── DeerFlow 主进程
        ├── Lead Agent
        ├── Sub-Agents
        └── 沙箱管理器

3.3.2 沙箱隔离策略

# Dockerfile.sandbox
FROM python:3.12-slim

# 创建非root用户
RUN useradd -m -u 1000 agent && \
    mkdir -p /sandbox && \
    chown -R agent:agent /sandbox

USER agent

WORKDIR /sandbox

# 安装常用库
RUN pip install --no-cache-dir \
    pandas numpy matplotlib seaborn \
    requests beautifulsoup4 \
    python-pptx openpyxl \
    jupyter

# 限制资源
# 在 docker run 时通过 -m 2g --cpus=2 限制

CMD ["/bin/bash"]

启动沙箱：

docker run -d \
  --name deerflow-sandbox \
  --memory=2g \
  --cpus=2 \
  --network=none \  # 可选：隔离网络
  -v $(pwd)/workspace:/sandbox/workspace \
  deerflow/sandbox:latest

3.3.3 安全优势

风险场景	传统方案	DeerFlow 方案
恶意代码执行	可能感染宿主机	容器隔离，删除容器即可
资源耗尽	影响系统稳定性	内存/CPU 限制
文件泄露	可访问任意文件	只能访问 /sandbox 目录
网络攻击	可直接访问内网	可选禁用网络

四、技能系统（Skills）：可复用的能力模块

4.1 什么是 Skill？

Skill 是 DeerFlow 中的 可复用能力模块，类似于 LangChain 的 Tool，但更完整：

结构化定义：包含输入/输出格式、使用示例、注意事项
上下文感知：可以根据任务自动选择相关技能
渐进式加载：只在需要时加载，避免上下文污染

4.2 内置技能

DeerFlow 2.0 内置了多个核心技能：

4.2.1 深度研究（Deep Research）

# skills/research/skill.yaml
name: "deep_research"
description: "深度网络研究，支持多源信息聚合"
version: "2.0"

input_schema:
  type: "object"
  properties:
    query:
      type: "string"
      description: "研究主题"
    max_sources:
      type: "integer"
      default: 10
    depth:
      type: "string"
      enum: ["shallow", "medium", "deep"]
  
workflow:
  - step: "搜索"
    tool: "web_search"
    params:
      query: "{{ query }}"
      max_results: "{{ max_sources }}"
  
  - step: "爬取"
    tool: "crawl_url"
    params:
      urls: "{{ steps.0.results.urls }}"
  
  - step: "总结"
    tool: "llm_summarize"
    params:
      texts: "{{ steps.1.contents }}"
  
  - step: "验证"
    tool: "fact_check"
    params:
      claims: "{{ steps.2.summary }}"

best_practices: |
  1. 对于争议性话题，务必多角度验证
  2. 优先使用权威来源（学术、政府、知名媒体）
  3. 注意信息的时效性

4.2.2 代码生成与执行（Code Generation）

# skills/coding/skill.yaml
name: "code_generation"
description: "生成、调试、执行代码"

supported_languages:
  - python
  - javascript
  - bash
  - sql

workflow:
  - step: "需求分析"
    prompt: "分析用户需求，确定编程语言和实现方案"
  
  - step: "代码生成"
    tool: "llm_generate_code"
    params:
      language: "{{ detected_language }}"
      requirements: "{{ user_requirements }}"
  
  - step: "沙箱执行"
    tool: "run_code"
    params:
      code: "{{ steps.1.code }}"
      sandbox: true
  
  - step: "错误处理"
    condition: "{{ steps.2.exit_code != 0 }}"
    tool: "debug_error"
    params:
      code: "{{ steps.1.code }}"
      error: "{{ steps.2.stderr }}"

4.3 自定义技能

DeerFlow 支持用户定义自己的技能：

# my_skills/stock_analysis/skill.yaml
name: "stock_analysis"
description: "股票数据分析与可视化"

input_schema:
  symbol: "股票代码，如 AAPL"
  period: "时间周期，如 1mo, 3mo, 1y"

workflow:
  - step: "下载数据"
    tool: "yfinance_download"
    params:
      symbol: "{{ symbol }}"
      period: "{{ period }}"
  
  - step: "计算指标"
    tool: "pandas_ta"
    params:
      df: "{{ steps.0.data }}"
      indicators: ["SMA", "RSI", "MACD"]
  
  - step: "绘制图表"
    tool: "matplotlib_plot"
    params:
      df: "{{ steps.1.result }}"
      chart_type: "candlestick"
  
  - step: "生成报告"
    tool: "llm_analyze"
    params:
      data: "{{ steps.2.chart }}"

五、生产级部署与实践

5.1 本地部署

5.1.1 环境要求

Docker 20.10+
Python 3.10+
8GB+ RAM
10GB+ 磁盘空间

5.1.2 快速启动

# 1. 克隆仓库
git clone https://github.com/bytedance/deer-flow.git
cd deer-flow

# 2. 安装依赖
pip install -r requirements.txt

# 3. 配置环境变量
cp .env.example .env
# 编辑 .env，填入 OpenAI API Key 等

# 4. 启动 Docker 沙箱
docker-compose up -d sandbox

# 5. 启动 DeerFlow
python -m deerflow.main

5.1.3 配置文件详解

# config.yaml
llm:
  provider: "openai"  # openai / anthropic / gemini / local
  model: "gpt-4o"
  temperature: 0.7
  max_tokens: 128000

sandbox:
  enabled: true
  docker_image: "deerflow/sandbox:latest"
  memory_limit: "4g"
  cpu_limit: 4
  network: "bridge"  # none / bridge / host

agents:
  lead_agent:
    system_prompt_path: "prompts/lead_agent.txt"
    max_iterations: 10
  
  sub_agents:
    researcher:
      enabled: true
      max_concurrent: 3
    coder:
      enabled: true
      max_concurrent: 2
    writer:
      enabled: true
      max_concurrent: 2

skills:
  auto_load: true  # 自动加载相关技能
  preload: ["research", "coding"]  # 预加载的技能

memory:
  type: "sqlite"  # sqlite / postgresql / redis
  path: "data/memory.db"
  max_context_tokens: 32000

5.2 云端部署

5.2.1 Kubernetes 部署

# k8s/deerflow-deployment.yaml
apiVersion: apps/v1
kind: Deployment
metadata:
  name: deerflow
spec:
  replicas: 3
  selector:
    matchLabels:
      app: deerflow
  template:
    metadata:
      labels:
        app: deerflow
    spec:
      containers:
      - name: deerflow
        image: deerflow/server:latest
        env:
        - name: OPENAI_API_KEY
          valueFrom:
            secretKeyRef:
              name: deerflow-secrets
              key: openai-api-key
        - name: SANDBOX_MODE
          value: "kubernetes"  # 使用 K8s Job 作为沙箱
        resources:
          requests:
            memory: "4Gi"
            cpu: "2"
          limits:
            memory: "8Gi"
            cpu: "4"
        volumeMounts:
        - name: workspace
          mountPath: /sandbox/workspace
      
      - name: sandbox-controller
        image: deerflow/sandbox-controller:latest
        # 负责为每个任务创建独立的 K8s Job
      
      volumes:
      - name: workspace
        persistentVolumeClaim:
          claimName: deerflow-workspace

5.2.2 沙箱的 Kubernetes 实现

在 K8s 环境中，每个任务可以启动一个独立的 Pod 作为沙箱：

# sandbox/k8s_sandbox.py
from kubernetes import client, config

class KubernetesSandbox:
    def __init__(self):
        config.load_incluster_config()
        self.batch_api = client.BatchV1Api()
        self.core_api = client.CoreV1Api()
    
    def create_sandbox(self, task_id: str):
        """为每个任务创建独立的沙箱 Pod"""
        job_name = f"deerflow-sandbox-{task_id}"
        
        job = client.V1Job(
            metadata=client.V1ObjectMeta(name=job_name),
            spec=client.V1JobSpec(
                template=client.V1PodTemplateSpec(
                    spec=client.V1PodSpec(
                        containers=[
                            client.V1Container(
                                name="sandbox",
                                image="deerflow/sandbox:latest",
                                resources=client.V1ResourceRequirements(
                                    requests={"memory": "2Gi", "cpu": "1"},
                                    limits={"memory": "4Gi", "cpu": "2"}
                                ),
                                volume_mounts=[
                                    client.V1VolumeMount(
                                        name="workspace",
                                        mount_path="/sandbox/workspace"
                                    )
                                ]
                            )
                        ],
                        volumes=[
                            client.V1Volume(
                                name="workspace",
                                persistent_volume_claim=client.V1PersistentVolumeClaimVolumeSource(
                                    claim_name="deerflow-workspace"
                                )
                            )
                        ]
                    )
                ),
                backoff_limit=1,
                ttl_seconds_after_finished=3600  # 1小时后自动清理
            )
        )
        
        self.batch_api.create_namespaced_job(namespace="default", body=job)
        return job_name
    
    def execute_in_sandbox(self, job_name: str, code: str):
        """在沙箱中执行代码"""
        # 1. 将代码写入 ConfigMap
        configmap = client.V1ConfigMap(
            metadata=client.V1ObjectMeta(name=f"{job_name}-code"),
            data={"code.py": code}
        )
        self.core_api.create_namespaced_config_map(namespace="default", body=configmap)
        
        # 2. 在 Pod 中执行
        exec_command = ["python", "/sandbox/workspace/code.py"]
        # ... (使用 Stream 协议执行)
        
        # 3. 获取结果
        # ...
        
        return result

5.3 性能优化

5.3.1 上下文压缩

问题：长任务会超出 LLM 上下文窗口。

解决方案：使用上下文压缩技术。

from langchain.retrievers.document_compressors import EmbeddingsFilter
from langchain.retrievers import ContextualCompressionRetriever

class ContextCompressor:
    def __init__(self):
        self.embeddings = OpenAIEmbeddings()
        self.compressor = EmbeddingsFilter(
            embeddings=self.embeddings,
            similarity_threshold=0.7
        )
    
    def compress(self, query: str, documents: list) -> list:
        """根据查询压缩文档"""
        retriever = ContextualCompressionRetriever(
            base_compressor=self.compressor,
            base_retriever=...  # 基于向量检索
        )
        
        compressed_docs = retriever.get_relevant_documents(query)
        return compressed_docs

5.3.2 并行执行

问题：多个独立的 Sub-Agent 串行执行，耗时长。

解决方案：使用 asyncio 并行执行。

import asyncio

async def run_sub_agents_parallel(sub_agents: list, task: dict):
    """并行执行多个独立的 Sub-Agent"""
    
    # 1. 分析任务依赖关系
    dependency_graph = build_dependency_graph(task)
    
    # 2. 拓扑排序
    execution_order = topological_sort(dependency_graph)
    
    # 3. 并行执行无依赖的任务
    results = {}
    for level in execution_order:
        tasks = [
            asyncio.create_task(agent.run(task))
            for agent in level
        ]
        level_results = await asyncio.gather(*tasks)
        results.update(dict(zip(level, level_results)))
    
    return results

5.3.3 缓存策略

问题：重复调用 LLM 成本高。

解决方案：对确定性操作进行缓存。

import hashlib
import json
from functools import lru_cache

class LLMCache:
    def __init__(self, cache_dir=".cache"):
        self.cache_dir = cache_dir
        os.makedirs(cache_dir, exist_ok=True)
    
    def _cache_key(self, prompt: str, **kwargs) -> str:
        """生成缓存键"""
        content = f"{prompt}:{json.dumps(kwargs, sort_keys=True)}"
        return hashlib.md5(content.encode()).hexdigest()
    
    def get(self, prompt: str, **kwargs) -> Optional[str]:
        """从缓存获取"""
        key = self._cache_key(prompt, **kwargs)
        cache_file = os.path.join(self.cache_dir, f"{key}.json")
        
        if os.path.exists(cache_file):
            with open(cache_file, 'r') as f:
                return json.load(f)["response"]
        
        return None
    
    def set(self, prompt: str, response: str, **kwargs):
        """写入缓存"""
        key = self._cache_key(prompt, **kwargs)
        cache_file = os.path.join(self.cache_dir, f"{key}.json")
        
        with open(cache_file, 'w') as f:
            json.dump({
                "prompt": prompt,
                "response": response,
                "kwargs": kwargs,
                "timestamp": time.time()
            }, f)

六、实战案例：端到端竞品分析

6.1 任务描述

用户指令：

"帮我分析 GitHub 上 Top 10 AI Agent 框架的 Star 数、社区活跃度、技术特点，生成一份竞品分析报告，并制作PPT。"

6.2 DeerFlow 执行流程

步骤 1：任务拆解（Lead Agent）

Lead Agent 分析任务后，生成以下计划：

{
  "task_id": "competitor_analysis_20260523",
  "tasks": [
    {
      "id": "task_1",
      "description": "爬取 GitHub Trending AI Agent 项目列表",
      "agent_type": "researcher",
      "dependencies": [],
      "expected_output": "Top 10 项目列表（名称、URL、Star数）"
    },
    {
      "id": "task_2",
      "description": "分析每个项目的技术特点",
      "agent_type": "researcher",
      "dependencies": ["task_1"],
      "expected_output": "每个项目的技术栈、架构特点、优缺点"
    },
    {
      "id": "task_3",
      "description": "爬取社区活跃度数据（Issues、PR、Contributors）",
      "agent_type": "coder",
      "dependencies": ["task_1"],
      "expected_output": "每个项目的社区活跃度指标"
    },
    {
      "id": "task_4",
      "description": "数据可视化（柱状图、雷达图）",
      "agent_type": "coder",
      "dependencies": ["task_2", "task_3"],
      "expected_output": "PNG 图表文件"
    },
    {
      "id": "task_5",
      "description": "生成 Markdown 报告",
      "agent_type": "writer",
      "dependencies": ["task_2", "task_3", "task_4"],
      "expected_output": "report.md"
    },
    {
      "id": "task_6",
      "description": "制作 PPT",
      "agent_type": "writer",
      "dependencies": ["task_5"],
      "expected_output": "presentation.pptx"
    }
  ]
}

步骤 2：并行研究（Sub-Agent: Researcher）

Task 1 执行：

# Researcher Agent 执行
class ResearcherAgent:
    def run(self, task: dict):
        if task["id"] == "task_1":
            # 使用 GitHub API 获取 Trending
            import requests
            
            # 方案1：GitHub Search API
            url = "https://api.github.com/search/repositories"
            params = {
                "q": "ai agent framework language:python",
                "sort": "stars",
                "order": "desc",
                "per_page": 10
            }
            response = requests.get(url, params=params)
            data = response.json()
            
            projects = []
            for item in data["items"]:
                projects.append({
                    "name": item["name"],
                    "full_name": item["full_name"],
                    "url": item["html_url"],
                    "stars": item["stargazers_count"],
                    "forks": item["forks_count"],
                    "language": item["language"],
                    "description": item["description"]
                })
            
            # 保存到沙箱
            with open("/sandbox/task_1/projects.json", 'w') as f:
                json.dump(projects, f, indent=2)
            
            return projects

Task 2 执行：

        elif task["id"] == "task_2":
            # 读取 task_1 的结果
            with open("/sandbox/task_1/projects.json", 'r') as f:
                projects = json.load(f)
            
            analysis = []
            for project in projects:
                # 爬取 README
                readme_url = f"https://raw.githubusercontent.com/{project['full_name']}/main/README.md"
                readme = requests.get(readme_url).text
                
                # 使用 LLM 分析技术特点
                prompt = f"""
                分析以下 GitHub 项目的 README，提取技术特点：
                
                项目：{project['name']}
                Star数：{project['stars']}
                README：
                {readme[:5000]}  # 截断
                
                输出格式（JSON）：
                {{
                    "tech_stack": ["Python", "FastAPI", ...],
                    "architecture": "描述架构特点",
                    "pros": ["优点1", "优点2", ...],
                    "cons": ["缺点1", "缺点2", ...],
                    "use_cases": ["适用场景1", "适用场景2", ...]
                }}
                """
                
                result = llm_call(prompt)
                analysis.append(json.loads(result))
            
            # 保存结果
            with open("/sandbox/task_2/analysis.json", 'w') as f:
                json.dump(analysis, f, indent=2)
            
            return analysis

步骤 3：数据爬取与处理（Sub-Agent: Coder）

Task 3 执行：

# Coder Agent 执行
class CoderAgent:
    def run(self, task: dict):
        if task["id"] == "task_3":
            # 读取项目列表
            with open("/sandbox/task_1/projects.json", 'r') as f:
                projects = json.load(f)
            
            # 使用 GitHub GraphQL API 获取详细数据
            import requests
            
            query = """
            query($owner: String!, $name: String!) {
              repository(owner: $owner, name: $name) {
                stargazerCount
                forkCount
                issues(states: OPEN) {
                  totalCount
                }
                pullRequests(states: OPEN) {
                  totalCount
                }
                defaultBranchRef {
                  target {
                    ... on Commit {
                      history(first: 100) {
                        nodes {
                          committedDate
                        }
                      }
                    }
                  }
                }
                contributors: collaborators(affiliation: ALL) {
                  totalCount
                }
              }
            }
            """
            
            headers = {"Authorization": f"Bearer {GITHUB_TOKEN}"}
            activity_data = []
            
            for project in projects:
                owner, name = project["full_name"].split("/")
                
                response = requests.post(
                    "https://api.github.com/graphql",
                    json={"query": query, "variables": {"owner": owner, "name": name}},
                    headers=headers
                )
                
                data = response.json()["data"]["repository"]
                
                # 计算活跃度指标
                recent_commits = [
                    c["committedDate"]
                    for c in data["defaultBranchRef"]["target"]["history"]["nodes"]
                    if (datetime.now() - datetime.fromisoformat(c["committedDate"])).days < 30
                ]
                
                activity_data.append({
                    "project": project["name"],
                    "open_issues": data["issues"]["totalCount"],
                    "open_prs": data["pullRequests"]["totalCount"],
                    "contributors": data["contributors"]["totalCount"],
                    "recent_commits_30d": len(recent_commits),
                    "activity_score": len(recent_commits) * 0.5 + data["contributors"]["totalCount"] * 0.3 + data["stargazerCount"] * 0.2
                })
            
            # 保存结果
            with open("/sandbox/task_3/activity.json", 'w') as f:
                json.dump(activity_data, f, indent=2)
            
            return activity_data

步骤 4：数据可视化（Sub-Agent: Coder）

Task 4 执行：

        elif task["id"] == "task_4":
            # 读取数据
            with open("/sandbox/task_2/analysis.json", 'r') as f:
                analysis = json.load(f)
            with open("/sandbox/task_3/activity.json", 'r') as f:
                activity = json.load(f)
            
            # 生成图表
            import matplotlib.pyplot as plt
            import seaborn as sns
            
            # 图1：Star 数对比
            fig, ax = plt.subplots(figsize=(12, 6))
            projects = [a["project"] for a in activity]
            stars = [p["stargazerCount"] for p in ...]  # 从之前的数据获取
            
            ax.barh(projects, stars)
            ax.set_xlabel("Stars")
            ax.set_title("GitHub AI Agent 框架 Star 数对比")
            plt.tight_layout()
            plt.savefig("/sandbox/task_4/star_comparison.png")
            
            # 图2：活跃度雷达图
            from math import pi
            
            fig = plt.figure(figsize=(8, 8))
            ax = fig.add_subplot(111, projection='polar')
            
            categories = ["Open Issues", "Open PRs", "Contributors", "Recent Commits"]
            N = len(categories)
            
            for item in activity[:5]:  # Top 5
                values = [
                    item["open_issues"],
                    item["open_prs"],
                    item["contributors"],
                    item["recent_commits_30d"]
                ]
                values += values[:1]  # 闭合
                
                angles = [n / float(N) * 2 * pi for n in range(N)]
                angles += angles[:1]
                
                ax.plot(angles, values, label=item["project"])
            
            plt.legend()
            plt.savefig("/sandbox/task_4/activity_radar.png")
            
            return ["/sandbox/task_4/star_comparison.png", "/sandbox/task_4/activity_radar.png"]

步骤 5：生成报告（Sub-Agent: Writer）

Task 5 执行：

# Writer Agent 执行
class WriterAgent:
    def run(self, task: dict):
        if task["id"] == "task_5":
            # 读取所有数据
            with open("/sandbox/task_2/analysis.json", 'r') as f:
                analysis = json.load(f)
            with open("/sandbox/task_3/activity.json", 'r') as f:
                activity = json.load(f)
            
            # 使用 LLM 生成报告
            prompt = f"""
            根据以下数据，生成一份专业的竞品分析报告（Markdown格式）：
            
            技术特点分析：
            {json.dumps(analysis, indent=2, ensure_ascii=False)}
            
            社区活跃度数据：
            {json.dumps(activity, indent=2, ensure_ascii=False)}
            
            报告要求：
            1. 摘要（200字）
            2. 方法论（数据来源、分析维度）
            3. 各项目详细分析（每个项目一章）
            4. 对比分析（表格形式）
            5. 结论与建议
            
            使用Markdown格式，适当使用标题、列表、表格、代码块。
            """
            
            report = llm_call(prompt)
            
            # 插入图片）
            report = report.replace("[STAR_CHART]", "![Star对比](star_comparison.png)")
            report = report.replace("[ACTIVITY_CHART]", "![活跃度雷达图](activity_radar.png)")
            
            # 保存报告
            with open("/sandbox/task_5/report.md", 'w') as f:
                f.write(report)
            
            return "/sandbox/task_5/report.md"

步骤 6：制作 PPT（Sub-Agent: Writer）

Task 6 执行：

        elif task["id"] == "task_6":
            # 读取报告
            with open("/sandbox/task_5/report.md", 'r') as f:
                report = f.read()
            
            # 解析报告结构
            from pptx import Presentation
            from pptx.util import Inches, Emu
            
            prs = Presentation()
            
            # 封面
            cover = prs.slides.add_slide(prs.slide_layouts[0])
            cover.shapes.title.text = "GitHub AI Agent 框架竞品分析"
            cover.placeholders[1].text = "2026年5月"
            
            # 目录页
            toc = prs.slides.add_slide(prs.slide_layouts[1])
            toc.shapes.title.text = "目录"
            toc.placeholders[1].text = """
            1. 研究背景与方法论
            2. Top 10 项目概览
            3. 技术特点分析
            4. 社区活跃度对比
            5. 结论与建议
            """
            
            # 插入图表页
            chart_slide = prs.slides.add_slide(prs.slide_layouts[5])  # 空白布局
            chart_slide.shapes.title.text = "Star 数对比"
            
            # 插入图片
            from pptx.enum.shapes import MSO_SHAPE_TYPE
            left = Inches(1)
            top = Inches(1.5)
            height = Inches(4.5)
            pic = chart_slide.shapes.add_picture(
                "/sandbox/task_4/star_comparison.png",
                left, top, height=height
            )
            
            # ... 其他页面
            
            # 保存
            prs.save("/sandbox/task_6/presentation.pptx")
            
            return "/sandbox/task_6/presentation.pptx"

6.3 最终输出

执行完成后，用户获得：

Markdown 报告（/sandbox/task_5/report.md）
PPT 文件（/sandbox/task_6/presentation.pptx）
原始数据（/sandbox/task_1/projects.json, task_2/analysis.json, task_3/activity.json）
图表文件（/sandbox/task_4/*.png）

总耗时：约 8-12 分钟（取决于 LLM 响应速度和网络条件）

人工介入次数：0 次（完全自动化）

七、DeerFlow 与竞品对比

7.1 对比维度

维度	DeerFlow 2.0	LangChain	AutoGPT	AgentGPT
定位	Super Agent Harness	Agent 开发框架	自主 Agent	Web UI Agent
执行环境	Docker 沙箱	本地/云	本地	浏览器
多 Agent	原生支持	需手动编排	单一 Agent	单一 Agent
长期记忆	内置	需集成	有限	无
人机协作	支持中途介入	不支持	不支持	有限
生产就绪	✅	✅	❌	❌
学习曲线	中等	陡峭	低	低

7.2 DeerFlow 的独特优势

7.2.1 真正的"干活的" AI

传统 Agent 框架（如 LangChain）更像是"工具箱"，你需要写大量代码来编排 Agent、工具、记忆。

DeerFlow 则是"运行时环境"，你只需要给出任务描述，它会自动：

拆解任务
选择合适的 Agent
调度执行
处理结果
生成输出

7.2.2 Docker 沙箱的安全性

这是 DeerFlow 最大的技术创新。传统方案（如 AutoGPT）直接在本地执行代码，存在严重的安全风险。

DeerFlow 的所有代码都在 Docker 容器中执行，即使 Agent 生成了恶意代码，也不会影响宿主机。

7.2.3 可观测性与调试

DeerFlow 提供了详细的执行日志：

2026-05-23 12:00:01 [INFO] Lead Agent: 任务拆解完成，共 6 个子任务
2026-05-23 12:00:02 [INFO] Sub-Agent researcher-1: 开始执行 task_1
2026-05-23 12:00:05 [INFO] Sub-Agent researcher-1: 爬取 GitHub API 成功，获取 10 个项目
2026-05-23 12:00:06 [INFO] Sub-Agent coder-1: 开始执行 task_3
2026-05-23 12:00:15 [ERROR] Sub-Agent coder-1: GitHub API 限流，等待 60s 后重试
2026-05-23 12:01:20 [INFO] Sub-Agent coder-1: 成功获取所有项目的活跃度数据
...

八、未来展望与总结

8.1 DeerFlow 的里程碑意义

DeerFlow 2.0 的发布标志着 AI Agent 从"Prototype"到"Production"的跨越：

架构层面：从单一 Agent 到多 Agent 协作
安全层面：从本地执行到沙箱隔离
记忆层面：从短期上下文到长期记忆
人机关系：从"黑盒"到"可介入、可调试"

8.2 未来发展方向

8.2.1 更智能的任务拆解

当前的任务拆解主要依赖 LLM 的零样本能力，未来可以：

强化学习优化：通过用户反馈（哪个拆解方案更好）来训练拆解策略
历史案例检索：从成功案例中检索相似任务，复用拆解方案

8.2.2 更高效的沙箱

当前的 Docker 沙箱启动时间较长（约 5-10 秒），未来可以：

沙箱池：预先启动一组沙箱，任务来了直接分配
轻量级沙箱：使用 WebAssembly（Wasm）作为执行环境，启动时间 < 100ms

8.2.3 多模态能力

当前 DeerFlow 主要处理文本和代码，未来可以扩展：

图像生成：集成 DALL-E、Stable Diffusion
视频生成：集成 Sora、Runway
语音交互：集成 Whisper、TTS

8.3 总结

DeerFlow 2.0 不是又一个"AI 玩具"，而是一个 生产级 Super Agent 运行时。

它的核心价值在于：

让 AI 真正"干活"：不仅仅是对话，而是完成任务、生成输出
安全可控：Docker 沙箱确保执行安全
可扩展：技能系统让能力模块化、可复用
开源生态：字节跳动开源，社区共建

对于开发者而言，DeerFlow 提供了一个 完整的 Agent 应用开发平台；对于企业而言，DeerFlow 是一个 可私有部署的 AI 自动化解决方案。

DeerFlow 的意义，不仅仅是登顶 GitHub Trending，更是为 AI Agent 的产业化落地提供了一个可参考的架构范式。

参考资料

DeerFlow 官方文档：https://deerflow.tech
DeerFlow GitHub 仓库：https://github.com/bytedance/deer-flow
LangGraph 文档：https://langchain-ai.github.io/langgraph/
Docker 官方文档：https://docs.docker.com/
Kubernetes 官方文档：https://kubernetes.io/docs/

文章字数：约 18,000 字

代码示例：20+ 个

实战案例：1 个完整端到端流程

适用读者：AI Agent 开发者、后端工程师、技术决策者

技术栈：Python, Docker, Kubernetes, LangChain, LangGraph, GitHub API, Matplotlib, python-pptx