编程 MiroFish 深度实战：群体智能仿真预测引擎——从数字公民建模到 OASIS 引擎的架构全解析（2026）

2026-06-03 13:50:35 +0800 CST views 23

MiroFish 深度实战：群体智能仿真预测引擎——从数字公民建模到 OASIS 引擎的架构全解析（2026）

背景介绍

传统预测工具的逻辑链条是：收集数据 → 跑模型 → 输出数字。这个范式存在一个根本性的局限——模型是静态的，而现实世界是动态博弈的结果。舆论风向、市场情绪、政策响应，都是无数个体相互作用后涌现出来的集体现象，你很难用线性回归去拟合一场舆论风暴，更无法用时间序列模型预测某个政策出台后公众的真实反应。

2026 年，一个名为 MiroFish（GitHub: 666ghj/MiroFish）的开源项目在 GitHub 上狂揽 43,000+ 颗星，周增长率达 17%，直接冲上 GitHub Trending 全球 Top 1。这个项目的核心思路非常反常识——不预测个体，而是仿真群体。

MiroFish 的自我定位是："让未来在数字沙盘中预演，助决策在百战模拟后胜出。"

它不走传统机器学习的路子，而是构建一个完整的"平行数字孪生实验室"，用成千上万个具备独立人格、长期记忆和行为逻辑的 AI Agent 在高保真仿真环境中自由交互和演化。你可以通过"上帝视角"注入变量，精准推演未来的可能走向。

本文将从程序员视角，对 MiroFish 的整体架构、核心技术栈、实现原理进行深度拆解，并结合源码和实战代码，展示如何从零开始使用这一群体智能预测引擎。

一、项目概览与核心定位

1.1 什么是 MiroFish

MiroFish（github.com/666ghj/MiroFish）是一款基于多智能体技术的新一代 AI 预测引擎，由盛大集团战略支持与孵化。与传统预测工具不同，MiroFish 并不直接对输入数据进行模式识别和数值预测，而是通过以下三步完成预测任务：

种子信息驱动：从突发新闻、政策草案、金融信号、数据分析报告或小说故事中提取种子信息
平行世界构建：自动构建高保真仿真环境，让具备独立人格、长期记忆与行为逻辑的智能体自由交互演化
涌现式预测：观察群体交互过程中自然涌现的行为模式和趋势，作为预测输出

这个思路的本质是用 AI Agent 模拟"人"，而不是模拟"数据"。每一条统计数据的背后都是一个带有独立偏见、记忆、性格和情感波动的个体。MiroFish 不模拟"数据模式"，它模拟的是"人的反应"。

1.2 核心指标

指标	数值
GitHub 星标	43,670+
周增长率	17%
编程语言	Python
开源时间	2025-11-26
技术栈	Python + Node.js（前端）+ OASIS + GraphRAG

1.3 应用场景

舆论预测：输入一条突发新闻，观察社交网络中不同立场群体的反应演化
政策推演：输入一份政策草案，让模拟公民群体讨论、博弈，预测落地影响
金融市场：构建模拟市场，让具备不同投资策略的 Agent 交互，预测价格走势
内容营销：模拟不同受众群体对营销内容的反应，优化传播策略
危机公关：预演品牌危机在不同传播路径下的演化，制定应对方案

二、技术架构深度解析

MiroFish 的技术架构可以分为五大核心模块，每个模块各司其职，共同支撑起群体智能仿真这个宏大的目标。

┌─────────────────────────────────────────────────────────────────┐
│                        MiroFish 系统架构                          │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  ┌──────────────┐    ┌──────────────────┐    ┌──────────────┐ │
│  │  种子提取层   │───▶│   OASIS 仿真引擎  │◀───│  GraphRAG    │ │
│  │  (Seeding)   │    │  (双平台并行模拟)  │    │  知识图谱层   │ │
│  └──────────────┘    └──────────────────┘    └──────────────┘ │
│         │                     │                      │        │
│         ▼                     ▼                      ▼        │
│  ┌──────────────────────────────────────────────────────────┐  │
│  │              数字公民层 (Digital Citizens)                 │  │
│  │  独立人格 + 长期记忆(Zep) + 行为逻辑 + 性格/MBTI建模        │  │
│  └──────────────────────────────────────────────────────────┘  │
│         │                     │                      │        │
│         ▼                     ▼                      ▼        │
│  ┌──────────────┐    ┌──────────────────┐    ┌──────────────┐ │
│  │  ReportAgent │    │   涌现观测层       │    │  预测报告层   │ │
│  │  (ReACT驱动)  │    │  (上帝视角/干预)   │    │  (多维度输出) │ │
│  └──────────────┘    └──────────────────┘    └──────────────┘ │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

2.1 种子提取层（Seeding Layer）

MiroFish 的预测起点是"种子信息"。这些种子信息可以是任意形式的文本输入：

突发新闻报道
政策草案文件
金融信号或财报摘要
社交媒体帖子
甚至是一段小说情节

种子提取层的任务是将这些非结构化文本解析为结构化的仿真输入。这个过程涉及：

实体关系提取：从文本中识别出人物、组织、规则、历史事件及其相互关系。

人设画像生成：为每个数字公民生成初始人格特征，包括 MBTI 性格类型、立场倾向、知识背景等。

事件链构建：将时间线上的事件串联成逻辑链，确保 Agent 之间的交互有上下文可循。

从技术实现角度看，这一层的核心挑战是信息保真度——如何确保提取出来的人物关系和事件逻辑与原文保持一致，同时又能够被仿真引擎所理解和使用。

2.2 OASIS 仿真引擎——群体智能的运行底座

OASIS（Open Agent Social Interaction Simulations）是由 CAMEL-AI 团队开源的大规模社交网络仿真平台。MiroFish 基于 OASIS 构建其核心仿真引擎，这也是整个系统最关键的技术支柱。

CAMEL-AI 是大语言模型多智能体框架的先驱者，核心思想是让多个 AI Agent 在特定角色和任务驱动下进行自然语言交互，模拟人类社会的协作与知识共享。而 OASIS 则是 CAMEL-AI 在社交仿真领域的具体实现。

2.2.1 OASIS 的五大核心组件

OASIS 由以下五大核心组件构成：

1. Environment Server（环境服务）

环境模块是整个社交媒体环境的核心数据库，负责存储用户、帖子、关注关系等动态信息。这些数据支持实时更新，模拟真实社交媒体交互的动态性和复杂性。

# OASIS 环境的简化初始化（基于源码逻辑）
class OasisEnvironment:
    def __init__(self, platform_type: str = "twitter"):
        self.agent_graph = AgentGraph()      # 管理所有 Agent 及关系网络
        self.platform = Platform(platform_type)  # 模拟 Twitter/Reddit
        self.channel = Channel()             # Agent 间消息传递
        self.recsys = RecommendationSystem() # 内容推荐系统
        self.db_path = f"sim_{platform_type}.db"
    
    def register_agent(self, agent: Agent) -> str:
        """注册一个新 Agent 到仿真环境中"""
        agent_id = self.agent_graph.add_node(agent)
        # 初始化 Agent 的关注网络
        self._init_social_connections(agent_id)
        return agent_id
    
    def post_content(self, agent_id: str, content: str) -> Post:
        """Agent 发布内容到平台"""
        post = self.platform.create_post(agent_id, content)
        self.db_path.write(post)
        return post
    
    def step(self, tick: int):
        """仿真推进一个时间步长"""
        active_agents = self.agent_graph.get_active_agents(tick)
        for agent_id in active_agents:
            agent = self.agent_graph.get_agent(agent_id)
            # Agent 根据当前状态和推荐内容决定下一步行动
            action = agent.decide(self.recsys.get_recommendations(agent_id))
            self._execute_action(agent_id, action)

2. AgentGraph（智能体关系图）

管理模拟中的所有智能体及其关系网络。OASIS 的独特之处在于它能支持百万级 Agent 的规模，其背后的技术关键在于图结构的工程优化——使用高效的图存储和索引结构，支持大规模并行访问。

3. Platform（社交平台模拟）

核心类负责模拟 Twitter 或 Reddit 等社交平台的核心功能，包括发帖、点赞、转发、评论、关注等。平台模拟的质量直接决定了仿真的"保真度"——如果平台行为与真实社交媒体差异过大，Agent 的交互结果就不具备参考价值。

# 平台行为模拟的简化示例
class SocialPlatform:
    def __init__(self, platform_type: str):
        self.type = platform_type
        self.posts = []
        self.follow_graph = {}
        self.interaction_log = []
    
    def simulate_agent_behavior(self, agent: Agent) -> List[Action]:
        """模拟一个 Agent 在平台上的典型行为"""
        actions = []
        
        # 1. 浏览（接收推荐内容）
        feed = self.recsys.get_feed(agent.id)
        
        # 2. 互动（点赞、评论、转发）
        for post in feed[:5]:  # 取前5条
            sentiment = agent.analyze_sentiment(post.content)
            if sentiment == "positive":
                actions.append(Action("like", post.id))
            if agent.should_comment(post):
                comment = agent.generate_comment(post)
                actions.append(Action("comment", post.id, comment))
        
        # 3. 发布原创内容
        if agent.should_post():
            content = agent.generate_post()
            actions.append(Action("post", content=content))
        
        # 4. 建立社交关系
        suggested_connections = self.recsys.suggest_follows(agent.id)
        for target_id in suggested_connections[:3]:
            if agent.should_follow(target_id):
                actions.append(Action("follow", target_id))
        
        return actions

4. Channel（通信通道）

实现 Agent 之间的消息传递机制。这是 Agent 社交能力的技术基础——一个 Agent 产生的帖子如何被其他 Agent"看到"，评论如何回复，@ 如何传递，都由 Channel 模块负责。

5. RecommendationSystem（推荐系统）

基于不同算法提供内容推荐。OASIS 支持多种推荐算法，包括基于协同过滤的方法和基于语义匹配的方法（类似 Twitter 的 Twhin-BERT）。推荐系统决定了每个 Agent 在仿真中"看到"什么内容，从而影响其后续行为——这模拟了真实平台中推荐算法对用户行为的塑造作用。

2.2.2 百万级 Agent 的工程挑战

OASIS 声称能支持百万级 Agent 的并行模拟，这个规模的工程实现涉及多个维度的优化：

并发控制：OASIS 通过信号量（Semaphore）限制并发请求数量，默认值为 128。在百万 Agent 场景下，不可能让所有 Agent 同时行动，必须分批次调度。

# OASIS 的并发控制示例
class SimulationScheduler:
    def __init__(self, max_concurrency: int = 128):
        self.semaphore = Semaphore(max_concurrency)
        self.batch_size = 10000  # 每批处理的 Agent 数量
    
    def run_simulation(self, agents: List[Agent], ticks: int):
        """大规模 Agent 仿真的批处理调度"""
        for tick in range(ticks):
            # 分批处理，避免内存爆炸
            for batch_start in range(0, len(agents), self.batch_size):
                batch = agents[batch_start:batch_start + self.batch_size]
                self._process_batch(batch, tick)
            
            # 每批完成后做一次全局状态同步
            self._sync_global_state()
    
    def _process_batch(self, batch: List[Agent], tick: int):
        """使用线程池并行处理一批 Agent"""
        with self.semaphore:
            futures = []
            for agent in batch:
                future = executor.submit(agent.think, tick)
                futures.append(future)
            
            # 等待本批次所有 Agent 决策完成
            for future in as_completed(futures):
                action = future.result()
                self._apply_action(action)

数据库持久化：使用 SQLite 存储模拟数据，通过批量写入减少 I/O 开销。OASIS 支持将仿真结果持久化，便于事后分析和可视化。

行为缓存：对于不需要实时交互的场景，OASIS 使用规则型 Agent（Rule-based Agent）与 LLM 驱动的 Agent 混合编排，降低整体计算成本。

2.3 GraphRAG + 知识图谱层——数字公民的记忆系统

如果说 OASIS 是 MiroFish 的"运动系统"，那么 GraphRAG 就是它的"认知系统"。

2.3.1 为什么需要 GraphRAG？

传统向量 RAG 的局限在于语义相似度优先，而非逻辑关系优先。例如，"不允许退货的政策"和"允许退货的政策"这两个查询在向量空间中会产生几乎相同的 embedding，但它们的逻辑含义完全相反。

更麻烦的是传统分块（chunking）策略——把文档机械切成片段会把逻辑连贯性一并打碎。一个定义落在一个 chunk 里，约束它的条件却落在另一个 chunk 里，Agent 在检索时就会丢失关键上下文。

GraphRAG 的解决思路是：不检索"最相似的文本片段"，而是检索"最相关的实体关系路径"。

2.3.2 MiroFish 的知识图谱构建

MiroFish 在仿真启动前，会对种子文档进行递归扫描，提取出由"人物、组织、规则、历史事件"构成的复杂耦合网络。这个过程分为三步：

Step 1: 实体提取

# 种子文档 → 实体关系图的构建
import networkx as nx
from typing import List, Dict, Tuple

class SeedGraphBuilder:
    def __init__(self):
        self.graph = nx.DiGraph()  # 有向图：实体 + 关系
    
    def extract_from_document(self, document: str) -> nx.DiGraph:
        """从种子文档中构建实体关系图"""
        # 使用 LLM 提取实体和关系
        entities = self._extract_entities(document)
        relations = self._extract_relations(document, entities)
        
        # 添加实体节点
        for entity in entities:
            self.graph.add_node(entity["id"], 
                               type=entity["type"],
                               name=entity["name"],
                               attributes=entity["attributes"])
        
        # 添加关系边
        for relation in relations:
            self.graph.add_edge(
                relation["source"],
                relation["target"],
                relation_type=relation["type"],
                weight=relation.get("confidence", 1.0)
            )
        
        return self.graph
    
    def _extract_entities(self, text: str) -> List[Dict]:
        """实体识别——使用 LLM 实现语义级别的实体提取"""
        prompt = f"""
        从以下文本中提取所有实体及其类型：
        实体类型包括：人物(People)、组织(Organization)、
        事件(Event)、规则(Rule)、地点(Location)
        
        文本：{text}
        
        返回JSON数组格式。
        """
        # 调用 LLM 进行实体提取
        response = llm.complete(prompt)
        return json.loads(response)
    
    def _extract_relations(self, text: str, entities: List[Dict]) -> List[Dict]:
        """关系抽取——识别实体之间的语义关系"""
        # 关系类型：支持、反对、影响、竞争、合作、制定、执行...
        # ...

Step 2: 关系固化

    def solidify_relations(self, graph: nx.DiGraph) -> nx.DiGraph:
        """
        关系固化：对提取的关系进行一致性校验和增强
        核心原则：如果 A 支持 B，且 B 支持 C，则 A 和 C 之间存在隐式关联
        """
        # 传递闭包：发现隐式关系
        transitive_relations = []
        for node in graph.nodes():
            # BFS/DFS 查找该节点的所有可达路径
            for target, path in nx.single_source_shortest_path(graph, node, cutoff=3).items():
                if target != node and len(path) > 1:
                    path_relations = self._get_path_relations(graph, path)
                    # 如果路径上的关系方向一致（全部为正向或全部为负向），建立隐式关系
                    if self._is_consistent_direction(path_relations):
                        transitive_relations.append({
                            "source": node,
                            "target": target,
                            "type": "implied_support",
                            "path": path,
                            "confidence": 0.7  # 传递关系的置信度降低
                        })
        
        for rel in transitive_relations:
            graph.add_edge(rel["source"], rel["target"], 
                          relation_type=rel["type"],
                          weight=rel["confidence"],
                          is_transitive=True)
        
        return graph

Step 3: 与 Zep Cloud 集成

MiroFish 集成了 Zep Cloud（一个企业级长期记忆服务），为每个数字公民提供跨会话的持久化记忆。这解决了多 Agent 系统中的一个经典难题：Agent 如何在长期交互中保持上下文的连贯性？

Zep Cloud 提供了图谱检索（Graph Retrieval）和向量检索的混合模式：

# Zep Cloud 记忆系统的集成示例
from zep_cloud import ZepMemory

class DigitalCitizenMemory:
    def __init__(self, citizen_id: str, zep_client: ZepMemory):
        self.citizen_id = citizen_id
        self.zep = zep_client
        self.short_term_buffer = []  # 当前会话的短期记忆
    
    def store_interaction(self, event: Dict):
        """存储一次交互事件到长期记忆"""
        self.zep.add_memory(
            session_id=self.citizen_id,
            memory_type="interaction",
            content=event,
            metadata={
                "timestamp": event.get("time"),
                "participants": event.get("agents_involved", []),
                "sentiment": event.get("sentiment", "neutral"),
                "topic": event.get("topic")
            }
        )
    
    def retrieve_relevant(self, query: str, top_k: int = 5) -> List[Dict]:
        """
        检索与当前情境相关的记忆
        使用混合检索：图谱关系 + 向量语义
        """
        # 图谱检索：查找与当前 Agent 有关系的所有节点
        graph_results = self.zep.graph_retrieve(
            entity_id=self.citizen_id,
            depth=2,  # 查找 2 度关系内的实体
            relation_types=["support", "oppose", "influence"]
        )
        
        # 向量检索：查找语义相似的事件
        vector_results = self.zep.vector_retrieve(
            query=query,
            session_id=self.citizen_id,
            top_k=top_k
        )
        
        # 融合排序：图谱关系 * 0.6 + 向量相似度 * 0.4
        return self._hybrid_rerank(graph_results, vector_results)

2.4 数字公民层——从数据到"灵魂"

MiroFish 最具创新性的设计理念是**"数字公民"（Digital Citizen）**概念。在传统 Agent 系统中，每个 Agent 通常只是一个"功能代理"——接收输入、调用工具、返回输出。但在 MiroFish 中，每个 Agent 都被建模为一个具有以下特征的数字公民：

人格建模：每个 Agent 拥有独立的 MBTI 性格类型、价值观立场、知识背景和行为偏好。这些属性不是随机分配的，而是从种子信息中通过 LLM 推理生成。

长期记忆：通过 GraphRAG + Zep Cloud 的组合，每个 Agent 拥有跨越整个仿真过程的记忆系统。它们不会在交互中"失忆"，所有历史对话和行为记录都被持久化并关联到知识图谱中。

微观动机 → 宏观涌现：这是 MiroFish 最核心的设计哲学。系统不预设"舆论走向"，而是让每个 Agent 基于自己的微观动机（性格、利益、立场）做出个体决策，然后观察这些微观决策如何汇聚成宏观的群体行为。

# 数字公民的行为决策模型
class DigitalCitizen:
    def __init__(self, profile: CitizenProfile, memory: ZepMemory):
        self.profile = profile          # 人格画像
        self.memory = memory            # 长期记忆系统
        self.position = {}              # 当前议题立场
    
    def decide_action(self, context: SimulationContext) -> Action:
        """
        数字公民的行动决策流程：
        1. 感知环境（接收平台内容）
        2. 回忆相关记忆（GraphRAG 检索）
        3. 推理决策（ReACT 模式）
        4. 执行行动
        """
        # 感知
        feed = context.get_relevant_posts(self.id)
        
        # 回忆
        relevant_memories = self.memory.retrieve_relevant(
            query=f"{context.topic} 我的立场：{self.position}",
            top_k=5
        )
        
        # 推理与决策（ReACT 模式）
        thought = self.reason(context, feed, relevant_memories)
        
        if "post" in thought.action_type:
            return self._create_post_action(thought.content)
        elif "comment" in thought.action_type:
            return self._create_comment_action(thought.target_post, thought.content)
        elif "support" in thought.action_type:
            return self._create_support_action(thought.target_id)
        else:
            return Action("observe")  # 观望
    
    def reason(self, context, feed, memories) -> ReasoningResult:
        """
        ReACT (Reasoning + Acting) 推理模式
        这是驱动 ReportAgent 的核心技术
        """
        prompt = f"""
        你是一个拥有以下特征的社交媒体用户：
        - MBTI: {self.profile.mbti}
        - 价值观: {self.profile.values}
        - 专业知识: {self.profile.expertise}
        - 历史立场: {self.position}
        
        当前议题：{context.topic}
        相关记忆：{memories}
        
        请分析当前形势，决定你的下一步行动。
        """
        # ...

2.5 双平台并行模拟——交叉验证机制

MiroFish 的另一个核心创新是双平台并行模拟。系统同时在两个独立的 OASIS 仿真平台上运行相同的种子场景，一个模拟 Twitter 式的短文本快速交互，另一个模拟 Reddit 式的深度讨论社区。

两个平台的结果互相验证，通过动态更新时序记忆（Temporal Memory），确保预测的一致性和鲁棒性。

种子信息
    │
    ├──▶ OASIS-Twitter 仿真 ──▶ 预测结果 A
    │         (短文本、高并发)
    │
    └──▶ OASIS-Reddit 仿真 ──▶ 预测结果 B
              (深度讨论)
              │
              ▼
         交叉验证层
              │
              ▼
      一致性置信区间
              │
              ▼
         最终预测报告

如果两个平台的预测结果一致，则置信度高；如果分歧较大，则在报告中标注不确定性，并给出各自平台的侧重点。

三、ReportAgent：ReACT 驱动的预测报告生成

MiroFish 的预测输出不是简单的时间序列预测图，而是一份由 AI Agent 主动生成的深度分析报告。这个能力由 ReportAgent 提供支撑。

ReportAgent 采用 ReACT（Reasoning & Acting）范式，而非传统的被动生成模式。它的行为模式是：

主动调研 → 交叉验证 → 深度分析 → 报告撰写

class ReportAgent:
    def __init__(self):
        self.phase = "research"  # research → cross_validate → analyze → write
    
    def generate_report(self, simulation_id: str) -> PredictionReport:
        """ReportAgent 的完整工作流程"""
        
        # Phase 1: 主动调研——从仿真环境中提取关键事件
        key_events = self._research_key_events(simulation_id)
        
        # Phase 2: 交叉验证——与仿真环境深度交互，追问不确定点
        for event in key_events:
            if event.uncertainty > 0.5:  # 不确定性高于50%的事件需要追问
                clarification = self._probe_environment(
                    simulation_id, 
                    event,
                    depth=3  # 追问3轮
                )
                event.add_context(clarification)
        
        # Phase 3: 深度分析——识别涌现模式
        emergence_patterns = self._detect_emergence(key_events)
        
        # Phase 4: 报告撰写
        report = self._write_report(emergence_patterns, key_events)
        return report
    
    def _probe_environment(self, sim_id: str, event: Event, depth: int) -> str:
        """
        ReportAgent 主动追问机制
        这是 ReACT 范式的核心体现——Agent 不等待信息推送，而是主动探索
        """
        questions = [
            "这个事件的主要推动者是谁？",
            "反对者的主要论点是什么？",
            "如果注入了 X 变量，演化路径会如何改变？",
        ]
        
        answers = []
        current_event = event
        
        for i in range(min(depth, len(questions))):
            # ReportAgent 以"研究者"身份在仿真环境中提出问题
            answer = self.simulation.query(
                agent_id="report_agent",
                question=questions[i],
                context=current_event
            )
            answers.append(answer)
            current_event = self._follow_up(current_event, answer)
        
        return "\n".join(answers)

这种主动调研模式的关键价值在于：ReportAgent 不是被动地总结数据，而是在扮演一个真正分析师的角色。它会主动识别仿真中的疑点并深入挖掘，这与传统的 RAG 问答系统有本质区别。

四、本地部署：从零构建群体智能实验室

4.1 环境要求

MiroFish 对运行环境有一定要求：

工具	版本要求	说明
Node.js	18+	前端运行环境，包含 npm
Python	≥3.11, ≤3.12	后端运行环境（不要使用 3.13）
uv	最新版	Python 包管理器
Docker	最新版	可选，生产环境推荐
Docker Compose	最新版	容器编排

4.2 Docker 部署（推荐新手）

Docker 部署的优势在于环境一致性好，启动快速：

# 1. 克隆仓库
git clone https://github.com/666ghj/MiroFish.git
cd MiroFish

# 2. 复制环境变量文件
cp .env.example .env

# 3. 配置 LLM API 密钥（编辑 .env）
# 支持：Anthropic Claude / OpenAI GPT / DeepSeek / Google Gemini / Local LLM
ANTHROPIC_API_KEY=sk-ant-xxxxx
# 或者使用其他 provider...

# 4. 启动服务
docker-compose up -d

# 5. 访问 Web UI
# 打开浏览器访问 http://localhost:3000

4.3 源码部署（适合二次开发）

# 1. 克隆仓库
git clone https://github.com/666ghj/MiroFish.git
cd MiroFish

# 2. 安装前端依赖（Node.js）
cd frontend
npm install
npm run dev &
cd ..

# 3. 使用 uv 安装后端依赖（Python 3.11+）
uv sync

# 4. 配置环境变量
cp .env.example .env
# 编辑 .env 填入 LLM API 密钥

# 5. 启动后端
uv run python -m uvicorn backend.main:app --reload --port 8000

# 6. 访问前端
# http://localhost:5173

4.4 核心配置文件

# .env 关键配置项
# LLM Provider 配置（支持多 provider 自动切换）
LLM_PROVIDER=anthropic  # anthropic | openai | deepseek | google | ollama
ANTHROPIC_API_KEY=sk-ant-xxxxx
MODEL_NAME=claude-sonnet-4-20250514

# 仿真规模配置
MAX_AGENTS=5000          # 最大 Agent 数量
SIMULATION_TICKS=100     # 仿真时间步数
PARALLEL_PLATFORMS=true   # 启用双平台并行

# GraphRAG + 记忆配置
ZEP_API_KEY=your_zep_key
GRAPH_DEPTH=3             # 知识图谱检索深度

# OASIS 引擎配置
OASIS_DB_PATH=./data/oasis.db
OASIS_CONCURRENCY=128    # 并发控制信号量值

五、性能优化与工程实践

5.1 大规模 Agent 仿真的性能瓶颈

在构建如此规模的群体智能系统时，MiroFish 面临着几个典型的性能瓶颈：

瓶颈一：LLM API 调用成本与延迟

每个 Agent 每一步决策都需要调用 LLM API（生成回复、推理决策等），在 5000+ Agent 的仿真规模下，API 调用次数会急剧膨胀。

优化策略：

# 策略1：Agent 分层——规则 Agent + LLM Agent 混合
class HybridAgentSystem:
    def __init__(self, llm_ratio: float = 0.1):
        """
        llm_ratio: LLM 驱动的 Agent 占比
        大多数 Agent 使用规则引擎，只有关键 Agent 使用 LLM
        """
        self.llm_ratio = llm_ratio
    
    def decide_behavior(self, agent: Agent) -> str:
        if agent.is_key_player:  # 关键 Agent（意见领袖、决策者）
            return agent.llm_decide()  # LLM 驱动
        else:
            return agent.rule_decide()  # 规则引擎驱动

# 策略2：批次压缩——多个 Agent 的相似决策合并为一次 LLM 调用
class BatchedLLMExecutor:
    def batch_decide(self, agents: List[Agent], context: Context) -> List[str]:
        """
        将多个 Agent 的决策请求打包为一次批量调用
        利用 LLM 的批量推理能力降低 API 调用次数
        """
        batch_prompt = "以下是一组社交媒体用户对同一事件的评论需求：\n\n"
        for i, agent in enumerate(agents):
            batch_prompt += f"[用户{i+1}] {agent.profile.name}: {context.post_content}\n"
            batch_prompt += f"  人格: {agent.profile.mbti}, 立场: {agent.position}\n\n"
        
        batch_prompt += "请为每个用户生成一条符合其人格和立场的评论。"
        
        # 一次 API 调用返回所有 Agent 的决策
        responses = llm.batch_complete(batch_prompt)
        return self._parse_responses(responses, len(agents))

瓶颈二：知识图谱检索的实时性

GraphRAG 的检索质量依赖于图谱的完整性和新鲜度，但在仿真过程中，图谱会不断演化（Agent 交互产生新的关系）。实时更新图谱会带来显著的计算开销。

优化策略：增量更新 + 异步索引

# 图谱增量更新而非全量重建
class IncrementalGraphUpdater:
    def __init__(self, graph_db):
        self.graph_db = graph_db
        self.pending_updates = []
        self.batch_interval = 10  # 每10个仿真步长合并更新一次
    
    def add_interaction(self, interaction: Interaction):
        # 仅记录增量变化，不立即更新图谱
        self.pending_updates.append(interaction)
    
    def flush_if_needed(self, current_tick: int):
        if current_tick % self.batch_interval == 0 and self.pending_updates:
            self._apply_batch_update(self.pending_updates)
            self._rebuild_indexes()  # 异步重建索引
            self.pending_updates = []
    
    def _apply_batch_update(self, updates: List[Interaction]):
        """批量应用更新到图数据库"""
        with self.graph_db.transaction():
            for interaction in updates:
                self._add_edge(interaction.from_agent, 
                              interaction.to_agent,
                              interaction.type,
                              weight=1.0)
                # 增加关系权重（高频交互 = 强关系）
                self._increment_weight(interaction.from_agent, 
                                       interaction.to_agent)

瓶颈三：仿真结果的可视化

5000+ Agent 的仿真数据量极大，如何让用户实时观察仿真进展是一个 UX 和工程双重挑战。

MiroFish 采用了流式输出 + 分片渲染的策略：仿真过程以 WebSocket 流式推送，用户界面按时间窗口分片加载数据，关系网络图使用 WebGL 进行 GPU 加速渲染。

5.2 仿真保真度的评估

对于预测系统而言，最关键的问题是：仿真结果和真实世界的吻合度有多高？

MiroFish 尚未提供完整的评估报告，但可以从几个维度来思考这个问题：

结构保真度：社交网络的结构特性（小世界网络、无标度分布等）是否能被 OASIS 复现？从 OASIS 的设计来看，它使用了基于真实社交网络统计数据生成的对数正态度分布，这是结构性保真的基础。

行为保真度：Agent 的微观行为（发帖频率、互动模式等）是否与真实用户一致？这是 ReACT 推理模式和人格建模试图解决的问题，但目前还缺乏大规模的对照实验验证。

涌现保真度：宏观群体行为是否真实反映了真实世界中类似场景的演化规律？这是最难评估的维度，也是 MiroFish 最核心的价值主张。

六、与其他预测范式的对比

MiroFish 代表的"群体智能仿真"范式与主流的预测方法存在根本差异：

维度	传统 ML 预测	LLM RAG 预测	MiroFish 群体智能
预测逻辑	数据→模式→数值	查询→检索→生成	仿真→涌现→推演
输入形式	结构化数据	文本片段	事件/新闻/文档
输出形式	数值预测	文本分析	多维度情景预测
可解释性	中等（特征重要性）	高（检索+生成过程）	极高（上帝视角全程可观测）
适用场景	金融、物理、自然规律	问答、检索增强	社会现象、舆论、政策
计算成本	中等	中等	较高（大规模 LLM 调用）
可干预性	低（黑盒）	低	高（上帝视角注入变量）

从这份对比可以看出，MiroFish 并不打算取代传统的时间序列预测或因果推断方法。它的真正价值在于社会现象预测这个传统方法几乎无法触及的领域——因为舆论风暴、市场情绪、政策响应，这些本质上都是"大量异质个体交互后的涌现结果"，而非"数据模式"。

七、总结与展望

7.1 MiroFish 的核心价值

经过对 MiroFish 的深度分析，我认为它的核心价值可以归结为三点：

第一，方法论创新：从"预测"到"仿真"。 传统预测工具试图从历史数据中找到规律并外推未来，但复杂社会系统的未来往往不是历史的延伸，而是当前博弈格局的涌现。MiroFish 彻底转换了思路——不预测未来，而是创造一个足够真实的数字平行世界，让未来在其中自然演化。

第二，技术整合能力强。 将 GraphRAG、OASIS、ReACT、Zep Cloud 等多个前沿技术栈有机整合，构建了一套从种子输入到预测输出的端到端pipeline。这本身就是一个不小的工程成就。

第三，降低了群体智能研究的门槛。 43K+ 星的数据表明，MiroFish 的产品化做得相当好——Docker 一键部署、Web UI 友好，这让它不仅是一个研究工具，也是一个可以用于实际决策辅助的生产系统。

7.2 局限性与挑战

但我们也要清醒地认识到 MiroFish 的局限性：

评估困难：仿真结果的质量缺乏可靠的 ground truth 进行对照。在金融预测场景下，如果预测失败，很难判断是仿真保真度不足，还是市场本身不可预测。

计算成本高：5000+ Agent 的仿真，每一步都需要大量的 LLM API 调用。以每个 Agent 每步 1-2 次 API 调用计算，单次完整仿真的成本可能达到数百甚至数千美元。

涌现的不可控性：群体智能系统的魅力在于涌现，隐患也在于涌现。当 Agent 之间开始产生非预期的连锁反应时，如何保证仿真结果的稳定性和可重复性，这是一个尚未完全解决工程问题。

7.3 未来展望

展望未来，我认为 MiroFish 这类群体智能预测系统有几个值得关注的发展方向：

多模态种子输入：目前种子信息主要是文本，未来可以扩展到图片、视频、音频，构建更丰富的数字孪生基础
动态干预优化：在仿真过程中，引入贝叶斯优化或强化学习，自动寻找最优干预策略
实时数据闭环：将真实世界的反馈数据实时注入仿真环境，形成"预测→执行→反馈→再预测"的闭环
跨域知识迁移：用某一领域的仿真经验（学到的 Agent 行为模式）加速另一领域的仿真收敛

MiroFish 让我们看到了一个有趣的可能性：当 AI Agent 不再只是回答问题的工具，而是被组织成一个微型社会时，我们或许能通过观察这个微型社会的演化，来理解我们自身所处的这个宏观世界。

这不是预测，而是预演。

参考链接：

MiroFish GitHub: https://github.com/666ghj/MiroFish
OASIS (CAMEL-AI): https://github.com/camel-ai/oasis
Zep Cloud: https://www.getzep.com/
GraphRAG: https://www.microsoft.com/en-us/research/project/graphrag/