编程香港大学开源ViMax多智能体视频生成框架

2026-05-18 06:31:45 +0800 CST views 11

香港大学开源 ViMax：多智能体视频生成框架，从创意到成片全自动

标签: 开源项目 / AI视频 / 多智能体 / 香港大学
原文: 微信公众号「GitHubStore」https://mp.weixin.qq.com/s/HymbkRzUS96JuezjWD95_Q
GitHub: https://github.com/HKUDS/ViMax

核心亮点

ViMax 是香港大学数据科学团队（HKUDS）开源的 Agentic Video Generation 多智能体视频生成框架，将"导演、编剧、制片人、视频生成器"集于一身，实现从创意/小说/剧本到完整多镜头视频的端到端自动化生成。

AI 视频生成的核心难题

当前端到端视频创作面临的挑战：

难题	描述
参考图像	获取、整理并精准对齐参考帧，耗时费力
一致性校验	即使有正确参考图，生成器仍可能产出不可用图像
剧本生成	专业高质量视频需要高信息密度与结构化设计
分镜设计	需要摄影、构图与视觉叙事专业知识
镜头设计	复杂场景中保持叙事连贯性
风格一致性	长视频中数百个镜头的角色/环境/风格保持一致
制作效率	传统流程依赖多人协作，阻碍独立创作者
AI 扩展性	AI 视频通常仅几秒，分钟级长视频需要跨场景协同

ViMax 的目标：彻底消除上述制作瓶颈。

核心架构：多智能体流水线

ViMax 采用多智能体流水线设计，通过中央调度协调多个专用 Agent：

输入（创意/小说/剧本/参考图/风格指令）
    ↓
剧本理解（Script Understanding）
  - 角色/环境提取
  - 场景边界识别
  - 风格意图解析
    ↓
场景与镜头规划（Scene & Shot Planning）
  - 基于电影语言生成分镜
  - 镜头列表、关键帧、节奏
    ↓
视觉资产规划与参考管理
  - 智能参考图选择
  - 提示词自动生成
  - 角色肖像生成
    ↓
一致性保障
  - 并行生成多张图像
  - MLLM/VLM 选择最佳一致首帧
  - 角色/环境追踪与时序连贯
    ↓
视觉合成
  - 图像生成 → 最佳帧选择 → Image-to-Video → 剪辑合成
    ↓
输出：帧图像、片段、最终视频

四种创作模式

模式	说明
Idea2Video	一句话创意 → 完整视频
Novel2Video	长篇小说/剧本 → 视频（RAG 智能压缩与场景切分）
Script2Video	结构化剧本 → 视频
AutoCameo	照片客串模式

关键技术亮点

🧬 智能长剧本生成

基于 RAG 的长剧本引擎，可智能分析小说级长文本，自动切分为多场景剧本格式，精准保留关键情节与角色对话。

🪄 表现力分镜设计

基于用户需求与目标受众，运用电影语言生成富有表现力的镜头级分镜，为后续视频生成奠定叙事节奏。

🔮 多机位拍摄模拟

模拟多机位拍摄，提供沉浸式观看体验，同时确保同一场景内角色位置与背景的一致性。

🧸 智能参考图选择

智能选取当前视频首帧所需的参考图（包括前序时间线中的分镜），确保视频越长，多角色与环境元素越准确。

⚙️ 自动化图像生成

基于所选参考图与前序时间线的视觉逻辑，自动生成提示词，合理安排角色与环境的空间交互位置。

✅ 图像生成一致性校验

并行生成多张图像，通过 MLLM/VLM 选择最一致的图像作为首帧，模拟人类创作者的工作流程。

⚡ 高效并行镜头生成

同一机位拍摄的连续镜头并行处理，极大提升视频生产效率。

技术栈

编程语言与环境

Python + uv 依赖管理（比 pip/conda 更快）

大模型集成（高度可配置，OpenAI-compatible 接口）

类型	支持模型
Chat / Reasoning	Gemini、MiniMax（M2.7 支持 1M tokens）、OpenRouter 等
图像生成	Nanobanana Google API、Doubao/Seedream 等
视频生成	Google Veo、Doubao/Seedance 等 I2V 模型
VLM 校验	用于最佳图像一致性校验、角色/场景理解

其他工具

嵌入与检索（Reranker 如 BGE-Silicon）
渲染后端
模块化 Agent + Pipeline + 工具抽象

安装使用

1. 环境要求

操作系统：Linux 或 Windows（推荐 Linux）
依赖管理：uv

2. 安装步骤

# 克隆仓库
git clone https://github.com/HKUDS/ViMax.git
cd ViMax

# 安装 uv（如果还没安装）
# 见官方文档

# 一键同步环境
uv sync

uv sync 会自动根据 pyproject.toml 创建虚拟环境并安装所有依赖。

3. 配置（必须）

进入 configs/ 目录，配置三种模型：

# 示例：使用 OpenRouter + Gemini
chat_model:
  init_args:
    model: google/gemini-2.5-flash-lite-preview-09-2025
    model_provider: openai
    api_key: <YOUR_API_KEY>
    base_url: https://openrouter.ai/api/v1

需要配置的三部分：

chat_model：思考、剧本生成（推荐 Gemini / MiniMax 大上下文模型）
image_generator：图像生成 API
video_generator：视频生成 API（Image-to-Video）

MiniMax 用户可直接使用 model_provider: minimax，支持 1M 上下文的 M2.7 模型。

4. 运行

# 创意转视频
python main_idea2video.py

# 剧本转视频
python main_script2video.py

与其他方案对比

方案	多智能体	长视频	一致性校验	多机位	RAG 支持
ViMax	✅	✅ 分钟级	✅ MLLM 校验	✅	✅ 小说级
单模型 I2V	❌	❌ 几秒级	❌	❌	❌
手动分镜+I2V	❌	⚠️ 手动	❌	❌	❌

项目结构（简要）

ViMax/
├── agents/           # 模块化 Agent（编剧、导演、制片等）
├── pipelines/        # 流水线（idea2video、script2video 等）
├── tools/            # 工具抽象（图像/视频生成器等）
├── configs/          # 配置文件
├── main_idea2video.py
├── main_script2video.py
├── pyproject.toml
└── uv.lock

写在最后

ViMax 的核心价值在于：把视频创作从手工劳动变成自动化流水线。

从创意到成片，导演、编剧、制片、视频生成器——全部由 AI Agent 协作完成。对于独立创作者和快速原型开发来说，这可能是一个真正的"杀手级"工具。

快速上手：

git clone https://github.com/HKUDS/ViMax.git
cd ViMax && uv sync
# 配置 configs/ 后运行
python main_idea2video.py

本文整理自微信公众号「GitHubStore」，原文链接：https://mp.weixin.qq.com/s/HymbkRzUS96JuezjWD95_Q
GitHub 项目地址：https://github.com/HKUDS/ViMax

复制全文生成海报开源项目 AI视频多智能体香港大学

编程 香港大学开源ViMax多智能体视频生成框架