香港大学开源 ViMax:多智能体视频生成框架,从创意到成片全自动
标签: 开源项目 / AI视频 / 多智能体 / 香港大学
原文: 微信公众号「GitHubStore」https://mp.weixin.qq.com/s/HymbkRzUS96JuezjWD95_Q
GitHub: https://github.com/HKUDS/ViMax
核心亮点
ViMax 是香港大学数据科学团队(HKUDS)开源的 Agentic Video Generation 多智能体视频生成框架,将"导演、编剧、制片人、视频生成器"集于一身,实现从创意/小说/剧本到完整多镜头视频的端到端自动化生成。
AI 视频生成的核心难题
当前端到端视频创作面临的挑战:
| 难题 | 描述 |
|---|---|
| 参考图像 | 获取、整理并精准对齐参考帧,耗时费力 |
| 一致性校验 | 即使有正确参考图,生成器仍可能产出不可用图像 |
| 剧本生成 | 专业高质量视频需要高信息密度与结构化设计 |
| 分镜设计 | 需要摄影、构图与视觉叙事专业知识 |
| 镜头设计 | 复杂场景中保持叙事连贯性 |
| 风格一致性 | 长视频中数百个镜头的角色/环境/风格保持一致 |
| 制作效率 | 传统流程依赖多人协作,阻碍独立创作者 |
| AI 扩展性 | AI 视频通常仅几秒,分钟级长视频需要跨场景协同 |
ViMax 的目标:彻底消除上述制作瓶颈。
核心架构:多智能体流水线
ViMax 采用多智能体流水线设计,通过中央调度协调多个专用 Agent:
输入(创意/小说/剧本/参考图/风格指令)
↓
剧本理解(Script Understanding)
- 角色/环境提取
- 场景边界识别
- 风格意图解析
↓
场景与镜头规划(Scene & Shot Planning)
- 基于电影语言生成分镜
- 镜头列表、关键帧、节奏
↓
视觉资产规划与参考管理
- 智能参考图选择
- 提示词自动生成
- 角色肖像生成
↓
一致性保障
- 并行生成多张图像
- MLLM/VLM 选择最佳一致首帧
- 角色/环境追踪与时序连贯
↓
视觉合成
- 图像生成 → 最佳帧选择 → Image-to-Video → 剪辑合成
↓
输出:帧图像、片段、最终视频
四种创作模式
| 模式 | 说明 |
|---|---|
| Idea2Video | 一句话创意 → 完整视频 |
| Novel2Video | 长篇小说/剧本 → 视频(RAG 智能压缩与场景切分) |
| Script2Video | 结构化剧本 → 视频 |
| AutoCameo | 照片客串模式 |
关键技术亮点
🧬 智能长剧本生成
基于 RAG 的长剧本引擎,可智能分析小说级长文本,自动切分为多场景剧本格式,精准保留关键情节与角色对话。
🪄 表现力分镜设计
基于用户需求与目标受众,运用电影语言生成富有表现力的镜头级分镜,为后续视频生成奠定叙事节奏。
🔮 多机位拍摄模拟
模拟多机位拍摄,提供沉浸式观看体验,同时确保同一场景内角色位置与背景的一致性。
🧸 智能参考图选择
智能选取当前视频首帧所需的参考图(包括前序时间线中的分镜),确保视频越长,多角色与环境元素越准确。
⚙️ 自动化图像生成
基于所选参考图与前序时间线的视觉逻辑,自动生成提示词,合理安排角色与环境的空间交互位置。
✅ 图像生成一致性校验
并行生成多张图像,通过 MLLM/VLM 选择最一致的图像作为首帧,模拟人类创作者的工作流程。
⚡ 高效并行镜头生成
同一机位拍摄的连续镜头并行处理,极大提升视频生产效率。
技术栈
编程语言与环境
- Python + uv 依赖管理(比 pip/conda 更快)
大模型集成(高度可配置,OpenAI-compatible 接口)
| 类型 | 支持模型 |
|---|---|
| Chat / Reasoning | Gemini、MiniMax(M2.7 支持 1M tokens)、OpenRouter 等 |
| 图像生成 | Nanobanana Google API、Doubao/Seedream 等 |
| 视频生成 | Google Veo、Doubao/Seedance 等 I2V 模型 |
| VLM 校验 | 用于最佳图像一致性校验、角色/场景理解 |
其他工具
- 嵌入与检索(Reranker 如 BGE-Silicon)
- 渲染后端
- 模块化 Agent + Pipeline + 工具抽象
安装使用
1. 环境要求
- 操作系统:Linux 或 Windows(推荐 Linux)
- 依赖管理:uv
2. 安装步骤
# 克隆仓库
git clone https://github.com/HKUDS/ViMax.git
cd ViMax
# 安装 uv(如果还没安装)
# 见官方文档
# 一键同步环境
uv sync
uv sync 会自动根据 pyproject.toml 创建虚拟环境并安装所有依赖。
3. 配置(必须)
进入 configs/ 目录,配置三种模型:
# 示例:使用 OpenRouter + Gemini
chat_model:
init_args:
model: google/gemini-2.5-flash-lite-preview-09-2025
model_provider: openai
api_key: <YOUR_API_KEY>
base_url: https://openrouter.ai/api/v1
需要配置的三部分:
- chat_model:思考、剧本生成(推荐 Gemini / MiniMax 大上下文模型)
- image_generator:图像生成 API
- video_generator:视频生成 API(Image-to-Video)
MiniMax 用户可直接使用 model_provider: minimax,支持 1M 上下文的 M2.7 模型。
4. 运行
# 创意转视频
python main_idea2video.py
# 剧本转视频
python main_script2video.py
与其他方案对比
| 方案 | 多智能体 | 长视频 | 一致性校验 | 多机位 | RAG 支持 |
|---|---|---|---|---|---|
| ViMax | ✅ | ✅ 分钟级 | ✅ MLLM 校验 | ✅ | ✅ 小说级 |
| 单模型 I2V | ❌ | ❌ 几秒级 | ❌ | ❌ | ❌ |
| 手动分镜+I2V | ❌ | ⚠️ 手动 | ❌ | ❌ | ❌ |
项目结构(简要)
ViMax/
├── agents/ # 模块化 Agent(编剧、导演、制片等)
├── pipelines/ # 流水线(idea2video、script2video 等)
├── tools/ # 工具抽象(图像/视频生成器等)
├── configs/ # 配置文件
├── main_idea2video.py
├── main_script2video.py
├── pyproject.toml
└── uv.lock
写在最后
ViMax 的核心价值在于:把视频创作从手工劳动变成自动化流水线。
从创意到成片,导演、编剧、制片、视频生成器——全部由 AI Agent 协作完成。对于独立创作者和快速原型开发来说,这可能是一个真正的"杀手级"工具。
快速上手:
git clone https://github.com/HKUDS/ViMax.git
cd ViMax && uv sync
# 配置 configs/ 后运行
python main_idea2video.py
本文整理自微信公众号「GitHubStore」,原文链接:https://mp.weixin.qq.com/s/HymbkRzUS96JuezjWD95_Q
GitHub 项目地址:https://github.com/HKUDS/ViMax