编程 香港大学开源ViMax多智能体视频生成框架

2026-05-18 06:31:45 +0800 CST views 11

香港大学开源 ViMax:多智能体视频生成框架,从创意到成片全自动

标签: 开源项目 / AI视频 / 多智能体 / 香港大学
原文: 微信公众号「GitHubStore」https://mp.weixin.qq.com/s/HymbkRzUS96JuezjWD95_Q
GitHub: https://github.com/HKUDS/ViMax


核心亮点

ViMax 是香港大学数据科学团队(HKUDS)开源的 Agentic Video Generation 多智能体视频生成框架,将"导演、编剧、制片人、视频生成器"集于一身,实现从创意/小说/剧本到完整多镜头视频的端到端自动化生成


AI 视频生成的核心难题

当前端到端视频创作面临的挑战:

难题描述
参考图像获取、整理并精准对齐参考帧,耗时费力
一致性校验即使有正确参考图,生成器仍可能产出不可用图像
剧本生成专业高质量视频需要高信息密度与结构化设计
分镜设计需要摄影、构图与视觉叙事专业知识
镜头设计复杂场景中保持叙事连贯性
风格一致性长视频中数百个镜头的角色/环境/风格保持一致
制作效率传统流程依赖多人协作,阻碍独立创作者
AI 扩展性AI 视频通常仅几秒,分钟级长视频需要跨场景协同

ViMax 的目标:彻底消除上述制作瓶颈。


核心架构:多智能体流水线

ViMax 采用多智能体流水线设计,通过中央调度协调多个专用 Agent:

输入(创意/小说/剧本/参考图/风格指令)
    ↓
剧本理解(Script Understanding)
  - 角色/环境提取
  - 场景边界识别
  - 风格意图解析
    ↓
场景与镜头规划(Scene & Shot Planning)
  - 基于电影语言生成分镜
  - 镜头列表、关键帧、节奏
    ↓
视觉资产规划与参考管理
  - 智能参考图选择
  - 提示词自动生成
  - 角色肖像生成
    ↓
一致性保障
  - 并行生成多张图像
  - MLLM/VLM 选择最佳一致首帧
  - 角色/环境追踪与时序连贯
    ↓
视觉合成
  - 图像生成 → 最佳帧选择 → Image-to-Video → 剪辑合成
    ↓
输出:帧图像、片段、最终视频

四种创作模式

模式说明
Idea2Video一句话创意 → 完整视频
Novel2Video长篇小说/剧本 → 视频(RAG 智能压缩与场景切分)
Script2Video结构化剧本 → 视频
AutoCameo照片客串模式

关键技术亮点

🧬 智能长剧本生成

基于 RAG 的长剧本引擎,可智能分析小说级长文本,自动切分为多场景剧本格式,精准保留关键情节与角色对话。

🪄 表现力分镜设计

基于用户需求与目标受众,运用电影语言生成富有表现力的镜头级分镜,为后续视频生成奠定叙事节奏。

🔮 多机位拍摄模拟

模拟多机位拍摄,提供沉浸式观看体验,同时确保同一场景内角色位置与背景的一致性。

🧸 智能参考图选择

智能选取当前视频首帧所需的参考图(包括前序时间线中的分镜),确保视频越长,多角色与环境元素越准确。

⚙️ 自动化图像生成

基于所选参考图与前序时间线的视觉逻辑,自动生成提示词,合理安排角色与环境的空间交互位置。

✅ 图像生成一致性校验

并行生成多张图像,通过 MLLM/VLM 选择最一致的图像作为首帧,模拟人类创作者的工作流程。

⚡ 高效并行镜头生成

同一机位拍摄的连续镜头并行处理,极大提升视频生产效率。


技术栈

编程语言与环境

  • Python + uv 依赖管理(比 pip/conda 更快)

大模型集成(高度可配置,OpenAI-compatible 接口)

类型支持模型
Chat / ReasoningGemini、MiniMax(M2.7 支持 1M tokens)、OpenRouter 等
图像生成Nanobanana Google API、Doubao/Seedream 等
视频生成Google Veo、Doubao/Seedance 等 I2V 模型
VLM 校验用于最佳图像一致性校验、角色/场景理解

其他工具

  • 嵌入与检索(Reranker 如 BGE-Silicon)
  • 渲染后端
  • 模块化 Agent + Pipeline + 工具抽象

安装使用

1. 环境要求

  • 操作系统:Linux 或 Windows(推荐 Linux)
  • 依赖管理:uv

2. 安装步骤

# 克隆仓库
git clone https://github.com/HKUDS/ViMax.git
cd ViMax

# 安装 uv(如果还没安装)
# 见官方文档

# 一键同步环境
uv sync

uv sync 会自动根据 pyproject.toml 创建虚拟环境并安装所有依赖。

3. 配置(必须)

进入 configs/ 目录,配置三种模型:

# 示例:使用 OpenRouter + Gemini
chat_model:
  init_args:
    model: google/gemini-2.5-flash-lite-preview-09-2025
    model_provider: openai
    api_key: <YOUR_API_KEY>
    base_url: https://openrouter.ai/api/v1

需要配置的三部分:

  1. chat_model:思考、剧本生成(推荐 Gemini / MiniMax 大上下文模型)
  2. image_generator:图像生成 API
  3. video_generator:视频生成 API(Image-to-Video)

MiniMax 用户可直接使用 model_provider: minimax,支持 1M 上下文的 M2.7 模型。

4. 运行

# 创意转视频
python main_idea2video.py

# 剧本转视频
python main_script2video.py

与其他方案对比

方案多智能体长视频一致性校验多机位RAG 支持
ViMax✅ 分钟级✅ MLLM 校验✅ 小说级
单模型 I2V❌ 几秒级
手动分镜+I2V⚠️ 手动

项目结构(简要)

ViMax/
├── agents/           # 模块化 Agent(编剧、导演、制片等)
├── pipelines/        # 流水线(idea2video、script2video 等)
├── tools/            # 工具抽象(图像/视频生成器等)
├── configs/          # 配置文件
├── main_idea2video.py
├── main_script2video.py
├── pyproject.toml
└── uv.lock

写在最后

ViMax 的核心价值在于:把视频创作从手工劳动变成自动化流水线

从创意到成片,导演、编剧、制片、视频生成器——全部由 AI Agent 协作完成。对于独立创作者和快速原型开发来说,这可能是一个真正的"杀手级"工具。

快速上手

git clone https://github.com/HKUDS/ViMax.git
cd ViMax && uv sync
# 配置 configs/ 后运行
python main_idea2video.py

本文整理自微信公众号「GitHubStore」,原文链接:https://mp.weixin.qq.com/s/HymbkRzUS96JuezjWD95_Q
GitHub 项目地址:https://github.com/HKUDS/ViMax

复制全文 生成海报 开源项目 AI视频 多智能体 香港大学

推荐文章

CSS 实现金额数字滚动效果
2024-11-19 09:17:15 +0800 CST
纯CSS实现3D云动画效果
2024-11-18 18:48:05 +0800 CST
三种高效获取图标资源的平台
2024-11-18 18:18:19 +0800 CST
如何将TypeScript与Vue3结合使用
2024-11-19 01:47:20 +0800 CST
淘宝npm镜像使用方法
2024-11-18 23:50:48 +0800 CST
Vue 3 路由守卫详解与实战
2024-11-17 04:39:17 +0800 CST
程序员茄子在线接单