Pixelle-Video:一句话生成完整短视频的开源 AI 引擎
输入一个主题,自动完成文案撰写、AI配图、语音合成、背景音乐、视频剪辑全流程。
短视频时代,内容创作者面临的最大痛点是什么?制作门槛高、流程繁琐、工具碎片化。写文案用 ChatGPT,配图用 Midjourney,配音找 TTS 工具,剪辑还得打开剪映。一个 1 分钟的视频,往往要切换 4-5 个工具,耗时数小时。
阿里 AIDC 团队开源的 Pixelle-Video,试图用一套引擎解决所有问题——只需输入一个主题,就能自动生成完整的短视频成品。
项目概览
- GitHub: https://github.com/AIDC-AI/Pixelle-Video
- Stars: 2.7K+(持续增长中)
- 协议: Apache 2.0
- 支持平台: Windows(一键整合包)、macOS/Linux(源码运行)
核心理念很简洁:一键生成专业级短视频,将复杂的视频制作流程简化为"输入主题 → 点击生成"两个步骤。
核心能力拆解
1. AI 文案生成
支持两种模式:
- AI 生成内容:输入主题(如"为什么要养成阅读习惯"),自动创作完整文案
- 固定文案内容:已有现成文案,直接粘贴使用
底层接入了多种 LLM 选项:
- 免费方案:Ollama 本地运行(完全免费,需要有 GPU)
- 推荐方案:通义千问 API(成本极低)
- 云端方案:OpenAI GPT 系列
2. AI 配图/视频生成
这是 Pixelle-Video 的技术亮点——内置 ComfyUI 工作流,支持:
- FLUX 模型(高质量图像生成)
- WAN 2.1(阿里通义万相视频模型)
- SD3.5 等主流模型
每句文案自动生成匹配的静态图片或动态视频,支持自定义提示词前缀控制风格:
Minimalist black-and-white matchstick figure style illustration, clean lines, simple sketch style
3. 多方案语音合成(TTS)
集成了多种 TTS 工作流:
- Edge-TTS:微软免费方案,质量稳定
- Index-TTS:支持声音克隆,上传参考音频即可
语音克隆功能很实用——上传一段自己喜欢的音频,系统会学习音色,生成同样风格的声音。
4. 视频模板系统
模板命名规范清晰:
static_*.html:静态模板(纯文字样式)image_*.html:图片模板(AI 生成图片作为背景)video_*.html:视频模板(AI 生成视频作为背景)
支持多种尺寸:
- 1080x1920(竖屏,适合抖音/快手)
- 1920x1080(横屏,适合 B 站/YouTube)
- 1024x1024(方形,适合小红书)
懂 HTML 的用户可以在 templates/ 目录下创建自定义模板。
5. 背景音乐
三种选项:
- 无 BGM(纯人声解说)
- 内置音乐(预置的 default.mp3)
- 自定义音乐(将 MP3/WAV 放到
bgm/文件夹即可)
技术架构深度解析
Pixelle-Video 采用三层架构设计:
┌─────────────────────────────────────┐
│ Web 层 (Streamlit) │
│ - 用户界面 │
│ - 参数配置面板 │
│ - 实时进度显示 │
└─────────────────────────────────────┘
↓
┌─────────────────────────────────────┐
│ 服务层 (Core Services) │
│ - PixelleVideoCore (中枢协调) │
│ - LLM Service (文案生成) │
│ - Image Service (图像生成) │
│ - TTS Service (语音合成) │
│ - Video Generator (视频合成) │
└─────────────────────────────────────┘
↓
┌─────────────────────────────────────┐
│ ComfyUI 层 │
│ - 图像生成工作流 │
│ - TTS 工作流 │
│ - 支持自定义扩展 │
└─────────────────────────────────────┘
为什么选择 ComfyUI?
ComfyUI 是一个可视化的 AI 工作流编辑器,采用节点式设计:
- 模块化:每个功能(加载模型、生成图像、保存输出)都是独立节点
- 可视化:通过连线定义数据流向,直观易懂
- 可扩展:用户可设计自定义工作流,导出为 JSON 文件
Pixelle-Video 将工作流文件存放在 workflows/ 目录下,用户可以:
- 使用预置工作流(如
image_flux.json) - 自己设计工作流并放入目录
- 支持本地部署(
http://127.0.0.1:8188)或云端(RunningHub API)
核心服务组件
PixelleVideoCore
位于 pixelle_video/service.py,是整个系统的中枢神经,负责协调各子服务的运行顺序。
Video Generator
最终合成服务,将图像、语音、背景音乐合并为视频文件。使用 FFmpeg 处理,支持多种分辨率和帧率。
部署方案对比
| 方案 | LLM | 图像生成 | TTS | 成本 | 适用场景 |
|---|---|---|---|---|---|
| 完全本地 | Ollama | 本地 ComfyUI | Edge-TTS | 0 元 | 有 GPU 的用户 |
| 混合方案 | 通义千问 | 本地 ComfyUI | Edge-TTS | 极低 | 推荐:性价比最高 |
| 全云端 | OpenAI | RunningHub | 云端 TTS | 较高 | 无本地 GPU |
快速上手(Windows)
- 下载最新的 Windows 一键整合包
- 解压后双击运行
start.bat - 浏览器自动打开
http://localhost:8501 - 在「系统配置」中填入 API Key
- 开始生成视频!
整个过程无需安装 Python、uv 或 ffmpeg,整合包已包含所有依赖。
macOS / Linux 部署
# 安装 uv(Python 包管理器)
curl -LsSf https://astral.sh/uv/install.sh | sh
# 安装 ffmpeg
brew install ffmpeg # macOS
# 克隆项目
git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
# 启动 Web 界面
uv run streamlit run web/app.py
实际体验
我用「为什么要养成阅读习惯」作为主题测试:
- 文案生成:约 15 秒,生成了 5 段分镜文案
- 配图生成:每张图约 20 秒(本地 FLUX 模型)
- 语音合成:Edge-TTS,几乎即时完成
- 视频合成:约 10 秒
总计约 2 分钟,生成了一段 1 分钟的竖屏短视频。质量方面:
- 文案逻辑清晰,有起承转合
- 配图与文案内容匹配
- 语音自然流畅
- 转场效果简洁
当然,离「专业级」还有差距——转场不够丰富、特效有限、配图风格一致性偶有问题。但作为自动化工具,效率提升是实实在在的。
扩展与定制
Pixelle-Video 的扩展性设计得不错:
自定义 ComfyUI 工作流
- 在 ComfyUI 中设计工作流
- 导出为 JSON 文件
- 放入
workflows/目录 - 在 Web 界面下拉菜单中选择
自定义视频模板
模板使用 HTML + Jinja2 语法:
<div class="container">
<div class="text-content">
{% for segment in segments %}
<p>{{ segment.text }}</p>
{% endfor %}
</div>
</div>
配置文件
config.example.yaml 提供了完整的配置选项:
- ComfyUI 地址和端口
- API Key 管理
- 视频生成参数(分辨率、帧率等)
与同类工具对比
| 工具 | 开源 | 本地运行 | 完整流程 | 自定义程度 |
|---|---|---|---|---|
| Pixelle-Video | ✅ | ✅ | ✅ | 高(ComfyUI 工作流) |
| MoneyPrinterTurbo | ✅ | ✅ | ✅ | 中 |
| 剪映 | ❌ | ✅ | ❌ | 低 |
| 可灵 AI | ❌ | ❌ | ✅ | 低 |
Pixelle-Video 的独特优势在于模块化的 ComfyUI 集成——你可以替换任意环节的模型或工作流,而不仅仅是填参数。
适用场景
推荐使用:
- 知识科普类短视频(文案 + 配图模式很匹配)
- 产品介绍视频(快速生成演示)
- 个人 IP 内容批量生产
- 学习 AI 视频生成的工作流设计
不太适合:
- 需要真人出镜的视频
- 复杂的特效和转场需求
- 对画质有极致要求的场景
总结
Pixelle-Video 是一个务实的开源项目——它没有追求 SOTA 的画质或最复杂的特效,而是聚焦于「如何让普通人快速生成可用的短视频」这个实际问题。
技术架构上,ComfyUI 集成是最大亮点,实现了真正的模块化和可扩展性。你可以替换任意环节的模型,而不用改一行代码。
对于内容创作者来说,这是一个值得尝试的提效工具;对于开发者来说,这是一个学习 AI 工作流设计的优秀案例。
项目地址: https://github.com/AIDC-AI/Pixelle-Video
相关项目:
- MoneyPrinterTurbo - 另一款优秀的视频生成工具
- NarratoAI - 影视解说自动化工具
- Pixelle-MCP - ComfyUI MCP 服务器