编程 Pixelle-Video：一句话生成完整短视频的开源 AI 引擎

2026-04-18 08:51:53 +0800 CST views 1339

Pixelle-Video：一句话生成完整短视频的开源 AI 引擎

输入一个主题，自动完成文案撰写、AI配图、语音合成、背景音乐、视频剪辑全流程。

短视频时代，内容创作者面临的最大痛点是什么？制作门槛高、流程繁琐、工具碎片化。写文案用 ChatGPT，配图用 Midjourney，配音找 TTS 工具，剪辑还得打开剪映。一个 1 分钟的视频，往往要切换 4-5 个工具，耗时数小时。

阿里 AIDC 团队开源的 Pixelle-Video，试图用一套引擎解决所有问题——只需输入一个主题，就能自动生成完整的短视频成品。

项目概览

GitHub: https://github.com/AIDC-AI/Pixelle-Video
Stars: 2.7K+（持续增长中）
协议: Apache 2.0
支持平台: Windows（一键整合包）、macOS/Linux（源码运行）

核心理念很简洁：一键生成专业级短视频，将复杂的视频制作流程简化为"输入主题 → 点击生成"两个步骤。

核心能力拆解

1. AI 文案生成

支持两种模式：

AI 生成内容：输入主题（如"为什么要养成阅读习惯"），自动创作完整文案
固定文案内容：已有现成文案，直接粘贴使用

底层接入了多种 LLM 选项：

免费方案：Ollama 本地运行（完全免费，需要有 GPU）
推荐方案：通义千问 API（成本极低）
云端方案：OpenAI GPT 系列

2. AI 配图/视频生成

这是 Pixelle-Video 的技术亮点——内置 ComfyUI 工作流，支持：

FLUX 模型（高质量图像生成）
WAN 2.1（阿里通义万相视频模型）
SD3.5 等主流模型

每句文案自动生成匹配的静态图片或动态视频，支持自定义提示词前缀控制风格：

Minimalist black-and-white matchstick figure style illustration, clean lines, simple sketch style

3. 多方案语音合成（TTS）

集成了多种 TTS 工作流：

Edge-TTS：微软免费方案，质量稳定
Index-TTS：支持声音克隆，上传参考音频即可

语音克隆功能很实用——上传一段自己喜欢的音频，系统会学习音色，生成同样风格的声音。

4. 视频模板系统

模板命名规范清晰：

static_*.html：静态模板（纯文字样式）
image_*.html：图片模板（AI 生成图片作为背景）
video_*.html：视频模板（AI 生成视频作为背景）

支持多种尺寸：

1080x1920（竖屏，适合抖音/快手）
1920x1080（横屏，适合 B 站/YouTube）
1024x1024（方形，适合小红书）

懂 HTML 的用户可以在 templates/ 目录下创建自定义模板。

5. 背景音乐

三种选项：

无 BGM（纯人声解说）
内置音乐（预置的 default.mp3）
自定义音乐（将 MP3/WAV 放到 bgm/ 文件夹即可）

技术架构深度解析

Pixelle-Video 采用三层架构设计：

┌─────────────────────────────────────┐
│  Web 层 (Streamlit)                  │
│  - 用户界面                           │
│  - 参数配置面板                       │
│  - 实时进度显示                       │
└─────────────────────────────────────┘
              ↓
┌─────────────────────────────────────┐
│  服务层 (Core Services)              │
│  - PixelleVideoCore (中枢协调)       │
│  - LLM Service (文案生成)            │
│  - Image Service (图像生成)          │
│  - TTS Service (语音合成)            │
│  - Video Generator (视频合成)        │
└─────────────────────────────────────┘
              ↓
┌─────────────────────────────────────┐
│  ComfyUI 层                          │
│  - 图像生成工作流                    │
│  - TTS 工作流                        │
│  - 支持自定义扩展                    │
└─────────────────────────────────────┘

为什么选择 ComfyUI？

ComfyUI 是一个可视化的 AI 工作流编辑器，采用节点式设计：

模块化：每个功能（加载模型、生成图像、保存输出）都是独立节点
可视化：通过连线定义数据流向，直观易懂
可扩展：用户可设计自定义工作流，导出为 JSON 文件

Pixelle-Video 将工作流文件存放在 workflows/ 目录下，用户可以：

使用预置工作流（如 image_flux.json）
自己设计工作流并放入目录
支持本地部署（http://127.0.0.1:8188）或云端（RunningHub API）

核心服务组件

PixelleVideoCore

位于 pixelle_video/service.py，是整个系统的中枢神经，负责协调各子服务的运行顺序。

Video Generator

最终合成服务，将图像、语音、背景音乐合并为视频文件。使用 FFmpeg 处理，支持多种分辨率和帧率。

部署方案对比

方案	LLM	图像生成	TTS	成本	适用场景
完全本地	Ollama	本地 ComfyUI	Edge-TTS	0 元	有 GPU 的用户
混合方案	通义千问	本地 ComfyUI	Edge-TTS	极低	推荐：性价比最高
全云端	OpenAI	RunningHub	云端 TTS	较高	无本地 GPU

快速上手（Windows）

下载最新的 Windows 一键整合包
解压后双击运行 start.bat
浏览器自动打开 http://localhost:8501
在「系统配置」中填入 API Key
开始生成视频！

整个过程无需安装 Python、uv 或 ffmpeg，整合包已包含所有依赖。

macOS / Linux 部署

# 安装 uv（Python 包管理器）
curl -LsSf https://astral.sh/uv/install.sh | sh

# 安装 ffmpeg
brew install ffmpeg  # macOS

# 克隆项目
git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video

# 启动 Web 界面
uv run streamlit run web/app.py

实际体验

我用「为什么要养成阅读习惯」作为主题测试：

文案生成：约 15 秒，生成了 5 段分镜文案
配图生成：每张图约 20 秒（本地 FLUX 模型）
语音合成：Edge-TTS，几乎即时完成
视频合成：约 10 秒

总计约 2 分钟，生成了一段 1 分钟的竖屏短视频。质量方面：

文案逻辑清晰，有起承转合
配图与文案内容匹配
语音自然流畅
转场效果简洁

当然，离「专业级」还有差距——转场不够丰富、特效有限、配图风格一致性偶有问题。但作为自动化工具，效率提升是实实在在的。

扩展与定制

Pixelle-Video 的扩展性设计得不错：

自定义 ComfyUI 工作流

在 ComfyUI 中设计工作流
导出为 JSON 文件
放入 workflows/ 目录
在 Web 界面下拉菜单中选择

自定义视频模板

模板使用 HTML + Jinja2 语法：

<div class="container">
  <div class="text-content">
    {% for segment in segments %}
    <p>{{ segment.text }}</p>
    {% endfor %}
  </div>
</div>

配置文件

config.example.yaml 提供了完整的配置选项：

ComfyUI 地址和端口
API Key 管理
视频生成参数（分辨率、帧率等）

与同类工具对比

工具	开源	本地运行	完整流程	自定义程度
Pixelle-Video	✅	✅	✅	高（ComfyUI 工作流）
MoneyPrinterTurbo	✅	✅	✅	中
剪映	❌	✅	❌	低
可灵 AI	❌	❌	✅	低

Pixelle-Video 的独特优势在于模块化的 ComfyUI 集成——你可以替换任意环节的模型或工作流，而不仅仅是填参数。

适用场景

推荐使用：

知识科普类短视频（文案 + 配图模式很匹配）
产品介绍视频（快速生成演示）
个人 IP 内容批量生产
学习 AI 视频生成的工作流设计

不太适合：

需要真人出镜的视频
复杂的特效和转场需求
对画质有极致要求的场景

总结

Pixelle-Video 是一个务实的开源项目——它没有追求 SOTA 的画质或最复杂的特效，而是聚焦于「如何让普通人快速生成可用的短视频」这个实际问题。

技术架构上，ComfyUI 集成是最大亮点，实现了真正的模块化和可扩展性。你可以替换任意环节的模型，而不用改一行代码。

对于内容创作者来说，这是一个值得尝试的提效工具；对于开发者来说，这是一个学习 AI 工作流设计的优秀案例。

项目地址: https://github.com/AIDC-AI/Pixelle-Video

相关项目:

MoneyPrinterTurbo - 另一款优秀的视频生成工具
NarratoAI - 影视解说自动化工具
Pixelle-MCP - ComfyUI MCP 服务器

复制全文生成海报 AI 短视频开源工具 ComfyUI 自动化