编程 Pixelle-Video:一句话生成完整短视频的开源 AI 引擎

2026-04-18 08:51:53 +0800 CST views 10

Pixelle-Video:一句话生成完整短视频的开源 AI 引擎

输入一个主题,自动完成文案撰写、AI配图、语音合成、背景音乐、视频剪辑全流程。

短视频时代,内容创作者面临的最大痛点是什么?制作门槛高、流程繁琐、工具碎片化。写文案用 ChatGPT,配图用 Midjourney,配音找 TTS 工具,剪辑还得打开剪映。一个 1 分钟的视频,往往要切换 4-5 个工具,耗时数小时。

阿里 AIDC 团队开源的 Pixelle-Video,试图用一套引擎解决所有问题——只需输入一个主题,就能自动生成完整的短视频成品。

项目概览

核心理念很简洁:一键生成专业级短视频,将复杂的视频制作流程简化为"输入主题 → 点击生成"两个步骤

核心能力拆解

1. AI 文案生成

支持两种模式:

  • AI 生成内容:输入主题(如"为什么要养成阅读习惯"),自动创作完整文案
  • 固定文案内容:已有现成文案,直接粘贴使用

底层接入了多种 LLM 选项:

  • 免费方案:Ollama 本地运行(完全免费,需要有 GPU)
  • 推荐方案:通义千问 API(成本极低)
  • 云端方案:OpenAI GPT 系列

2. AI 配图/视频生成

这是 Pixelle-Video 的技术亮点——内置 ComfyUI 工作流,支持:

  • FLUX 模型(高质量图像生成)
  • WAN 2.1(阿里通义万相视频模型)
  • SD3.5 等主流模型

每句文案自动生成匹配的静态图片或动态视频,支持自定义提示词前缀控制风格:

Minimalist black-and-white matchstick figure style illustration, clean lines, simple sketch style

3. 多方案语音合成(TTS)

集成了多种 TTS 工作流:

  • Edge-TTS:微软免费方案,质量稳定
  • Index-TTS:支持声音克隆,上传参考音频即可

语音克隆功能很实用——上传一段自己喜欢的音频,系统会学习音色,生成同样风格的声音。

4. 视频模板系统

模板命名规范清晰:

  • static_*.html:静态模板(纯文字样式)
  • image_*.html:图片模板(AI 生成图片作为背景)
  • video_*.html:视频模板(AI 生成视频作为背景)

支持多种尺寸:

  • 1080x1920(竖屏,适合抖音/快手)
  • 1920x1080(横屏,适合 B 站/YouTube)
  • 1024x1024(方形,适合小红书)

懂 HTML 的用户可以在 templates/ 目录下创建自定义模板。

5. 背景音乐

三种选项:

  • 无 BGM(纯人声解说)
  • 内置音乐(预置的 default.mp3)
  • 自定义音乐(将 MP3/WAV 放到 bgm/ 文件夹即可)

技术架构深度解析

Pixelle-Video 采用三层架构设计

┌─────────────────────────────────────┐
│  Web 层 (Streamlit)                  │
│  - 用户界面                           │
│  - 参数配置面板                       │
│  - 实时进度显示                       │
└─────────────────────────────────────┘
              ↓
┌─────────────────────────────────────┐
│  服务层 (Core Services)              │
│  - PixelleVideoCore (中枢协调)       │
│  - LLM Service (文案生成)            │
│  - Image Service (图像生成)          │
│  - TTS Service (语音合成)            │
│  - Video Generator (视频合成)        │
└─────────────────────────────────────┘
              ↓
┌─────────────────────────────────────┐
│  ComfyUI 层                          │
│  - 图像生成工作流                    │
│  - TTS 工作流                        │
│  - 支持自定义扩展                    │
└─────────────────────────────────────┘

为什么选择 ComfyUI?

ComfyUI 是一个可视化的 AI 工作流编辑器,采用节点式设计

  1. 模块化:每个功能(加载模型、生成图像、保存输出)都是独立节点
  2. 可视化:通过连线定义数据流向,直观易懂
  3. 可扩展:用户可设计自定义工作流,导出为 JSON 文件

Pixelle-Video 将工作流文件存放在 workflows/ 目录下,用户可以:

  • 使用预置工作流(如 image_flux.json
  • 自己设计工作流并放入目录
  • 支持本地部署(http://127.0.0.1:8188)或云端(RunningHub API)

核心服务组件

PixelleVideoCore

位于 pixelle_video/service.py,是整个系统的中枢神经,负责协调各子服务的运行顺序。

Video Generator

最终合成服务,将图像、语音、背景音乐合并为视频文件。使用 FFmpeg 处理,支持多种分辨率和帧率。

部署方案对比

方案LLM图像生成TTS成本适用场景
完全本地Ollama本地 ComfyUIEdge-TTS0 元有 GPU 的用户
混合方案通义千问本地 ComfyUIEdge-TTS极低推荐:性价比最高
全云端OpenAIRunningHub云端 TTS较高无本地 GPU

快速上手(Windows)

  1. 下载最新的 Windows 一键整合包
  2. 解压后双击运行 start.bat
  3. 浏览器自动打开 http://localhost:8501
  4. 在「系统配置」中填入 API Key
  5. 开始生成视频!

整个过程无需安装 Python、uv 或 ffmpeg,整合包已包含所有依赖。

macOS / Linux 部署

# 安装 uv(Python 包管理器)
curl -LsSf https://astral.sh/uv/install.sh | sh

# 安装 ffmpeg
brew install ffmpeg  # macOS

# 克隆项目
git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video

# 启动 Web 界面
uv run streamlit run web/app.py

实际体验

我用「为什么要养成阅读习惯」作为主题测试:

  1. 文案生成:约 15 秒,生成了 5 段分镜文案
  2. 配图生成:每张图约 20 秒(本地 FLUX 模型)
  3. 语音合成:Edge-TTS,几乎即时完成
  4. 视频合成:约 10 秒

总计约 2 分钟,生成了一段 1 分钟的竖屏短视频。质量方面:

  • 文案逻辑清晰,有起承转合
  • 配图与文案内容匹配
  • 语音自然流畅
  • 转场效果简洁

当然,离「专业级」还有差距——转场不够丰富、特效有限、配图风格一致性偶有问题。但作为自动化工具,效率提升是实实在在的。

扩展与定制

Pixelle-Video 的扩展性设计得不错:

自定义 ComfyUI 工作流

  1. 在 ComfyUI 中设计工作流
  2. 导出为 JSON 文件
  3. 放入 workflows/ 目录
  4. 在 Web 界面下拉菜单中选择

自定义视频模板

模板使用 HTML + Jinja2 语法:

<div class="container">
  <div class="text-content">
    {% for segment in segments %}
    <p>{{ segment.text }}</p>
    {% endfor %}
  </div>
</div>

配置文件

config.example.yaml 提供了完整的配置选项:

  • ComfyUI 地址和端口
  • API Key 管理
  • 视频生成参数(分辨率、帧率等)

与同类工具对比

工具开源本地运行完整流程自定义程度
Pixelle-Video高(ComfyUI 工作流)
MoneyPrinterTurbo
剪映
可灵 AI

Pixelle-Video 的独特优势在于模块化的 ComfyUI 集成——你可以替换任意环节的模型或工作流,而不仅仅是填参数。

适用场景

推荐使用

  • 知识科普类短视频(文案 + 配图模式很匹配)
  • 产品介绍视频(快速生成演示)
  • 个人 IP 内容批量生产
  • 学习 AI 视频生成的工作流设计

不太适合

  • 需要真人出镜的视频
  • 复杂的特效和转场需求
  • 对画质有极致要求的场景

总结

Pixelle-Video 是一个务实的开源项目——它没有追求 SOTA 的画质或最复杂的特效,而是聚焦于「如何让普通人快速生成可用的短视频」这个实际问题。

技术架构上,ComfyUI 集成是最大亮点,实现了真正的模块化和可扩展性。你可以替换任意环节的模型,而不用改一行代码。

对于内容创作者来说,这是一个值得尝试的提效工具;对于开发者来说,这是一个学习 AI 工作流设计的优秀案例。


项目地址: https://github.com/AIDC-AI/Pixelle-Video

相关项目:

复制全文 生成海报 AI 短视频 开源工具 ComfyUI 自动化

推荐文章

20个超实用的CSS动画库
2024-11-18 07:23:12 +0800 CST
PHP中获取某个月份的天数
2024-11-18 11:28:47 +0800 CST
纯CSS实现3D云动画效果
2024-11-18 18:48:05 +0800 CST
Go的父子类的简单使用
2024-11-18 14:56:32 +0800 CST
Golang Sync.Once 使用与原理
2024-11-17 03:53:42 +0800 CST
Go配置镜像源代理
2024-11-19 09:10:35 +0800 CST
GROMACS:一个美轮美奂的C++库
2024-11-18 19:43:29 +0800 CST
联系我们
2024-11-19 02:17:12 +0800 CST
Vue3 实现页面上下滑动方案
2025-06-28 17:07:57 +0800 CST
避免 Go 语言中的接口污染
2024-11-19 05:20:53 +0800 CST
使用 node-ssh 实现自动化部署
2024-11-18 20:06:21 +0800 CST
html流光登陆页面
2024-11-18 15:36:18 +0800 CST
PostgreSQL日常运维命令总结分享
2024-11-18 06:58:22 +0800 CST
程序员茄子在线接单