Pixelle-Video：阿里开源AI全自动短视频引擎，一句话出片零门槛-程序员茄子

编程 Pixelle-Video：阿里开源AI全自动短视频引擎，一句话出片零门槛

2026-05-01 07:33:09 +0800 CST views 10

短视频制作的终极痛点

做一条短视频，你要经历什么？

写脚本 → 找素材 → 配音 → 剪辑 → 配BGM → 调色 → 加字幕 → 导出

每一步都是时间黑洞。一条3分钟的视频，从构思到发布，少说2-4小时。对于自媒体运营者来说，日更就是噩梦。

但如果我说，整个过程只需要输入一句话呢？

Pixelle-Video：阿里AIDC团队的开源答案

2025年11月，AIDC-AI团队开源了 Pixelle-Video——一款端到端的AI全自动短视频引擎。截至2026年4月，已更新至v0.1.0正式版，GitHub 2.7K+ Star，444 Fork，Apache 2.0协议，完全免费可商用。

核心定位六个字：零门槛、全自动、高灵活。

一句话输入 → AI写文案 → AI生成配图 → AI配音 → 自动剪辑合成 → 输出成品视频

不是半自动，是全自动。你甚至不用打开剪辑软件。

四大核心能力拆解

第一，AI文案生成

支持GPT、通义千问、DeepSeek等主流模型，自动生成视频脚本。

你只需要输入一个主题，比如"为什么要养成阅读习惯"，AI自动创作分镜文案——每句话对应一帧画面。

更妙的是，如果你已经有现成文案，可以跳过AI创作直接使用。

第二，AI画面生成

每一句文案对应一张画面。底层接入 ComfyUI，这是目前最强大的AI图像工作流引擎：

本地部署：连接本地ComfyUI服务（默认 http://127.0.0.1:8188）
云端部署：使用RunningHub API，无需本地显卡
自定义工作流：支持放入自己的ComfyUI工作流到workflows/文件夹

图像尺寸可调（默认1024x1024），提示词前缀控制画面风格。比如输入"Minimalist black-and-white matchstick figure style illustration"就能得到极简火柴人风格。

第三，AI配音系统

支持多种TTS引擎：

Edge-TTS：微软免费TTS，质量不错，零成本
Index-TTS：支持声音克隆——上传一段参考音频，AI模仿那个声音朗读
自定义TTS工作流：ComfyUI工作流文件夹中放入自己的TTS工作流

上传参考音频后可以直接试听预览，确认效果满意再生成。

第四，自动视频合成

这是最关键的一步——所有素材自动合成：

自动卡点：语音和画面精准对齐
自动加字幕：根据文案生成字幕轨道
BGM叠加：内置背景音乐，或自定义MP3/WAV
模板系统：竖屏（抖音/视频号）、横屏（B站/YouTube）、方形（小红书）

模板命名规范清晰：

static_*.html — 纯文字模板（无需AI媒体）
image_*.html — 图片背景模板
video_*.html — 视频背景模板

懂HTML的话，可以在templates/文件夹创建自己的模板。

技术架构：ComfyUI模块化设计

Pixelle-Video不是单体应用，而是基于 ComfyUI工作流 的模块化引擎。

每个功能（文案、配图、配音、合成）都是独立的工作流节点。这意味着：

每个环节可替换：不喜欢默认的图像模型？换一个ComfyUI工作流就行
每个环节可定制：声音克隆、风格迁移、特殊效果，全靠工作流定义
社区共享：ComfyUI生态有海量开源工作流可供借鉴

这种设计让Pixelle-Video不是"一个工具"，而是"一个工具平台"。

安装：三步上手

最简方案：Windows一键整合包

下载最新Windows整合包（GitHub Releases）
双击 start.bat
浏览器自动打开 http://localhost:8501

无需安装Python、uv、ffmpeg，开箱即用。 首次使用只需在Web界面配置API密钥。

开发者方案：从源码安装

# 安装 uv（Python包管理器）
# 参见 https://docs.astral.sh/uv/getting-started/installation/

# 安装 ffmpeg
# macOS: brew install ffmpeg
# Ubuntu: sudo apt install ffmpeg

# 克隆并运行
git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
uv run streamlit run web/app.py

浏览器自动打开 http://localhost:8501，在"系统配置"面板填写LLM和图像服务即可。

费用：可以完全免费

方案	LLM	图像生成	总成本
完全免费	Ollama本地运行	ComfyUI本地部署	0元
推荐	通义千问（极低成本）	ComfyUI本地部署	几毛钱/条
云端	OpenAI GPT	RunningHub	较高但无需本地环境

有显卡选免费方案，没显卡选通义千问方案。

Web界面：三栏布局一目了然

打开Web界面后，你会看到清晰的三栏布局：

左栏：系统配置

LLM配置：预设模型下拉菜单，一键填充base_url和model
图像配置：ComfyUI本地或RunningHub云端
保存配置后一键生效

中栏：内容输入

AI生成内容：输入主题，AI自动写稿
固定文案内容：已有文案直接粘贴
BGM选择：无BGM / 内置音乐 / 自定义音乐
TTS选择：Edge-TTS / Index-TTS / 自定义工作流
参考音频上传：用于声音克隆

右栏：视频输出

实时进度显示："分镜3/5 - 生成插图"
生成完成自动播放预览
显示视频时长、文件大小、分镜数
视频文件保存在output/文件夹

实际体验：效果如何？

以"为什么要养成阅读习惯"为例：

输入主题，点击生成
AI花10-20秒生成5段分镜文案
每段文案对应生成一张配图（ComfyUI推理，约15-30秒/张）
TTS生成旁白（Edge-TTS约5秒/段）
自动合成视频（约30秒）

总耗时约3-5分钟，一条带配图、配音、字幕、BGM的短视频就出来了。

效果评价：

文案质量取决于LLM模型，通义千问和DeepSeek中文表现优秀
配图质量取决于ComfyUI工作流和模型，Flux模型效果最好
配音自然度：Edge-TTS够用，Index-TTS声音克隆更惊艳
视频合成：卡点精准，字幕同步良好

对行业的冲击

Pixelle-Video真正改变的，不是技术，而是内容生产的底层逻辑：

过去	现在
会剪辑是技能	会写一句话就能做视频
技术驱动	认知驱动
信息搬运型创作者有价值	原创认知才是壁垒
视频制作2-4小时	视频生成3-5分钟

被淘汰的不是剪辑工具，而是"信息搬运型创作者"。

但也要清醒认识到：AI生成的视频在视觉冲击力和情感表达上，暂时还无法替代精心制作的内容。Pixelle-Video最适合的场景是知识科普、观点表达、内容速产，而非影视级创作。

与同类项目对比

项目	特点	优势	劣势
Pixelle-Video	ComfyUI模块化引擎	工作流可定制、声音克隆	需要ComfyUI基础
MoneyPrinterTurbo	早期短视频工具	社区成熟	灵活性不足
NarratoAI	影视解说专用	影视场景优化	场景单一
MoneyPrinterPlus	视频创作平台	功能全面	定制性弱

Pixelle-Video的核心差异化在于ComfyUI工作流引擎——它不是一个固定工具，而是一个可编程的视频生产平台。

小结

阿里AIDC-AI团队开源，Apache 2.0协议，免费可商用
一句话输入→全自动出片，3-5分钟完成
ComfyUI模块化架构，每个环节可替换可定制
支持声音克隆（Index-TTS）、多尺寸模板、自定义BGM
Windows一键整合包，零门槛上手
完全可免费运行（Ollama + ComfyUI本地部署）
GitHub 2.7K+ Star，社区活跃，迭代快速

未来不是你会不会做视频，而是你有没有想法。技术已经不再是门槛，认知才是。

GitHub: github.com/AIDC-AI/Pixelle-Video

复制全文生成海报 AI视频开源短视频自动化阿里