短视频制作的终极痛点
做一条短视频,你要经历什么?
写脚本 → 找素材 → 配音 → 剪辑 → 配BGM → 调色 → 加字幕 → 导出
每一步都是时间黑洞。一条3分钟的视频,从构思到发布,少说2-4小时。对于自媒体运营者来说,日更就是噩梦。
但如果我说,整个过程只需要输入一句话呢?
Pixelle-Video:阿里AIDC团队的开源答案
2025年11月,AIDC-AI团队开源了 Pixelle-Video——一款端到端的AI全自动短视频引擎。截至2026年4月,已更新至v0.1.0正式版,GitHub 2.7K+ Star,444 Fork,Apache 2.0协议,完全免费可商用。
核心定位六个字:零门槛、全自动、高灵活。
一句话输入 → AI写文案 → AI生成配图 → AI配音 → 自动剪辑合成 → 输出成品视频
不是半自动,是全自动。你甚至不用打开剪辑软件。
四大核心能力拆解
第一,AI文案生成
支持GPT、通义千问、DeepSeek等主流模型,自动生成视频脚本。
你只需要输入一个主题,比如"为什么要养成阅读习惯",AI自动创作分镜文案——每句话对应一帧画面。
更妙的是,如果你已经有现成文案,可以跳过AI创作直接使用。
第二,AI画面生成
每一句文案对应一张画面。底层接入 ComfyUI,这是目前最强大的AI图像工作流引擎:
- 本地部署:连接本地ComfyUI服务(默认 http://127.0.0.1:8188)
- 云端部署:使用RunningHub API,无需本地显卡
- 自定义工作流:支持放入自己的ComfyUI工作流到workflows/文件夹
图像尺寸可调(默认1024x1024),提示词前缀控制画面风格。比如输入"Minimalist black-and-white matchstick figure style illustration"就能得到极简火柴人风格。
第三,AI配音系统
支持多种TTS引擎:
- Edge-TTS:微软免费TTS,质量不错,零成本
- Index-TTS:支持声音克隆——上传一段参考音频,AI模仿那个声音朗读
- 自定义TTS工作流:ComfyUI工作流文件夹中放入自己的TTS工作流
上传参考音频后可以直接试听预览,确认效果满意再生成。
第四,自动视频合成
这是最关键的一步——所有素材自动合成:
- 自动卡点:语音和画面精准对齐
- 自动加字幕:根据文案生成字幕轨道
- BGM叠加:内置背景音乐,或自定义MP3/WAV
- 模板系统:竖屏(抖音/视频号)、横屏(B站/YouTube)、方形(小红书)
模板命名规范清晰:
static_*.html— 纯文字模板(无需AI媒体)image_*.html— 图片背景模板video_*.html— 视频背景模板
懂HTML的话,可以在templates/文件夹创建自己的模板。
技术架构:ComfyUI模块化设计
Pixelle-Video不是单体应用,而是基于 ComfyUI工作流 的模块化引擎。
每个功能(文案、配图、配音、合成)都是独立的工作流节点。这意味着:
- 每个环节可替换:不喜欢默认的图像模型?换一个ComfyUI工作流就行
- 每个环节可定制:声音克隆、风格迁移、特殊效果,全靠工作流定义
- 社区共享:ComfyUI生态有海量开源工作流可供借鉴
这种设计让Pixelle-Video不是"一个工具",而是"一个工具平台"。
安装:三步上手
最简方案:Windows一键整合包
- 下载最新Windows整合包(GitHub Releases)
- 双击
start.bat - 浏览器自动打开
http://localhost:8501
无需安装Python、uv、ffmpeg,开箱即用。 首次使用只需在Web界面配置API密钥。
开发者方案:从源码安装
# 安装 uv(Python包管理器)
# 参见 https://docs.astral.sh/uv/getting-started/installation/
# 安装 ffmpeg
# macOS: brew install ffmpeg
# Ubuntu: sudo apt install ffmpeg
# 克隆并运行
git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
uv run streamlit run web/app.py
浏览器自动打开 http://localhost:8501,在"系统配置"面板填写LLM和图像服务即可。
费用:可以完全免费
| 方案 | LLM | 图像生成 | 总成本 |
|---|---|---|---|
| 完全免费 | Ollama本地运行 | ComfyUI本地部署 | 0元 |
| 推荐 | 通义千问(极低成本) | ComfyUI本地部署 | 几毛钱/条 |
| 云端 | OpenAI GPT | RunningHub | 较高但无需本地环境 |
有显卡选免费方案,没显卡选通义千问方案。
Web界面:三栏布局一目了然
打开Web界面后,你会看到清晰的三栏布局:
左栏:系统配置
- LLM配置:预设模型下拉菜单,一键填充base_url和model
- 图像配置:ComfyUI本地或RunningHub云端
- 保存配置后一键生效
中栏:内容输入
- AI生成内容:输入主题,AI自动写稿
- 固定文案内容:已有文案直接粘贴
- BGM选择:无BGM / 内置音乐 / 自定义音乐
- TTS选择:Edge-TTS / Index-TTS / 自定义工作流
- 参考音频上传:用于声音克隆
右栏:视频输出
- 实时进度显示:"分镜3/5 - 生成插图"
- 生成完成自动播放预览
- 显示视频时长、文件大小、分镜数
- 视频文件保存在output/文件夹
实际体验:效果如何?
以"为什么要养成阅读习惯"为例:
- 输入主题,点击生成
- AI花10-20秒生成5段分镜文案
- 每段文案对应生成一张配图(ComfyUI推理,约15-30秒/张)
- TTS生成旁白(Edge-TTS约5秒/段)
- 自动合成视频(约30秒)
总耗时约3-5分钟,一条带配图、配音、字幕、BGM的短视频就出来了。
效果评价:
- 文案质量取决于LLM模型,通义千问和DeepSeek中文表现优秀
- 配图质量取决于ComfyUI工作流和模型,Flux模型效果最好
- 配音自然度:Edge-TTS够用,Index-TTS声音克隆更惊艳
- 视频合成:卡点精准,字幕同步良好
对行业的冲击
Pixelle-Video真正改变的,不是技术,而是内容生产的底层逻辑:
| 过去 | 现在 |
|---|---|
| 会剪辑是技能 | 会写一句话就能做视频 |
| 技术驱动 | 认知驱动 |
| 信息搬运型创作者有价值 | 原创认知才是壁垒 |
| 视频制作2-4小时 | 视频生成3-5分钟 |
被淘汰的不是剪辑工具,而是"信息搬运型创作者"。
但也要清醒认识到:AI生成的视频在视觉冲击力和情感表达上,暂时还无法替代精心制作的内容。Pixelle-Video最适合的场景是知识科普、观点表达、内容速产,而非影视级创作。
与同类项目对比
| 项目 | 特点 | 优势 | 劣势 |
|---|---|---|---|
| Pixelle-Video | ComfyUI模块化引擎 | 工作流可定制、声音克隆 | 需要ComfyUI基础 |
| MoneyPrinterTurbo | 早期短视频工具 | 社区成熟 | 灵活性不足 |
| NarratoAI | 影视解说专用 | 影视场景优化 | 场景单一 |
| MoneyPrinterPlus | 视频创作平台 | 功能全面 | 定制性弱 |
Pixelle-Video的核心差异化在于ComfyUI工作流引擎——它不是一个固定工具,而是一个可编程的视频生产平台。
小结
- 阿里AIDC-AI团队开源,Apache 2.0协议,免费可商用
- 一句话输入→全自动出片,3-5分钟完成
- ComfyUI模块化架构,每个环节可替换可定制
- 支持声音克隆(Index-TTS)、多尺寸模板、自定义BGM
- Windows一键整合包,零门槛上手
- 完全可免费运行(Ollama + ComfyUI本地部署)
- GitHub 2.7K+ Star,社区活跃,迭代快速
未来不是你会不会做视频,而是你有没有想法。技术已经不再是门槛,认知才是。
GitHub: github.com/AIDC-AI/Pixelle-Video