编程 Pixelle-Video:阿里开源AI全自动短视频引擎,一句话出片零门槛

2026-05-01 07:33:09 +0800 CST views 10

短视频制作的终极痛点

做一条短视频,你要经历什么?

写脚本 → 找素材 → 配音 → 剪辑 → 配BGM → 调色 → 加字幕 → 导出

每一步都是时间黑洞。一条3分钟的视频,从构思到发布,少说2-4小时。对于自媒体运营者来说,日更就是噩梦。

但如果我说,整个过程只需要输入一句话呢?

Pixelle-Video:阿里AIDC团队的开源答案

2025年11月,AIDC-AI团队开源了 Pixelle-Video——一款端到端的AI全自动短视频引擎。截至2026年4月,已更新至v0.1.0正式版,GitHub 2.7K+ Star,444 Fork,Apache 2.0协议,完全免费可商用。

核心定位六个字:零门槛、全自动、高灵活

一句话输入 → AI写文案 → AI生成配图 → AI配音 → 自动剪辑合成 → 输出成品视频

不是半自动,是全自动。你甚至不用打开剪辑软件。

四大核心能力拆解

第一,AI文案生成

支持GPT、通义千问、DeepSeek等主流模型,自动生成视频脚本。

你只需要输入一个主题,比如"为什么要养成阅读习惯",AI自动创作分镜文案——每句话对应一帧画面。

更妙的是,如果你已经有现成文案,可以跳过AI创作直接使用。

第二,AI画面生成

每一句文案对应一张画面。底层接入 ComfyUI,这是目前最强大的AI图像工作流引擎:

  • 本地部署:连接本地ComfyUI服务(默认 http://127.0.0.1:8188)
  • 云端部署:使用RunningHub API,无需本地显卡
  • 自定义工作流:支持放入自己的ComfyUI工作流到workflows/文件夹

图像尺寸可调(默认1024x1024),提示词前缀控制画面风格。比如输入"Minimalist black-and-white matchstick figure style illustration"就能得到极简火柴人风格。

第三,AI配音系统

支持多种TTS引擎:

  • Edge-TTS:微软免费TTS,质量不错,零成本
  • Index-TTS:支持声音克隆——上传一段参考音频,AI模仿那个声音朗读
  • 自定义TTS工作流:ComfyUI工作流文件夹中放入自己的TTS工作流

上传参考音频后可以直接试听预览,确认效果满意再生成。

第四,自动视频合成

这是最关键的一步——所有素材自动合成:

  • 自动卡点:语音和画面精准对齐
  • 自动加字幕:根据文案生成字幕轨道
  • BGM叠加:内置背景音乐,或自定义MP3/WAV
  • 模板系统:竖屏(抖音/视频号)、横屏(B站/YouTube)、方形(小红书)

模板命名规范清晰:

  • static_*.html — 纯文字模板(无需AI媒体)
  • image_*.html — 图片背景模板
  • video_*.html — 视频背景模板

懂HTML的话,可以在templates/文件夹创建自己的模板。

技术架构:ComfyUI模块化设计

Pixelle-Video不是单体应用,而是基于 ComfyUI工作流 的模块化引擎。

每个功能(文案、配图、配音、合成)都是独立的工作流节点。这意味着:

  1. 每个环节可替换:不喜欢默认的图像模型?换一个ComfyUI工作流就行
  2. 每个环节可定制:声音克隆、风格迁移、特殊效果,全靠工作流定义
  3. 社区共享:ComfyUI生态有海量开源工作流可供借鉴

这种设计让Pixelle-Video不是"一个工具",而是"一个工具平台"。

安装:三步上手

最简方案:Windows一键整合包

  1. 下载最新Windows整合包(GitHub Releases)
  2. 双击 start.bat
  3. 浏览器自动打开 http://localhost:8501

无需安装Python、uv、ffmpeg,开箱即用。 首次使用只需在Web界面配置API密钥。

开发者方案:从源码安装

# 安装 uv(Python包管理器)
# 参见 https://docs.astral.sh/uv/getting-started/installation/

# 安装 ffmpeg
# macOS: brew install ffmpeg
# Ubuntu: sudo apt install ffmpeg

# 克隆并运行
git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
uv run streamlit run web/app.py

浏览器自动打开 http://localhost:8501,在"系统配置"面板填写LLM和图像服务即可。

费用:可以完全免费

方案LLM图像生成总成本
完全免费Ollama本地运行ComfyUI本地部署0元
推荐通义千问(极低成本)ComfyUI本地部署几毛钱/条
云端OpenAI GPTRunningHub较高但无需本地环境

有显卡选免费方案,没显卡选通义千问方案。

Web界面:三栏布局一目了然

打开Web界面后,你会看到清晰的三栏布局:

左栏:系统配置

  • LLM配置:预设模型下拉菜单,一键填充base_url和model
  • 图像配置:ComfyUI本地或RunningHub云端
  • 保存配置后一键生效

中栏:内容输入

  • AI生成内容:输入主题,AI自动写稿
  • 固定文案内容:已有文案直接粘贴
  • BGM选择:无BGM / 内置音乐 / 自定义音乐
  • TTS选择:Edge-TTS / Index-TTS / 自定义工作流
  • 参考音频上传:用于声音克隆

右栏:视频输出

  • 实时进度显示:"分镜3/5 - 生成插图"
  • 生成完成自动播放预览
  • 显示视频时长、文件大小、分镜数
  • 视频文件保存在output/文件夹

实际体验:效果如何?

以"为什么要养成阅读习惯"为例:

  1. 输入主题,点击生成
  2. AI花10-20秒生成5段分镜文案
  3. 每段文案对应生成一张配图(ComfyUI推理,约15-30秒/张)
  4. TTS生成旁白(Edge-TTS约5秒/段)
  5. 自动合成视频(约30秒)

总耗时约3-5分钟,一条带配图、配音、字幕、BGM的短视频就出来了。

效果评价:

  • 文案质量取决于LLM模型,通义千问和DeepSeek中文表现优秀
  • 配图质量取决于ComfyUI工作流和模型,Flux模型效果最好
  • 配音自然度:Edge-TTS够用,Index-TTS声音克隆更惊艳
  • 视频合成:卡点精准,字幕同步良好

对行业的冲击

Pixelle-Video真正改变的,不是技术,而是内容生产的底层逻辑

过去现在
会剪辑是技能会写一句话就能做视频
技术驱动认知驱动
信息搬运型创作者有价值原创认知才是壁垒
视频制作2-4小时视频生成3-5分钟

被淘汰的不是剪辑工具,而是"信息搬运型创作者"。

但也要清醒认识到:AI生成的视频在视觉冲击力和情感表达上,暂时还无法替代精心制作的内容。Pixelle-Video最适合的场景是知识科普、观点表达、内容速产,而非影视级创作。

与同类项目对比

项目特点优势劣势
Pixelle-VideoComfyUI模块化引擎工作流可定制、声音克隆需要ComfyUI基础
MoneyPrinterTurbo早期短视频工具社区成熟灵活性不足
NarratoAI影视解说专用影视场景优化场景单一
MoneyPrinterPlus视频创作平台功能全面定制性弱

Pixelle-Video的核心差异化在于ComfyUI工作流引擎——它不是一个固定工具,而是一个可编程的视频生产平台。

小结

  • 阿里AIDC-AI团队开源,Apache 2.0协议,免费可商用
  • 一句话输入→全自动出片,3-5分钟完成
  • ComfyUI模块化架构,每个环节可替换可定制
  • 支持声音克隆(Index-TTS)、多尺寸模板、自定义BGM
  • Windows一键整合包,零门槛上手
  • 完全可免费运行(Ollama + ComfyUI本地部署)
  • GitHub 2.7K+ Star,社区活跃,迭代快速

未来不是你会不会做视频,而是你有没有想法。技术已经不再是门槛,认知才是。

GitHub: github.com/AIDC-AI/Pixelle-Video

复制全文 生成海报 AI视频 开源 短视频 自动化 阿里

推荐文章

Nginx rewrite 的用法
2024-11-18 22:59:02 +0800 CST
MySQL用命令行复制表的方法
2024-11-17 05:03:46 +0800 CST
curl错误代码表
2024-11-17 09:34:46 +0800 CST
MySQL 1364 错误解决办法
2024-11-19 05:07:59 +0800 CST
Nginx 跨域处理配置
2024-11-18 16:51:51 +0800 CST
File 和 Blob 的区别
2024-11-18 23:11:46 +0800 CST
Go 协程上下文切换的代价
2024-11-19 09:32:28 +0800 CST
Python Invoke:强大的自动化任务库
2024-11-18 14:05:40 +0800 CST
html夫妻约定
2024-11-19 01:24:21 +0800 CST
程序员茄子在线接单