OmniVoice Studio:5k Star 开源声音克隆工具,646种语言,无GPU也能跑
标签: 声音克隆 / 开源 / TTS / AI音频 / OmniVoice / 语音合成 / 多语言
原文: 微信公众号「开源AI项目落地」https://mp.weixin.qq.com/s/bDlcanFiW4q2lgFuPnfBOA
GitHub: https://github.com/debpalash/OmniVoice-Studio
核心亮点
OmniVoice Studio —— 5k Star 的全本地运行 ElevenLabs 开源替代方案,支持零样本声音克隆、646种语言、无GPU也能跑(最低4GB内存),Win/Mac/Linux 跨平台桌面客户端。
为什么需要 OmniVoice?
ElevenLabs 的声音克隆和长文本音频生成质量确实很好,但太贵了。
OmniVoice Studio 是一个功能丰富的本地替代方案:
- 零样本克隆:无需微调训练,只需 3 秒目标音频
- 646 种语言声音克隆
- 跨平台桌面客户端:Win / Mac / Linux 一键安装
- 无 GPU 也能跑:最低 4GB 内存要求
运行原理
| 硬件配置 | 运行方式 |
|---|---|
| 内存 ≤ 8GB | TTS 模型自动卸载到 CPU 运行 |
| 内存 ≥ 8GB | 所有操作在 GPU 上并行运行 |
| 无 GPU | CPU 模式可用,速度约慢 3 倍 |
即使没有独立显卡,只要内存够用,OmniVoice 也能正常工作。
功能特点
1. 零样本声音克隆
- 无需微调训练
- 只需导入一段 3 秒钟的目标音频样本
- 系统就能快速复刻音色
# 导入参考音频
导入 3 秒目标音频 → 点击克隆 → 生成同音色新内容
2. 声音设计
用户可随意调节声音的各项参数:
| 参数 | 说明 |
|---|---|
| 性别 | 男声/女声切换 |
| 年龄 | 调整声音年龄感 |
| 口音 | 各地区口音 |
| 音高 | 音调高低 |
| 速度 | 语速快慢 |
| 情感 | 喜怒哀乐等情感 |
| 方言 | 各种地方方言 |
生成的声线可直接存入本地声音画廊,随时调用。
3. 电影级视频自动翻配
集成多模态管线,完整流程:
导入 YouTube 链接 / 本地 MP4
↓
自动分离人声和背景音
↓
说话人识别 + 文本切片
↓
一键用克隆音色重组
↓
输出新语言视频
4. 全局悬浮听写组件
- 按下全局快捷键唤起毛玻璃悬浮窗
- 直接说话
- 系统通过本地 WebSocket 进行流式语音识别
- 自动粘贴到当前光标所在位置(任何输入框都行)
5. 原生支持 MCP
内置 MCP 服务端,可直接在以下工具中调用本地 OmniVoice 语音能力:
- Claude Desktop
- Cursor
- 其他 AI Agent 客户端
6. 多后端引擎,极低硬件门槛
| 后端 | 特点 |
|---|---|
| 默认模型 | 开箱即用 |
| 阿里 CosyVoice 3 | 国产优质后端 |
| MLX-Audio(苹果 M 芯片优化) | 含 Kokoro、Qwen3-TTS |
显存智能感知机制:
- 显存 < 8GB 时,自动将 TTS 模型移出显存由 CPU 接管
- 彻底杜绝显存溢出崩溃
快速上手
安装方式
项目提供跨平台桌面客户端,支持一键安装,覆盖:
- ✅ Windows
- ✅ macOS(Intel + Apple Silicon)
- ✅ Linux
GitHub 地址
https://github.com/debpalash/OmniVoice-Studio
总结
如果你:
- 想要一个本地运行的 ElevenLabs 替代品
- 需要克隆声音但没有高端 GPU
- 想做视频自动配音(支持 YouTube 链接)
- 需要在 AI Agent 中集成语音能力(MCP 原生支持)
OmniVoice Studio 值得一试。
GitHub: https://github.com/debpalash/OmniVoice-Studio
Stars: 5k+
语言支持: 646 种
硬件要求: 最低 4GB 内存,无 GPU 也能跑