MOSS-TTS-Nano:0.1B参数纯CPU实时语音生成与克隆,MacBook Air单核就能跑
当语音合成模型还在拼GPU显存时,复旦大学OpenMOSS团队甩出了一个大招:0.1B参数,纯CPU运行,20种语言,流式推理——MOSS-TTS-Nano重新定义了TTS部署的最低门槛。
项目简介
MOSS-TTS-Nano 是由 MOSI.AI 和复旦大学 OpenMOSS 团队联合开源的多语言微型语音生成模型。项目于2026年4月10日正式发布,短短一周内便在GitHub引发热议。
- GitHub地址:https://github.com/OpenMOSS/MOSS-TTS-Nano
- 在线Demo:https://openmoss.github.io/MOSS-TTS-Nano-Demo/
- HuggingFace Space:https://huggingface.co/spaces/OpenMOSS-Team/MOSS-TTS-Nano
核心特性
🎯 极小体积,极大能力
仅 0.1B(1亿)参数,这是什么概念?当前主流TTS模型动辄数B甚至数十B参数,而MOSS-TTS-Nano用1/50甚至1/100的参数量,实现了可用的语音生成效果。
💻 纯CPU运行,无需GPU
这是最令人兴奋的特性。模型支持在4核CPU上进行流式生成,甚至在 MacBook Air M4单核 上也能流畅运行。ONNX版本更是实现了近2倍的处理效率提升。
🌍 支持20种语言
中英日韩法德西葡俄阿拉伯语……覆盖全球主要语种:
| 语言 | 代码 | 语言 | 代码 | 语言 | 代码 | ||
|---|---|---|---|---|---|---|---|
| 中文 | zh | 英语 | en | 德语 | de | ||
| 西语 | es | 法语 | fr | 日语 | ja | ||
| 意语 | it | 匈牙利语 | hu | 韩语 | ko | ||
| 俄语 | ru | 波斯语 | fa | 阿拉伯语 | ar | ||
| 波兰语 | pl | 葡语 | pt | 捷克语 | cs | ||
| 丹麦语 | da | 瑞典语 | sv | 希腊语 | el | ||
| 土耳其语 | tr |
🔊 高质量音频输出
原生支持 48kHz 双声道 输出,音频质量远超传统TTS的16kHz/22kHz单声道。
🎙️ 零样本语音克隆
只需提供一段参考音频,即可克隆说话人音色,无需任何微调训练。这对于个性化语音应用至关重要。
⚡ 流式推理
支持流式生成,首包延迟极低,适合实时对话、语音助手等场景。
架构设计
MOSS-TTS-Nano 采用纯自回归架构,基于 Audio Tokenizer + LLM 的管线设计:
文本输入 → Audio Tokenizer 编码 → LLM 自回归生成 → 音频解码 → 48kHz双声道输出
关键组件:
- MOSS-Audio-Tokenizer-Nano:将24kHz音频压缩至每秒12.5帧的离散token,压缩比极高但音质损失极小
- 0.1B参数LLM:基于自回归语言模型,直接生成音频token序列
- 流式解码器:支持逐帧输出,实现低延迟实时播放
快速上手
环境准备
conda create -n moss-tts-nano python=3.12 -y
conda activate moss-tts-nano
git clone https://github.com/OpenMOSS/MOSS-TTS-Nano.git
cd MOSS-TTS-Nano
pip install -r requirements.txt
pip install -e .
语音克隆推理
python infer.py \
--prompt-audio-path assets/audio/zh_1.wav \
--text "欢迎关注模思智能、上海创智学院与复旦大学自然语言处理实验室。"
输出音频默认保存至 generated_audio/infer_output.wav。
本地Web Demo
python app.py
# 浏览器打开 http://127.0.0.1:18083
ONNX CPU版本(推荐)
2026年4月17日发布的ONNX版本是最大的更新:
- 无PyTorch依赖:推理时仅需ONNX Runtime CPU
- 处理效率近2倍:实测比原版快约2倍
- 单核可用:MacBook Air M4 单核即可流畅推理
- 功能完整:支持参考音频输入、内置音色、实时流式解码
python infer_onnx.py \
--prompt-audio-path assets/audio/zh_1.wav \
--text "ONNX版本运行更快更轻量"
CLI命令行
安装后提供两条命令:
# 单次生成
moss-tts-nano generate \
--prompt-audio-path ref.wav \
--text "你好世界"
# 启动API服务
moss-tts-nano serve
生态工具
MOSS-TTS-Nano-Reader
浏览器阅读扩展,基于ONNX版本,可直接在浏览器中运行TTS模型,无需本地推理服务。
- GitHub:https://github.com/OpenMOSS/MOSS-TTS-Nano-Reader
微调代码
2026年4月16日发布了微调代码,支持对模型进行领域适配训练,详见 finetuning/README.md。
MOSS-TTS家族
MOSS-TTS-Nano 并非孤军作战,它是 MOSS-TTS 系列的轻量级成员:
| 模型 | 参数量 | 特点 | 适用场景 |
|---|---|---|---|
| MOSS-TTS | 8B | 高质量单说话人语音生成 | 专业配音、有声书 |
| MOSS-TTSD | 1.7B | 双人对话语音生成 | AI播客、访谈模拟 |
| MOSS-TTS-Nano | 0.1B | 纯CPU实时推理 | 嵌入式、Web服务、轻量集成 |
应用场景
- AI语音助手:在手机、IoT设备上本地运行,零延迟响应
- 有声书/播客生成:长文本自动分块,流式生成不间断
- 多语言内容创作:20种语言支持,一键切换语种
- 个性化语音克隆:提供几秒参考音频即可复刻音色
- 浏览器扩展:ONNX版本支持浏览器内直接运行
- 嵌入式设备:0.1B参数量适合边缘计算场景
技术对比
| 维度 | MOSS-TTS-Nano | CosyVoice | ChatTTS | F5-TTS |
|---|---|---|---|---|
| 参数量 | 0.1B | ~1B | ~0.5B | ~0.3B |
| CPU推理 | ✅ 流畅 | ⚠️ 勉强 | ⚠️ 较慢 | ❌ 不支持 |
| 语音克隆 | ✅ 零样本 | ✅ 零样本 | ❌ | ✅ 零样本 |
| 语言数 | 20 | 5 | 2 | 4 |
| 音频质量 | 48kHz立体声 | 24kHz | 24kHz | 24kHz |
| ONNX支持 | ✅ | ❌ | ❌ | ❌ |
论文
论文编号:arXiv:2603.18090v1,由上海创新院联合复旦大学等机构完成。
总结
MOSS-TTS-Nano 的发布标志着TTS技术的一个重要拐点:语音合成不再是GPU的专属领域。0.1B参数、纯CPU运行、48kHz双声道、20种语言、零样本克隆——这些特性组合在一起,为TTS的普及化部署铺平了道路。
特别是ONNX版本的推出,让"在任何设备上运行TTS"不再是口号,而是现实。MacBook Air单核流畅推理,浏览器内直接运行——这在一年前还是不可想象的。
对于开发者而言,如果你正在寻找一个轻量级、易部署、支持语音克隆的TTS方案,MOSS-TTS-Nano 值得第一时间尝试。