编程 MOSS-TTS-Nano：0.1B参数纯CPU实时语音生成与克隆，MacBook Air单核就能跑

2026-04-20 22:53:28 +0800 CST views 849

MOSS-TTS-Nano：0.1B参数纯CPU实时语音生成与克隆，MacBook Air单核就能跑

当语音合成模型还在拼GPU显存时，复旦大学OpenMOSS团队甩出了一个大招：0.1B参数，纯CPU运行，20种语言，流式推理——MOSS-TTS-Nano重新定义了TTS部署的最低门槛。

项目简介

MOSS-TTS-Nano 是由 MOSI.AI 和复旦大学 OpenMOSS 团队联合开源的多语言微型语音生成模型。项目于2026年4月10日正式发布，短短一周内便在GitHub引发热议。

GitHub地址：https://github.com/OpenMOSS/MOSS-TTS-Nano
在线Demo：https://openmoss.github.io/MOSS-TTS-Nano-Demo/
HuggingFace Space：https://huggingface.co/spaces/OpenMOSS-Team/MOSS-TTS-Nano

核心特性

🎯 极小体积，极大能力

仅 0.1B（1亿）参数，这是什么概念？当前主流TTS模型动辄数B甚至数十B参数，而MOSS-TTS-Nano用1/50甚至1/100的参数量，实现了可用的语音生成效果。

💻 纯CPU运行，无需GPU

这是最令人兴奋的特性。模型支持在4核CPU上进行流式生成，甚至在 MacBook Air M4单核 上也能流畅运行。ONNX版本更是实现了近2倍的处理效率提升。

🌍 支持20种语言

中英日韩法德西葡俄阿拉伯语……覆盖全球主要语种：

语言	代码	语言	代码	语言	代码
中文	zh	英语	en	德语	de
西语	es	法语	fr	日语	ja
意语	it	匈牙利语	hu	韩语	ko
俄语	ru	波斯语	fa	阿拉伯语	ar
波兰语	pl	葡语	pt	捷克语	cs
丹麦语	da	瑞典语	sv	希腊语	el
土耳其语	tr

🔊 高质量音频输出

原生支持 48kHz 双声道 输出，音频质量远超传统TTS的16kHz/22kHz单声道。

🎙️ 零样本语音克隆

只需提供一段参考音频，即可克隆说话人音色，无需任何微调训练。这对于个性化语音应用至关重要。

⚡ 流式推理

支持流式生成，首包延迟极低，适合实时对话、语音助手等场景。

架构设计

MOSS-TTS-Nano 采用纯自回归架构，基于 Audio Tokenizer + LLM 的管线设计：

文本输入 → Audio Tokenizer 编码 → LLM 自回归生成 → 音频解码 → 48kHz双声道输出

关键组件：

MOSS-Audio-Tokenizer-Nano：将24kHz音频压缩至每秒12.5帧的离散token，压缩比极高但音质损失极小
0.1B参数LLM：基于自回归语言模型，直接生成音频token序列
流式解码器：支持逐帧输出，实现低延迟实时播放

快速上手

环境准备

conda create -n moss-tts-nano python=3.12 -y
conda activate moss-tts-nano

git clone https://github.com/OpenMOSS/MOSS-TTS-Nano.git
cd MOSS-TTS-Nano

pip install -r requirements.txt
pip install -e .

语音克隆推理

python infer.py \
  --prompt-audio-path assets/audio/zh_1.wav \
  --text "欢迎关注模思智能、上海创智学院与复旦大学自然语言处理实验室。"

输出音频默认保存至 generated_audio/infer_output.wav。

本地Web Demo

python app.py
# 浏览器打开 http://127.0.0.1:18083

ONNX CPU版本（推荐）

2026年4月17日发布的ONNX版本是最大的更新：

无PyTorch依赖：推理时仅需ONNX Runtime CPU
处理效率近2倍：实测比原版快约2倍
单核可用：MacBook Air M4 单核即可流畅推理
功能完整：支持参考音频输入、内置音色、实时流式解码

python infer_onnx.py \
  --prompt-audio-path assets/audio/zh_1.wav \
  --text "ONNX版本运行更快更轻量"

CLI命令行

安装后提供两条命令：

# 单次生成
moss-tts-nano generate \
  --prompt-audio-path ref.wav \
  --text "你好世界"

# 启动API服务
moss-tts-nano serve

生态工具

MOSS-TTS-Nano-Reader

浏览器阅读扩展，基于ONNX版本，可直接在浏览器中运行TTS模型，无需本地推理服务。

GitHub：https://github.com/OpenMOSS/MOSS-TTS-Nano-Reader

微调代码

2026年4月16日发布了微调代码，支持对模型进行领域适配训练，详见 finetuning/README.md。

MOSS-TTS家族

MOSS-TTS-Nano 并非孤军作战，它是 MOSS-TTS 系列的轻量级成员：

模型	参数量	特点	适用场景
MOSS-TTS	8B	高质量单说话人语音生成	专业配音、有声书
MOSS-TTSD	1.7B	双人对话语音生成	AI播客、访谈模拟
MOSS-TTS-Nano	0.1B	纯CPU实时推理	嵌入式、Web服务、轻量集成

应用场景

AI语音助手：在手机、IoT设备上本地运行，零延迟响应
有声书/播客生成：长文本自动分块，流式生成不间断
多语言内容创作：20种语言支持，一键切换语种
个性化语音克隆：提供几秒参考音频即可复刻音色
浏览器扩展：ONNX版本支持浏览器内直接运行
嵌入式设备：0.1B参数量适合边缘计算场景

技术对比

维度	MOSS-TTS-Nano	CosyVoice	ChatTTS	F5-TTS
参数量	0.1B	~1B	~0.5B	~0.3B
CPU推理	✅ 流畅	⚠️ 勉强	⚠️ 较慢	❌ 不支持
语音克隆	✅ 零样本	✅ 零样本	❌	✅ 零样本
语言数	20	5	2	4
音频质量	48kHz立体声	24kHz	24kHz	24kHz
ONNX支持	✅	❌	❌	❌

论文

论文编号：arXiv:2603.18090v1，由上海创新院联合复旦大学等机构完成。

总结

MOSS-TTS-Nano 的发布标志着TTS技术的一个重要拐点：语音合成不再是GPU的专属领域。0.1B参数、纯CPU运行、48kHz双声道、20种语言、零样本克隆——这些特性组合在一起，为TTS的普及化部署铺平了道路。

特别是ONNX版本的推出，让"在任何设备上运行TTS"不再是口号，而是现实。MacBook Air单核流畅推理，浏览器内直接运行——这在一年前还是不可想象的。

对于开发者而言，如果你正在寻找一个轻量级、易部署、支持语音克隆的TTS方案，MOSS-TTS-Nano 值得第一时间尝试。

复制全文生成海报 TTS 语音合成语音克隆 AI 开源 CPU推理 OpenMOSS