编程 MOSS-TTS-Nano:0.1B参数纯CPU实时语音生成与克隆,MacBook Air单核就能跑

2026-04-20 22:53:28 +0800 CST views 12

MOSS-TTS-Nano:0.1B参数纯CPU实时语音生成与克隆,MacBook Air单核就能跑

当语音合成模型还在拼GPU显存时,复旦大学OpenMOSS团队甩出了一个大招:0.1B参数纯CPU运行20种语言流式推理——MOSS-TTS-Nano重新定义了TTS部署的最低门槛。

项目简介

MOSS-TTS-Nano 是由 MOSI.AI 和复旦大学 OpenMOSS 团队联合开源的多语言微型语音生成模型。项目于2026年4月10日正式发布,短短一周内便在GitHub引发热议。

  • GitHub地址:https://github.com/OpenMOSS/MOSS-TTS-Nano
  • 在线Demo:https://openmoss.github.io/MOSS-TTS-Nano-Demo/
  • HuggingFace Space:https://huggingface.co/spaces/OpenMOSS-Team/MOSS-TTS-Nano

核心特性

🎯 极小体积,极大能力

0.1B(1亿)参数,这是什么概念?当前主流TTS模型动辄数B甚至数十B参数,而MOSS-TTS-Nano用1/50甚至1/100的参数量,实现了可用的语音生成效果。

💻 纯CPU运行,无需GPU

这是最令人兴奋的特性。模型支持在4核CPU上进行流式生成,甚至在 MacBook Air M4单核 上也能流畅运行。ONNX版本更是实现了近2倍的处理效率提升。

🌍 支持20种语言

中英日韩法德西葡俄阿拉伯语……覆盖全球主要语种:

语言代码语言代码语言代码
中文zh英语en德语de
西语es法语fr日语ja
意语it匈牙利语hu韩语ko
俄语ru波斯语fa阿拉伯语ar
波兰语pl葡语pt捷克语cs
丹麦语da瑞典语sv希腊语el
土耳其语tr

🔊 高质量音频输出

原生支持 48kHz 双声道 输出,音频质量远超传统TTS的16kHz/22kHz单声道。

🎙️ 零样本语音克隆

只需提供一段参考音频,即可克隆说话人音色,无需任何微调训练。这对于个性化语音应用至关重要。

⚡ 流式推理

支持流式生成,首包延迟极低,适合实时对话、语音助手等场景。

架构设计

MOSS-TTS-Nano 采用纯自回归架构,基于 Audio Tokenizer + LLM 的管线设计:

文本输入 → Audio Tokenizer 编码 → LLM 自回归生成 → 音频解码 → 48kHz双声道输出

关键组件:

  • MOSS-Audio-Tokenizer-Nano:将24kHz音频压缩至每秒12.5帧的离散token,压缩比极高但音质损失极小
  • 0.1B参数LLM:基于自回归语言模型,直接生成音频token序列
  • 流式解码器:支持逐帧输出,实现低延迟实时播放

快速上手

环境准备

conda create -n moss-tts-nano python=3.12 -y
conda activate moss-tts-nano

git clone https://github.com/OpenMOSS/MOSS-TTS-Nano.git
cd MOSS-TTS-Nano

pip install -r requirements.txt
pip install -e .

语音克隆推理

python infer.py \
  --prompt-audio-path assets/audio/zh_1.wav \
  --text "欢迎关注模思智能、上海创智学院与复旦大学自然语言处理实验室。"

输出音频默认保存至 generated_audio/infer_output.wav

本地Web Demo

python app.py
# 浏览器打开 http://127.0.0.1:18083

ONNX CPU版本(推荐)

2026年4月17日发布的ONNX版本是最大的更新:

  • 无PyTorch依赖:推理时仅需ONNX Runtime CPU
  • 处理效率近2倍:实测比原版快约2倍
  • 单核可用:MacBook Air M4 单核即可流畅推理
  • 功能完整:支持参考音频输入、内置音色、实时流式解码
python infer_onnx.py \
  --prompt-audio-path assets/audio/zh_1.wav \
  --text "ONNX版本运行更快更轻量"

CLI命令行

安装后提供两条命令:

# 单次生成
moss-tts-nano generate \
  --prompt-audio-path ref.wav \
  --text "你好世界"

# 启动API服务
moss-tts-nano serve

生态工具

MOSS-TTS-Nano-Reader

浏览器阅读扩展,基于ONNX版本,可直接在浏览器中运行TTS模型,无需本地推理服务。

  • GitHub:https://github.com/OpenMOSS/MOSS-TTS-Nano-Reader

微调代码

2026年4月16日发布了微调代码,支持对模型进行领域适配训练,详见 finetuning/README.md

MOSS-TTS家族

MOSS-TTS-Nano 并非孤军作战,它是 MOSS-TTS 系列的轻量级成员:

模型参数量特点适用场景
MOSS-TTS8B高质量单说话人语音生成专业配音、有声书
MOSS-TTSD1.7B双人对话语音生成AI播客、访谈模拟
MOSS-TTS-Nano0.1B纯CPU实时推理嵌入式、Web服务、轻量集成

应用场景

  1. AI语音助手:在手机、IoT设备上本地运行,零延迟响应
  2. 有声书/播客生成:长文本自动分块,流式生成不间断
  3. 多语言内容创作:20种语言支持,一键切换语种
  4. 个性化语音克隆:提供几秒参考音频即可复刻音色
  5. 浏览器扩展:ONNX版本支持浏览器内直接运行
  6. 嵌入式设备:0.1B参数量适合边缘计算场景

技术对比

维度MOSS-TTS-NanoCosyVoiceChatTTSF5-TTS
参数量0.1B~1B~0.5B~0.3B
CPU推理✅ 流畅⚠️ 勉强⚠️ 较慢❌ 不支持
语音克隆✅ 零样本✅ 零样本✅ 零样本
语言数20524
音频质量48kHz立体声24kHz24kHz24kHz
ONNX支持

论文

论文编号:arXiv:2603.18090v1,由上海创新院联合复旦大学等机构完成。

总结

MOSS-TTS-Nano 的发布标志着TTS技术的一个重要拐点:语音合成不再是GPU的专属领域。0.1B参数、纯CPU运行、48kHz双声道、20种语言、零样本克隆——这些特性组合在一起,为TTS的普及化部署铺平了道路。

特别是ONNX版本的推出,让"在任何设备上运行TTS"不再是口号,而是现实。MacBook Air单核流畅推理,浏览器内直接运行——这在一年前还是不可想象的。

对于开发者而言,如果你正在寻找一个轻量级、易部署、支持语音克隆的TTS方案,MOSS-TTS-Nano 值得第一时间尝试。

推荐文章

css模拟了MacBook的外观
2024-11-18 14:07:40 +0800 CST
Vue3中的自定义指令有哪些变化?
2024-11-18 07:48:06 +0800 CST
Git 常用命令详解
2024-11-18 16:57:24 +0800 CST
微信小程序热更新
2024-11-18 15:08:49 +0800 CST
Elasticsearch 条件查询
2024-11-19 06:50:24 +0800 CST
Vue3中的v-for指令有什么新特性?
2024-11-18 12:34:09 +0800 CST
js迭代器
2024-11-19 07:49:47 +0800 CST
Nginx 跨域处理配置
2024-11-18 16:51:51 +0800 CST
Vue3中如何实现响应式数据?
2024-11-18 10:15:48 +0800 CST
MySQL用命令行复制表的方法
2024-11-17 05:03:46 +0800 CST
五个有趣且实用的Python实例
2024-11-19 07:32:35 +0800 CST
api接口怎么对接
2024-11-19 09:42:47 +0800 CST
Nginx 反向代理
2024-11-19 08:02:10 +0800 CST
如何实现生产环境代码加密
2024-11-18 14:19:35 +0800 CST
CSS实现亚克力和磨砂玻璃效果
2024-11-18 01:21:20 +0800 CST
程序员茄子在线接单