编程 MOSS-TTS-Nano:0.1B 参数的开源语音模型,CPU 直跑,浏览器里都能用

2026-04-25 08:17:20 +0800 CST views 27

当你还在为 TTS 部署发愁——显卡不够、延迟太高、模型太大跑不动的时候,OpenMOSS 团队给了你一个几乎不可能的答案:0.1B 参数,纯 CPU 可跑,还能流式输出 48kHz 立体声音频。

这就是 MOSS-TTS-Nano。

一句话概括

MOSS-TTS-Nano 是由模思智能(MOSI.AI)和 OpenMOSS 团队联合开源的多语言微型语音生成模型,核心目标只有一个:让 TTS 部署这件事变得足够简单

核心特性

0.1B 参数,小到离谱

0.1B 参数是什么概念?当前主流开源 TTS 模型动辄数 GB,MOSS-TTS-Nano 的模型体量只有它们的几十分之一。这意味着:

  • 不需要 GPU:4 核 CPU 就能跑流式推理
  • 内存占用极低:连树莓派都有可能跑起来
  • 部署成本近乎为零:任何一台普通电脑都能即开即用

48kHz 立体声输出

MOSS-TTS-Nano 不因为小就牺牲音质。它原生支持 48kHz 采样率、2 声道输出,这在同体量模型中极为罕见。配合 MOSS-Audio-Tokenizer-Nano(约 20M 参数),它可以将 48kHz 立体声音频压缩到 12.5Hz 的 token 流,使用 RVQ 16 层 codebook,实现从 0.125kbps 到 2kbps 的可变码率高保真重建。

20 种语言

支持中文、英文、日语、韩语、法语、德语、西班牙语、俄语、阿拉伯语、波斯语等 20 种语言,覆盖全球主要语种。对于需要多语言支持的应用场景,一个模型就够了。

零样本语音克隆

这是 MOSS-TTS-Nano 的杀手级功能。只需提供一段几秒钟的参考音频,就能克隆说话人的音色,无需任何微调训练。对话、旁白、配音——一段样本音搞定。

流式推理

低延迟首字响应,实时流式生成音频。对于对话机器人、语音助手等实时交互场景,这意味着用户几乎感觉不到等待。

长文本支持

支持长输入,内置自动分块的语音克隆机制。不用手动拆段,扔一整篇文章进去也行。

ONNX 版本:更快、更轻、更独立

2026 年 4 月 17 日,团队发布了 ONNX CPU 版本,这是一个重要的里程碑:

  • 去除了 PyTorch 依赖:推理时只需要 ONNX Runtime,部署栈极其精简
  • 处理效率近 2 倍提升:相比原始 PyTorch 版本
  • 单核流畅运行:在 MacBook Air M4 上,单核 CPU 即可流畅推理
  • 完整的语音克隆工作流:支持参考音频输入、内置音色、实时流式解码

ONNX 模型托管在 Hugging Face:

浏览器插件:MOSS-TTS-Nano-Reader

更狠的是,基于 ONNX 版本,团队还做了 MOSS-TTS-Nano-Reader——一个浏览器扩展,模型直接在浏览器里跑,不需要任何本地推理服务。

这意味着什么?用户安装一个 Chrome 扩展,选中网页文字,右键一按,AI 就用你选定的音色把文字读出来。不需要服务器,不需要 API Key,不需要显卡

快速上手

PyTorch 版本

conda create -n moss-tts-nano python=3.12 -y
conda activate moss-tts-nano

git clone https://github.com/OpenMOSS/MOSS-TTS-Nano.git
cd MOSS-TTS-Nano
pip install -r requirements.txt
pip install -e .

# 语音克隆推理
python infer.py \\
  --prompt-audio-path assets/audio/zh_1.wav \\
  --text "欢迎关注模思智能、上海创智学院与复旦大学自然语言处理实验室。"

ONNX 版本(推荐)

python infer_onnx.py \\
  --prompt-audio-path assets/audio/zh_1.wav \\
  --text "Welcome to the ONNX Runtime CPU demo."

CLI 一行命令

moss-tts-nano generate \\
  --backend onnx \\
  --prompt-speech assets/audio/zh_1.wav \\
  --text "你好,这是 MOSS-TTS-Nano 的语音合成演示。"

本地 Web Demo

python app.py          # PyTorch 版本
python app_onnx.py     # ONNX 版本
moss-tts-nano serve --backend onnx  # CLI 启动

浏览器打开 http://127.0.0.1:18083 即可体验。

微调支持

4 月 16 日,团队开放了微调代码。如果你对默认音色不满意,或者需要特定风格的语音,可以用自己的数据集训练。详见 ./finetuning/README.md

MOSS-TTS 家族全览

MOSS-TTS-Nano 不是孤立的模型,它属于 MOSS-TTS Family,一个覆盖各种语音生成场景的完整家族:

模型架构参数量定位
MOSS-TTSMossTTSDelay8B旗舰:高保真零样本克隆、长语音、细粒度控制
MOSS-TTS-Local-TransformerMossTTSLocal1.7B轻量版:保持旗舰风格,更小体积
MOSS-TTSD-v1.0MossTTSDelay8B对话版:多人对话、超长对话音频
MOSS-VoiceGeneratorMossTTSDelay1.7B音色设计:文本描述生成全新音色
MOSS-SoundEffectMossTTSDelay8B音效版:环境音、城市场景、短音乐
MOSS-TTS-RealtimeMossTTSRealtime1.7B实时版:低延迟语音 Agent
MOSS-TTS-Nano0.1B极致轻量:CPU 可跑,浏览器可跑

技术架构

MOSS-TTS-Nano 采用纯自回归 Audio Tokenizer + LLM 管线。核心组件 MOSS-Audio-Tokenizer-Nano 基于 CAT(Causal Audio Tokenizer with Transformer)架构——一种无 CNN 的纯 Transformer 音频分词器,全部由因果 Transformer 块组成。

它作为整个 MOSS-TTS 家族的统一离散音频接口,让 Nano 版本与旗舰模型共享相同的音频表征空间,这是它能在极小参数量下仍保持不错音质的关键。

谁该用 MOSS-TTS-Nano?

  • 独立开发者:想在 App 里加语音功能,但没有 GPU 服务器预算
  • 内容创作者:需要快速配音,不想付费使用云 TTS API
  • 浏览器扩展开发者:想做一个纯前端 TTS 工具
  • 嵌入式/IoT 开发者:需要在资源受限设备上跑 TTS
  • 语音 Agent 开发者:需要低延迟流式输出,实时对话场景
  • 研究者/学生:想快速体验语音克隆,不想配置复杂环境

开源信息

  • GitHub:https://github.com/OpenMOSS/MOSS-TTS-Nano
  • 论文:arXiv:2603.18090
  • 在线 Demo:https://openmoss.github.io/MOSS-TTS-Nano-Demo/
  • Hugging Face Space:https://huggingface.co/spaces/OpenMOSS-Team/MOSS-TTS-Nano
  • 浏览器阅读器:https://github.com/OpenMOSS/MOSS-TTS-Nano-Reader
  • 团队:模思智能(MOSI.AI)+ 上海创智学院 + 复旦大学 NLP 实验室

写在最后

MOSS-TTS-Nano 的意义不在于它的音质能打败 8B 的旗舰模型——那不公平。它的意义在于:它把 TTS 的门槛降到了前所未有的高度

0.1B 参数、CPU 可跑、浏览器可跑、20 种语言、零样本克隆、流式推理。当你不需要极致音质,只需要"足够好"的实时语音时,这就是你该选的模型。

在 AI 语音领域,大模型卷参数量卷得热火朝天的时候,有人在另一头把模型做小、做快、做到人人都能用。这值得尊敬。

复制全文 生成海报 AI 开源 语音合成 TTS MOSS

推荐文章

12个非常有用的JavaScript技巧
2024-11-19 05:36:14 +0800 CST
Golang Sync.Once 使用与原理
2024-11-17 03:53:42 +0800 CST
智能视频墙
2025-02-22 11:21:29 +0800 CST
Go配置镜像源代理
2024-11-19 09:10:35 +0800 CST
Nginx 防止IP伪造,绕过IP限制
2025-01-15 09:44:42 +0800 CST
PHP 8.4 中的新数组函数
2024-11-19 08:33:52 +0800 CST
Nginx 实操指南:从入门到精通
2024-11-19 04:16:19 +0800 CST
File 和 Blob 的区别
2024-11-18 23:11:46 +0800 CST
Nginx 反向代理 Redis 服务
2024-11-19 09:41:21 +0800 CST
Vue3 结合 Driver.js 实现新手指引
2024-11-18 19:30:14 +0800 CST
在JavaScript中实现队列
2024-11-19 01:38:36 +0800 CST
Web 端 Office 文件预览工具库
2024-11-18 22:19:16 +0800 CST
Go 协程上下文切换的代价
2024-11-19 09:32:28 +0800 CST
程序员茄子在线接单