TL;DR

MOSS-TTS-Nano là model text-to-speech mã nguồn mở chỉ 100M tham số, vừa được team MOSI.AI + OpenMOSS (Fudan NLP Lab) release ngày 10/4/2026 dưới giấy phép Apache-2.0. Nó stream giọng nói 48kHz stereo realtime trên CPU 4-core — không cần GPU. Hỗ trợ 20 ngôn ngữ, voice cloning zero-shot từ 1 clip ngắn. Ngày 17/4/2026 team tung tiếp bản ONNX chạy được trên đúng 1 core MacBook Air M4, nhanh gấp 2× bản PyTorch.

MOSS-TTS-Nano — Open Source 100M TTS Model

What's new

Hầu hết model TTS hiện đại (F5-TTS 0.3B, CosyVoice2 0.5B, XTTS…) vẫn cần GPU để đạt tốc độ realtime streaming. MOSS-TTS-Nano viết lại luật chơi: nhét toàn bộ pipeline Audio Tokenizer + LLM autoregressive xuống 100M params và chạy mượt trên CPU thường.

  • Model chính: 0.1B params, pure autoregressive, Apache-2.0
  • Tokenizer riêng: MOSS-Audio-Tokenizer-Nano ~20M params, CNN-free causal Transformer với sliding-window attention
  • Audio: native 48 kHz, stereo 2-channel — hiếm thấy ở micro-TTS
  • Voice cloning zero-shot: cần đúng 1 clip reference ngắn, không fine-tune
  • Streaming: auto-chunking cho long-text, first-token latency thấp
  • Triển khai: python infer.py, python app.py (FastAPI web demo), CLI moss-tts-nano generate / moss-tts-nano serve

Why it matters

Trong landscape TTS đang phình size về billion-params, đi ngược xuống 100M mà vẫn giữ 48kHz stereo + 20 ngôn ngữ là một đánh cược kỹ thuật thú vị. Nó mở ra 3 hướng sản phẩm mà trước đây bị chặn bởi chi phí GPU:

  • Browser-native TTS: chạy thẳng trong extension/web worker — không gọi cloud API
  • On-device voice cho edge/IoT: synthesize offline trên server nhỏ hoặc thiết bị nhúng
  • Indie dev prototyping: moss-tts-nano serve bật HTTP API trong 1 dòng lệnh, không cần thuê GPU

Và quan trọng: Apache-2.0 nghĩa là dùng thương mại thoải mái, không phí license, không điều khoản non-commercial.

Technical facts

MOSS-TTS-Nano system architecture — Text Tokenizer + Streaming Audio Encoder feeding a Global Transformer, Local Transformer, and Streaming Audio Decoder

PropertyValue
Tổng params~100M (0.1B)
TokenizerMOSS-Audio-Tokenizer-Nano, ~20M params
Kiến trúc tokenizerCNN-free causal Transformer, 12 encoder + 12 decoder blocks, sliding-window attention
Sampling rate48 kHz native
KênhStereo (2-channel)
Token stream12.5 Hz
Codebooks16 RVQ
Bitrate0.125 – 2 kbps variable
Số ngôn ngữ20
LicenseApache-2.0
CPU yêu cầu4 core (ONNX: 1 core đủ trên MBA M4)

Audio tokenizer — quả tim của hiệu suất

Lý do Nano nhét được 48kHz stereo vào model nhỏ là tokenizer cực gọn. Nó nén audio 48kHz stereo thành token stream chỉ 12.5 frames/second qua 16 codebooks RVQ, đạt bitrate biến thiên 0.125–2 kbps mà vẫn tái tạo âm thanh high-fidelity. Nhờ token sequence siêu ngắn, autoregressive LLM 100M không bị nghẹt context khi sinh long-form speech.

MOSS-Audio-Tokenizer-Nano architecture — 48kHz stereo input, Causal Transformer blocks, RVQ 16 bottleneck at 12.5Hz, decoder back to 48kHz stereo, with Discriminator real/fake head

Comparison

Đặt cạnh các open TTS khác:

ModelParamsGPU-free?48kHz stereo?LanguagesLicense
MOSS-TTS-Nano0.1BCó (4-core, ONNX 1-core)20Apache-2.0
Kokoro (~82M)0.08B24kHz~9Apache-2.0
F5-TTS0.3BKhông realtime24kHz~2MIT
CosyVoice20.5BKhông realtime24kHzMultiApache-2.0
XTTS v2 (Coqui)~0.5BCần GPU24kHz17CPML (non-commercial)
MOSS-TTS-Realtime (family)Cần GPU48kHzMultiApache-2.0

Niche của Nano là giao điểm cực hiếm: sub-100M + 48kHz stereo + 20 ngôn ngữ + CPU streaming + giấy phép thương mại. Nếu bạn cần đúng combo này, hiện không có đối thủ.

Use cases

  • Browser reader (MOSS-TTS-Nano-Reader): team đã release app đọc trang web ngay trong browser. Bản update 17/4 chạy thẳng model trong extension qua ONNX Runtime — không cần local inference server.
  • Edge / IoT device: TTS offline trên server nhỏ, Raspberry Pi, thiết bị nhúng.
  • Voice assistant demo: indie dev build prototype không phải thuê GPU.
  • Long-document narration: auto-chunking xử lý text dài, stream ra audio theo đoạn.
  • Multilingual app: 1 model cover tiếng Việt chưa có (chưa support tiếng Việt — xem limitations), nhưng cover EN/JA/KO/ZH/ES/FR/DE/AR cùng lúc.

Limitations & pricing

Giá: Miễn phí 100%. Weights trên GitHub, Hugging Face (OpenMOSS-Team/MOSS-TTS-Nano-100M, MOSS-Audio-Tokenizer-Nano, và bản ONNX), ModelScope. Apache-2.0 cho phép thương mại hoá.

Những hạn chế thực tế theo independent testing (sonusahani):

  • Voice cloning không ổn định cho non-English: clone Arabic thất bại, German không giống source voice, Spanish chỉ faint resemblance
  • Một số preset voice mismatch giới tính (Chinese preset output sai gender)
  • Latency dao động mạnh theo ngôn ngữ — German input dài mất ~30–40s trên CPU
  • Chưa support tiếng Việt trong 20 ngôn ngữ chính thức
  • Cross-language consistency chưa tới mức production cho cloning

Khuyến nghị: dùng cho preset voice + synthesis nhẹ + prototyping. Voice cloning production nên đợi bản tiếp theo hoặc dùng MOSS-TTS flagship (1.7B–8B) trên GPU.

What's next

Timeline release dày đặc trong tháng 4/2026:

  • 10/4: Nano base release
  • 13/4: Tích hợp vào MOSS-TTS Family repo
  • 14/4: MOSS-TTS-Nano-Reader (browser app)
  • 16/4: Finetuning code
  • 17/4: ONNX CPU version — 2× nhanh hơn, chạy trên 1 core MBA M4; Reader update chạy thẳng trong browser extension

Team đã nhắc tới 2-bit quantization như hướng tiếp theo để tiết kiệm tài nguyên hơn nữa. Với nhịp ship 1 update/2 ngày, kỳ vọng bản kế sẽ vá cloning reliability và mở rộng ngôn ngữ — tiếng Việt rất có thể nằm trong pipeline.

Nguồn: GitHub OpenMOSS/MOSS-TTS-Nano, Hugging Face, Demo page, Communeify guide, Sonusahani review.