- StepFun vừa ra mắt StepAudio 2.5 TTS ngày 16/04/2026 — TTS đầu tiên bỏ tag SSML, cho phép mô tả cảm xúc, nhịp điệu, hơi thở bằng ngôn ngữ tự nhiên.
- Clone giọng từ 3 giây audio, giữ full timbre + emotion control.
- Cùng ngày Google tung Gemini 3.1 Flash TTS — ngành TTS chính thức chuyển từ 'chọn tag' sang 'mô tả yêu cầu'.
TL;DR
Ngày 16/04/2026, StepFun (阶跃星辰) chính thức ra mắt StepAudio 2.5 TTS — model TTS đầu tiên tích hợp hiểu ngữ cảnh vào toàn bộ pipeline tổng hợp giọng. Thay vì chọn preset "sad", giờ bạn viết "nỗi buồn kìm nén, không khóc nấc, run nhẹ" — AI diễn đúng như vậy. Zero-shot voice clone chỉ cần 3 giây audio mẫu, giọng clone kế thừa đầy đủ khả năng điều khiển cảm xúc. Giá API: ¥5.8 / 10k ký tự, voice clone ¥9.9 / giọng. Cùng ngày Google tung Gemini 3.1 Flash TTS với cùng paradigm — ngành TTS bước sang kỷ nguyên mới: từ "chọn tag" sang "mô tả yêu cầu".
Có gì mới
StepAudio 2.5 TTS (StepFun gọi là Contextual TTS) được xây dựng trên ba trụ điều khiển:
- Global Context — tham số
instruction(tối đa 200 ký tự) set tông cảm xúc và không khí chung cho cả đoạn, đảm bảo nhất quán giọng nhân vật xuyên multi-turn dialogue. - Inline Context — gắn chỉ dẫn trong ngoặc đơn
()ngay trong text, ví dụ(压低声音)(hạ giọng),(激动)(kích động). Model coi đây là cue diễn xuất cấp câu — điều khiển nhịp, ngắt, hơi thở, subtext — và không đọc ra. - Zero-shot voice cloning — chỉ cần 3 giây audio tham chiếu, không retrain, giọng clone kế thừa đầy đủ Global + Inline control. Hết bị khóa trong voice library cứng.
Khác biệt cốt lõi với TTS thế hệ trước: không còn giới hạn ở tag SSML như <emotion="sad">. Bạn mô tả ý đồ bằng tiếng người tự nhiên — model tự tổng hợp âm sắc, hơi thở, vi-ngắt và cả subtext tương ứng.
Thông số kỹ thuật
| Thông số | Giá trị |
|---|---|
| Input tối đa / request | 1,000 ký tự |
| Instruction tối đa | 200 ký tự (global context) |
| Audio tham chiếu cho clone | 3 giây |
| Giá tổng hợp giọng | ¥5.8 / 10,000 ký tự |
| Giá voice clone | ¥9.9 / giọng |
| REST non-streaming | POST /v1/audio/speech |
| WebSocket streaming | wss://api.stepfun.com/v1/realtime/audio |
| Output format | MP3, WAV @ 24 kHz |
| Model ID | stepaudio-2.5-tts |
Kiến trúc nền là Step-Audio-EditX — 3B parameters, LLM-based với RL post-training trên large-margin synthetic data, open-source Apache 2.0 trên Hugging Face. Tokenizer dual-codebook: linguistic (16.7 Hz, 1024-codebook) + semantic (25 Hz, 4096-codebook) theo tỉ lệ 2:3. Self-host cần 12–16 GB VRAM (hoặc ~8–10 GB với AWQ 4-bit).
Thư viện paralinguistic rất dày: [sigh], [laugh], [chuckle], [inhale], [cough], [breath], [uhm], [Surprise-oh], [Question-ei]… Hơn 20 preset speaking style: story (audiobook), recite (thơ), news, radio, advertising, whisper, shout, authority, comfort…
So với các đối thủ
Technical report của Step-Audio-EditX (bảng 3, emotion editing, trung bình Trung + Anh, điểm cao hơn là tốt hơn):
| Model | Iter 0 | Iter 1 | Iter 2 | Iter 3 |
|---|---|---|---|---|
| Step-Audio-EditX | 52.9 | 66.1 | 70.3 | 70.1 |
| MiniMax-2.6-hd (Clone) | 50.0 | 65.5 | 68.8 | 69.6 |
| MiniMax-2.6-hd (Emotion Control) | — | 57.0 | 66.4 | 69.3 |
| Doubao-Seed-TTS-2.0 (Clone) | 49.0 | 63.6 | 68.0 | 69.7 |
| Doubao-Seed-TTS-2.0 (Emotion Control) | — | 49.9 | 64.7 | 67.2 |
Điểm đáng chú ý nhất: một vòng edit của Step-Audio-EditX áp lên giọng zero-shot clone vẫn vượt chức năng emotion-control gốc của Minimax và Doubao. Khả năng generalization cũng mạnh — edit chồng lên output của ElevenLabs-v2 và GPT-4o-mini-TTS cũng cải thiện đáng kể độ chính xác cảm xúc và paralinguistic.
Cùng ngày ra mắt, Google tung Gemini 3.1 Flash TTS — cũng bỏ SSML, chuyển sang mô tả ngôn ngữ tự nhiên, đứng đầu nhiều bảng đánh giá bên thứ ba. Hai công ty ra mắt cùng ngày với cùng paradigm: đây không phải feature lẻ, đây là chuyển pha cả ngành.
Use case
- Audiobook & thơ — preset story và recite, giọng giữ nhịp xuyên suốt chương dài nhờ Global Context.
- Lồng tiếng phim + game NPC — inline cue điều khiển hơi thở, vi-ngắt, subtext cấp câu; clone diễn viên thật từ 3 giây audio.
- Multi-turn dialogue / AI agent giọng — instruction cố định tông nhân vật, mỗi câu có thể chèn cue riêng.
- Ads / voiceover / radio / podcast — preset advertising, radio, news, program đã được calibrate sẵn.
- Đa ngôn ngữ + phương ngữ — Mandarin, English, Japanese, Korean, cộng Sichuanese và Cantonese chỉ bằng tag prefix.
Đối tượng mà StepFun nhắm trực tiếp: content creator audio và voice director. Thay vì thu đi thu lại 5–6 lần để chỉnh cảm xúc, giờ viết một câu mô tả là ra.
Hạn chế & truy cập
- Giới hạn 1,000 ký tự / request, instruction 200 ký tự — tổng hợp đoạn dài phải chunk.
- Giá niêm yết bằng RMB, platform chính tại Trung Quốc; chưa công bố chính sách region ngoài TQ.
- Self-host open-source Step-Audio-EditX cần GPU NVIDIA 12+ GB VRAM, Python ≥ 3.12, PyTorch ≥ 2.9.1. Audio input nên dưới 30 giây mỗi inference.
- Clone không có cơ chế chống giả mạo mạnh — StepFun nhắc trong disclaimer: cấm voice clone không phép, impersonation, deepfake.
Truy cập: API pay-as-you-go trên StepFun Open Platform, gói Step Plan, hoặc demo trực tiếp ở Experience Center. Model nền Step-Audio-EditX trên Hugging Face — Apache 2.0, tự deploy được.
Sắp tới
Roadmap open-source cho biết StepFun đang mở thêm: Arabic, French, Russian, Spanish; filler word removal; SFT + PPO training code; thêm emotion và speaking style mới. Kết hợp với Gemini 3.1 Flash TTS cùng ngày, 2026 gần như chắc chắn là năm ngành TTS từ bỏ SSML/tag preset — trực giác nhất cho creator và dễ hook vào LLM agent nhất.
Nguồn: @StepFun_ai, StepFun docs, Step-Audio-EditX Technical Report, GitHub.



