StepAudio 2.5 TTS: Điều khiển cảm xúc giọng đọc bằng câu mô tả, không cần preset

TL;DR

Ngày 16/04/2026, StepFun (阶跃星辰) chính thức ra mắt StepAudio 2.5 TTS — model TTS đầu tiên tích hợp hiểu ngữ cảnh vào toàn bộ pipeline tổng hợp giọng. Thay vì chọn preset "sad", giờ bạn viết "nỗi buồn kìm nén, không khóc nấc, run nhẹ" — AI diễn đúng như vậy. Zero-shot voice clone chỉ cần 3 giây audio mẫu, giọng clone kế thừa đầy đủ khả năng điều khiển cảm xúc. Giá API: ¥5.8 / 10k ký tự, voice clone ¥9.9 / giọng. Cùng ngày Google tung Gemini 3.1 Flash TTS với cùng paradigm — ngành TTS bước sang kỷ nguyên mới: từ "chọn tag" sang "mô tả yêu cầu".

Có gì mới

StepAudio 2.5 TTS (StepFun gọi là Contextual TTS) được xây dựng trên ba trụ điều khiển:

Global Context — tham số instruction (tối đa 200 ký tự) set tông cảm xúc và không khí chung cho cả đoạn, đảm bảo nhất quán giọng nhân vật xuyên multi-turn dialogue.
Inline Context — gắn chỉ dẫn trong ngoặc đơn () ngay trong text, ví dụ （压低声音） (hạ giọng), （激动） (kích động). Model coi đây là cue diễn xuất cấp câu — điều khiển nhịp, ngắt, hơi thở, subtext — và không đọc ra.
Zero-shot voice cloning — chỉ cần 3 giây audio tham chiếu, không retrain, giọng clone kế thừa đầy đủ Global + Inline control. Hết bị khóa trong voice library cứng.

Khác biệt cốt lõi với TTS thế hệ trước: không còn giới hạn ở tag SSML như <emotion="sad">. Bạn mô tả ý đồ bằng tiếng người tự nhiên — model tự tổng hợp âm sắc, hơi thở, vi-ngắt và cả subtext tương ứng.

Thông số kỹ thuật

Thông số	Giá trị
Input tối đa / request	1,000 ký tự
Instruction tối đa	200 ký tự (global context)
Audio tham chiếu cho clone	3 giây
Giá tổng hợp giọng	¥5.8 / 10,000 ký tự
Giá voice clone	¥9.9 / giọng
REST non-streaming	`POST /v1/audio/speech`
WebSocket streaming	`wss://api.stepfun.com/v1/realtime/audio`
Output format	MP3, WAV @ 24 kHz
Model ID	`stepaudio-2.5-tts`

Kiến trúc nền là Step-Audio-EditX — 3B parameters, LLM-based với RL post-training trên large-margin synthetic data, open-source Apache 2.0 trên Hugging Face. Tokenizer dual-codebook: linguistic (16.7 Hz, 1024-codebook) + semantic (25 Hz, 4096-codebook) theo tỉ lệ 2:3. Self-host cần 12–16 GB VRAM (hoặc ~8–10 GB với AWQ 4-bit).

Thư viện paralinguistic rất dày: [sigh], [laugh], [chuckle], [inhale], [cough], [breath], [uhm], [Surprise-oh], [Question-ei]… Hơn 20 preset speaking style: story (audiobook), recite (thơ), news, radio, advertising, whisper, shout, authority, comfort…

So với các đối thủ

Technical report của Step-Audio-EditX (bảng 3, emotion editing, trung bình Trung + Anh, điểm cao hơn là tốt hơn):

Model	Iter 0	Iter 1	Iter 2	Iter 3
Step-Audio-EditX	52.9	66.1	70.3	70.1
MiniMax-2.6-hd (Clone)	50.0	65.5	68.8	69.6
MiniMax-2.6-hd (Emotion Control)	—	57.0	66.4	69.3
Doubao-Seed-TTS-2.0 (Clone)	49.0	63.6	68.0	69.7
Doubao-Seed-TTS-2.0 (Emotion Control)	—	49.9	64.7	67.2

Điểm đáng chú ý nhất: một vòng edit của Step-Audio-EditX áp lên giọng zero-shot clone vẫn vượt chức năng emotion-control gốc của Minimax và Doubao. Khả năng generalization cũng mạnh — edit chồng lên output của ElevenLabs-v2 và GPT-4o-mini-TTS cũng cải thiện đáng kể độ chính xác cảm xúc và paralinguistic.

Cùng ngày ra mắt, Google tung Gemini 3.1 Flash TTS — cũng bỏ SSML, chuyển sang mô tả ngôn ngữ tự nhiên, đứng đầu nhiều bảng đánh giá bên thứ ba. Hai công ty ra mắt cùng ngày với cùng paradigm: đây không phải feature lẻ, đây là chuyển pha cả ngành.

Use case

Audiobook & thơ — preset story và recite, giọng giữ nhịp xuyên suốt chương dài nhờ Global Context.
Lồng tiếng phim + game NPC — inline cue điều khiển hơi thở, vi-ngắt, subtext cấp câu; clone diễn viên thật từ 3 giây audio.
Multi-turn dialogue / AI agent giọng — instruction cố định tông nhân vật, mỗi câu có thể chèn cue riêng.
Ads / voiceover / radio / podcast — preset advertising, radio, news, program đã được calibrate sẵn.
Đa ngôn ngữ + phương ngữ — Mandarin, English, Japanese, Korean, cộng Sichuanese và Cantonese chỉ bằng tag prefix.

Đối tượng mà StepFun nhắm trực tiếp: content creator audio và voice director. Thay vì thu đi thu lại 5–6 lần để chỉnh cảm xúc, giờ viết một câu mô tả là ra.

Hạn chế & truy cập

Giới hạn 1,000 ký tự / request, instruction 200 ký tự — tổng hợp đoạn dài phải chunk.
Giá niêm yết bằng RMB, platform chính tại Trung Quốc; chưa công bố chính sách region ngoài TQ.
Self-host open-source Step-Audio-EditX cần GPU NVIDIA 12+ GB VRAM, Python ≥ 3.12, PyTorch ≥ 2.9.1. Audio input nên dưới 30 giây mỗi inference.
Clone không có cơ chế chống giả mạo mạnh — StepFun nhắc trong disclaimer: cấm voice clone không phép, impersonation, deepfake.

Truy cập: API pay-as-you-go trên StepFun Open Platform, gói Step Plan, hoặc demo trực tiếp ở Experience Center. Model nền Step-Audio-EditX trên Hugging Face — Apache 2.0, tự deploy được.

Sắp tới

Roadmap open-source cho biết StepFun đang mở thêm: Arabic, French, Russian, Spanish; filler word removal; SFT + PPO training code; thêm emotion và speaking style mới. Kết hợp với Gemini 3.1 Flash TTS cùng ngày, 2026 gần như chắc chắn là năm ngành TTS từ bỏ SSML/tag preset — trực giác nhất cho creator và dễ hook vào LLM agent nhất.

Nguồn: @StepFun_ai, StepFun docs, Step-Audio-EditX Technical Report, GitHub.