TL;DR

Async vừa phát hành benchmark công nghiệp đầu tiên đo khả năng inline text normalization — tức là TTS đọc đúng các chuỗi phi chuẩn (số tiền, ngày, viết tắt) trong lúc streaming, không cần lớp preprocess chạy trước. Bài test gồm 2,200+ non-standard words qua 1,000+ câu, ở chế độ streaming thật, không rewrite text. Kết quả: Async Flash v1.0 đạt 81.2% sentence-level accuracy và 88.6% unit-level accuracy, trong khi Inworld TTS-1 chỉ 49.8% / 67.8%, ElevenLabs Flash v2.5 là 40.3% / 56.4%, và ElevenLabs Multilingual v2 xếp cuối với 37.9% / 52.5%. Với voice agent sản xuất — nơi một lần đọc sai "$42.50" thành "dollar sign four two period five zero" là bug brand-damaging — khoảng cách này là sự khác biệt giữa sản phẩm dùng được và demo đẹp.

Có gì mới

Text-to-speech thời real-time vẫn vấp ở đúng chỗ nó không được phép sai: structured text. Số, ngày, tiền, mã đơn hàng, địa chỉ, viết tắt — toàn bộ loại văn bản xuất hiện trong mọi voice agent production. "$42.50" phải nghe là "forty-two dollars and fifty cents", không phải "dollar sign four two period five zero". "03/15/2024" phải là "March fifteenth, twenty twenty-four", không phải "zero three slash one five slash two zero two four".

Async định nghĩa lại cách đo vấn đề này. Thay vì chấm trên bản preprocess (mọi mô hình đều làm tốt khi text đã được viết lại sẵn), benchmark của họ chạy ở adversarial setting: streaming thật, token-by-token, không có bộ normalize chạy trước, không rewrite. Đây là điều kiện gần nhất với voice agent production.

Vì sao benchmark này quan trọng

Pipeline TTS truyền thống tách normalization thành một bước riêng:

raw text → normalizer (rules / WFSTs / LLM pass) → normalized text → TTS → audio

Cách này — được Google Kestrel, NVIDIA NeMo và hầu hết stack production dùng — deterministic và auditable. Nhưng nó thêm một hop latency, và với voice agent có budget dưới 300 ms cho một turn, mỗi mili-giây đều đắt. Streaming TTS thậm chí chỉ thấy vài token tại một thời điểm, nên một preprocessor đầy đủ phải buffer câu lại ⇒ giết chết độ trễ.

Inline normalization dồn cả hai bước vào một model:

raw text → TTS (normalization xảy ra bên trong acoustic model) → audio

Ưu: một pass, thân thiện streaming, không tốn thêm latency. Nhược: khó audit, chất lượng phụ thuộc hoàn toàn vào huấn luyện mô hình. Benchmark của Async là công cụ đầu tiên cho phép đo-đong cái "khó audit" đó.

Số liệu kỹ thuật

Thiết kế test:

  • Phạm vi: 2,200+ non-standard words qua 1,000+ câu
  • Điều kiện: streaming thật, không preprocess, không text rewriting
  • Hai chế độ chấm: sentence-level (mọi từ trong câu phải đúng mới tính hit — khắt khe, phản ánh trải nghiệm user thật) và unit-level (chấm từng từ độc lập — chi tiết, cho thấy skill per-token)

Kết quả trên 4 mô hình streaming TTS thương mại:

ModelSentence-levelUnit-level
Async Flash v1.081.2%88.6%
Inworld TTS-149.8%67.8%
ElevenLabs Flash v2.540.3%56.4%
ElevenLabs Multilingual v237.9%52.5%

Async Flash bỏ xa mô hình á quân (Inworld TTS-1) khoảng 31 điểm phần trăm ở sentence-level và 21 điểm ở unit-level. Với ElevenLabs Multilingual v2 — mô hình quality-first được dùng cho audiobook và content dài — chênh lệch lên tới hơn 43 điểm ở chế độ câu, một con số không bình thường trong các TTS benchmark hiện tại.

So với trước và với đối thủ

Đây không phải lần đầu Async đứng đầu một benchmark. Tháng 11-2025, bài đo latency vs quality của chính họ cho thấy Async Flash v1.0 bắt đầu phát audio sau median TTFB 166 ms — nhanh hơn ElevenLabs Flash v2.5 khoảng 34% và Cartesia Sonic khoảng 74%. Trên Elo quality, Async xếp sát ElevenLabs (1514 vs 1598), nghĩa là không đánh đổi chất lượng để lấy tốc độ.

Gộp với benchmark normalization này, Async đang tạo một positioning rõ ràng: không phải model đẹp giọng nhất, mà là model đáng tin cậy nhất cho voice agent production. Inworld TTS-1 giữ được P90 dưới 250 ms và đứng thứ hai ở normalization — vị trí phù hợp cho team muốn một bundled platform. ElevenLabs vẫn dẫn về prosody và biểu cảm, nhưng chấm structured text cho thấy đội ngũ này ưu tiên giọng hơn là accuracy token — hợp lý với thị trường audiobook / creator-tool của họ, nhưng là điểm yếu thực sự với fintech, healthcare, e-commerce voice bots.

Use case: ai thắng lớn với inline normalization

  • Banking & fintech voice agents: đọc số dư ("$1,247.83"), ngày giao dịch, mã tài khoản, số định tuyến. Đọc sai một lần là brand damage.
  • Healthcare intake / scheduling: liều thuốc ("5 mg twice daily"), lịch hẹn ("09/15/2026 at 3:30 PM"), viết tắt bác sĩ ("Dr. Nguyen, MD").
  • Customer support bot: mã đơn hàng, tracking number, ETA, xác nhận số điện thoại và địa chỉ.
  • Post-purchase e-commerce: SKU, giá, khung thời gian giao hàng.
  • IVR replacement: mọi thứ trước đây phải tune bằng SSML tay thủ công giờ nằm ở tầng model.
  • Live captions & accessibility: đọc số / ngày real-time không có preprocessor delay.
  • Multilingual agents: format số và ngày theo ngôn ngữ — inline normalization được train per-language thay vì duy trì N rule engine.

Giới hạn & pricing

Vài điểm cần nói thẳng:

  • Benchmark do chính Async công bố, chưa có bên thứ ba tái dựng độc lập.
  • Chỉ test 4 mô hình — chưa có Gemini 3.1 Flash TTS (ra mắt tháng 4-2026), xAI Grok TTS, Cartesia, Fish Audio, OpenAI TTS hay Google Cloud TTS.
  • Ví dụ nêu ra thiên về tiếng Anh; accuracy NSW đa ngôn ngữ chưa được bóc tách trong bản tóm tắt.
  • Điều kiện "streaming thật, không preprocess" là chế độ khắc nghiệt nhất — ưu ái các model nhét normalization vào acoustic path. Fair cho voice agent production, nhưng team đang dùng LLM preprocessor trước TTS sẽ thấy con số khác.

Async Flash v1.0 hiện có qua API, streaming WebSocket + REST, hỗ trợ 15 ngôn ngữ (EN, FR, ES, DE, IT, PT, AR, RU, RO, JA, HE, HY, TR, HI, ZH), 500+ preset voice, instant voice cloning từ mẫu 3 giây. Giá khởi điểm $0.50 / audio-hour, free tier 10 phút. Audio ra raw / mp3 / wav, 8–48 kHz.

Điều gì tới tiếp

Benchmark này nhiều khả năng trở thành template cho các bản TTS launch kế tiếp: công bố audio samples cạnh con số, để dev có thể nghe thẳng vào sự khác biệt thay vì tin hoàn toàn vào metric. Với competitor, có ba kịch bản đáng theo dõi: (1) Artificial Analysis hoặc CodeSOTA đưa inline normalization thành một trục chấm độc lập trên leaderboard; (2) Inworld, ElevenLabs, Gemini Flash TTS công bố normalization numbers riêng; (3) các team đang build voice agent fintech/healthcare bắt đầu đưa sentence-level NSW accuracy vào vendor evaluation checklist.

Nhìn rộng hơn, benchmark này đóng một cuộc tranh cãi kéo dài nhiều năm trong cộng đồng TTS: đặt text normalization ở đâu — trước model hay bên trong model? Với streaming TTS cho voice agent, câu trả lời thực dụng từ Async là đưa nó vào trong. Latency budget không cho phép khác.

Nguồn: Sumanth on X, Async Voice API, Async latency benchmark, Vapi text normalization guide, NVIDIA NeMo text normalization.