Cartesia Sonic-3: Real-time thật sự, [laugh] hoạt động, và trick viết accent vào text

TL;DR

Cartesia Sonic-3 là TTS engine real-time đầu tiên thực sự làm được ba thứ cùng lúc: latency 90ms, emotional steering có tiếng cười thật, và 42 ngôn ngữ. Nhưng accent brackets không hoạt động - cách đúng là viết phonetics thẳng vào script.

Cartesia Sonic-3 voice AI visualization

Real-time là thật - 90ms không phải marketing

Hầu hết các TTS engine quảng cáo "real-time" nhưng thực tế latency vẫn ở mức 300-500ms - đủ để người nghe cảm nhận được độ trễ. Cartesia Sonic-3 phá vỡ điều đó với 90ms time-to-first-audio, duy trì ổn định từ P50 đến P99 trên toàn cầu.

Bí quyết nằm ở kiến trúc. Thay vì Transformer - vốn phải đọc lại toàn bộ lịch sử cuộc hội thoại mỗi lần generate - Sonic-3 dùng State Space Models (SSMs). SSMs chỉ lưu giữ "vibe" của cuộc trò chuyện, không re-read toàn bộ context. Kết quả: tốc độ tăng gấp 4 lần so với đối thủ gần nhất, nhưng vẫn giữ được sắc thái cảm xúc.

Về chất lượng âm thanh: 44,100 Hz PCM 16-bit, hỗ trợ điều chỉnh tốc độ 0.6-1.5x và âm lượng 0.5-2.0x. Trong bài đánh giá độc lập của Hume AI, Sonic-3 đạt 3.55/5 - thấp hơn ElevenLabs v3 (3.94) và Gemini 2.5 Pro (3.95), nhưng khoảng cách chất lượng này đáng đổi lấy latency thấp hơn nhiều lần.

Emotional steering trong thực tế

Đây là tính năng phân biệt Sonic-3 với phần còn lại. Thay vì chỉ "đoán" cảm xúc từ context văn bản, developer có thể ra lệnh trực tiếp qua generation_config.emotion:

neutral, angry, excited, content, sad, scared - 6 trạng thái nền
50+ emotion descriptor để fine-tune
Tag [laughter] tạo ra tiếng cười thật, không phải synthesized laughter giả tạo

Cách hiểu đúng: emotional steering hoạt động như đạo diễn chỉ đạo diễn viên. Tuy nhiên có một lưu ý quan trọng - nếu ép tag cảm xúc không khớp với nội dung văn bản, kết quả sẽ tệ. Nói "Tôi rất buồn" với emotion: excited sẽ ra âm thanh lạ. Tags chỉ hiệu quả khi emotion và nội dung nhất quán.

So sánh với ElevenLabs: ElevenLabs hiện tại chỉ suy luận cảm xúc từ cách viết văn bản (dấu chấm than, dấu ngoặc kép, cách ngắt câu) và không đảm bảo kết quả. ElevenLabs đang có roadmap thêm emotion control trực tiếp - tức là Cartesia đang đi trước.

Accent trick: khi brackets thất bại

Đây là phát hiện thực tế đáng để developer ghi nhớ. Nhiều người thử các prompt như:

[Yorkshire accent] - không hoạt động
[as Morgan Freeman] - không hoạt động
[speak with British accent] - kết quả không nhất quán

Brackets kiểu này không được Cartesia document và thực tế không có tác dụng. Nhưng có một cách khác hiệu quả hơn nhiều: viết phonetics của accent thẳng vào văn bản.

Ví dụ cho Yorkshire accent:

"Reet, listen oop, we've 'ad it wi' this nonsense"

Thay vì:

"[Yorkshire accent] Right, listen up, we've had it with this nonsense"

Cách viết phonetics hoạt động vì model học từ văn bản có chứa các pattern phát âm thực tế. Khi gặp "oop" thay vì "up" hay "'ad" thay vì "had", model hiểu đây là dialect và điều chỉnh prosody phù hợp. Đây là một trong những insight thực dụng nhất khi làm việc với TTS - không phải đặc thù Cartesia mà áp dụng được cho hầu hết các engine.

Numbers: Sonic-3 đứng ở đâu?

Model	Score (Hume AI)	Latency	Emotion control
Gemini 2.5 Pro	3.95	~200ms+	Contextual
ElevenLabs v3	3.94	~150ms	Contextual
Inworld 1.5 Max	3.74	~180ms	Contextual
OpenAI GPT-4o-TTS	3.70	~200ms	Contextual
Cartesia Sonic-3	3.55	90ms	Direct API
Deepgram Aura 2	3.37	~120ms	Limited

Sonic-3 không dẫn đầu về chất lượng cảm nhận, nhưng là lựa chọn duy nhất có cả latency < 100ms lẫn direct emotion control cùng lúc. Đây là combo quan trọng với các ứng dụng cần voice agent phản ứng tức thì.

Ai nên dùng - và pricing thực tế

Sonic-3 là cái miệng, không phải bộ não. Nó không tự hiểu câu hỏi, không truy xuất knowledge base, không điều phối workflow. Developer cần tự kết nối với LLM và logic xử lý riêng.

Phù hợp nhất với:

Voice agent cho customer support (đặt vé, xử lý khiếu nại)
Healthcare: lịch hẹn, tư vấn quyền lợi bệnh nhân
Gaming: NPC với phản ứng cảm xúc real-time
AI companion cần natural speech
Sản phẩm cần deploy đa ngôn ngữ (42 languages, 9 tiếng Ấn Độ)

Pricing:

Free: $0/tháng, 20K credits (personal use)
Pro: $5/tháng, 100K credits + instant voice cloning + commercial license
Startup: $49/tháng, 1.25M credits + pro voice cloning
Scale: $299/tháng, 8M credits + priority support
Enterprise: custom pricing, SOC 2 Type II, HIPAA, PCI Level 1

Roadmap và những gì chưa có

Hiện tại chỉ có [laughter] hoạt động. Cartesia xác nhận sẽ thêm [sigh] và [cough] trong các bản tiếp theo, nhưng chưa có ETA cụ thể. [yawn] chưa được đề cập.

Speed và volume trên sonic-3.5 đang bị tắt tạm thời và sẽ được re-enable sớm. Với việc ElevenLabs đang theo sau với emotion control API, 2026 sẽ là cuộc đua thú vị.

Để thử: playground miễn phí tại cartesia.ai, API docs tại docs.cartesia.ai.

Nguồn: Cartesia Sonic-3, Cartesia Docs, @lucatac0 on X.