- Cartesia Sonic-3 đạt 90ms time-to-first-audio, nhanh hơn đối thủ gần nhất 4 lần nhờ kiến trúc State Space Models.
- Tags cảm xúc như [laugh] tạo ra âm thanh thật, nhưng accent brackets như [Yorkshire accent] không hoạt động.
- Trick: viết giọng nói thẳng vào văn bản - "Reet, listen oop" cho Yorkshire hiệu quả hơn bất kỳ bracket nào.
TL;DR
Cartesia Sonic-3 là TTS engine real-time đầu tiên thực sự làm được ba thứ cùng lúc: latency 90ms, emotional steering có tiếng cười thật, và 42 ngôn ngữ. Nhưng accent brackets không hoạt động - cách đúng là viết phonetics thẳng vào script.

Real-time là thật - 90ms không phải marketing
Hầu hết các TTS engine quảng cáo "real-time" nhưng thực tế latency vẫn ở mức 300-500ms - đủ để người nghe cảm nhận được độ trễ. Cartesia Sonic-3 phá vỡ điều đó với 90ms time-to-first-audio, duy trì ổn định từ P50 đến P99 trên toàn cầu.
Bí quyết nằm ở kiến trúc. Thay vì Transformer - vốn phải đọc lại toàn bộ lịch sử cuộc hội thoại mỗi lần generate - Sonic-3 dùng State Space Models (SSMs). SSMs chỉ lưu giữ "vibe" của cuộc trò chuyện, không re-read toàn bộ context. Kết quả: tốc độ tăng gấp 4 lần so với đối thủ gần nhất, nhưng vẫn giữ được sắc thái cảm xúc.
Về chất lượng âm thanh: 44,100 Hz PCM 16-bit, hỗ trợ điều chỉnh tốc độ 0.6-1.5x và âm lượng 0.5-2.0x. Trong bài đánh giá độc lập của Hume AI, Sonic-3 đạt 3.55/5 - thấp hơn ElevenLabs v3 (3.94) và Gemini 2.5 Pro (3.95), nhưng khoảng cách chất lượng này đáng đổi lấy latency thấp hơn nhiều lần.
Emotional steering trong thực tế
Đây là tính năng phân biệt Sonic-3 với phần còn lại. Thay vì chỉ "đoán" cảm xúc từ context văn bản, developer có thể ra lệnh trực tiếp qua generation_config.emotion:
- neutral, angry, excited, content, sad, scared - 6 trạng thái nền
- 50+ emotion descriptor để fine-tune
- Tag
[laughter]tạo ra tiếng cười thật, không phải synthesized laughter giả tạo
Cách hiểu đúng: emotional steering hoạt động như đạo diễn chỉ đạo diễn viên. Tuy nhiên có một lưu ý quan trọng - nếu ép tag cảm xúc không khớp với nội dung văn bản, kết quả sẽ tệ. Nói "Tôi rất buồn" với emotion: excited sẽ ra âm thanh lạ. Tags chỉ hiệu quả khi emotion và nội dung nhất quán.
So sánh với ElevenLabs: ElevenLabs hiện tại chỉ suy luận cảm xúc từ cách viết văn bản (dấu chấm than, dấu ngoặc kép, cách ngắt câu) và không đảm bảo kết quả. ElevenLabs đang có roadmap thêm emotion control trực tiếp - tức là Cartesia đang đi trước.
Accent trick: khi brackets thất bại
Đây là phát hiện thực tế đáng để developer ghi nhớ. Nhiều người thử các prompt như:
[Yorkshire accent]- không hoạt động[as Morgan Freeman]- không hoạt động[speak with British accent]- kết quả không nhất quán
Brackets kiểu này không được Cartesia document và thực tế không có tác dụng. Nhưng có một cách khác hiệu quả hơn nhiều: viết phonetics của accent thẳng vào văn bản.
Ví dụ cho Yorkshire accent:
"Reet, listen oop, we've 'ad it wi' this nonsense"
Thay vì:
"[Yorkshire accent] Right, listen up, we've had it with this nonsense"
Cách viết phonetics hoạt động vì model học từ văn bản có chứa các pattern phát âm thực tế. Khi gặp "oop" thay vì "up" hay "'ad" thay vì "had", model hiểu đây là dialect và điều chỉnh prosody phù hợp. Đây là một trong những insight thực dụng nhất khi làm việc với TTS - không phải đặc thù Cartesia mà áp dụng được cho hầu hết các engine.
Numbers: Sonic-3 đứng ở đâu?
| Model | Score (Hume AI) | Latency | Emotion control |
|---|---|---|---|
| Gemini 2.5 Pro | 3.95 | ~200ms+ | Contextual |
| ElevenLabs v3 | 3.94 | ~150ms | Contextual |
| Inworld 1.5 Max | 3.74 | ~180ms | Contextual |
| OpenAI GPT-4o-TTS | 3.70 | ~200ms | Contextual |
| Cartesia Sonic-3 | 3.55 | 90ms | Direct API |
| Deepgram Aura 2 | 3.37 | ~120ms | Limited |
Sonic-3 không dẫn đầu về chất lượng cảm nhận, nhưng là lựa chọn duy nhất có cả latency < 100ms lẫn direct emotion control cùng lúc. Đây là combo quan trọng với các ứng dụng cần voice agent phản ứng tức thì.
Ai nên dùng - và pricing thực tế
Sonic-3 là cái miệng, không phải bộ não. Nó không tự hiểu câu hỏi, không truy xuất knowledge base, không điều phối workflow. Developer cần tự kết nối với LLM và logic xử lý riêng.
Phù hợp nhất với:
- Voice agent cho customer support (đặt vé, xử lý khiếu nại)
- Healthcare: lịch hẹn, tư vấn quyền lợi bệnh nhân
- Gaming: NPC với phản ứng cảm xúc real-time
- AI companion cần natural speech
- Sản phẩm cần deploy đa ngôn ngữ (42 languages, 9 tiếng Ấn Độ)
Pricing:
- Free: $0/tháng, 20K credits (personal use)
- Pro: $5/tháng, 100K credits + instant voice cloning + commercial license
- Startup: $49/tháng, 1.25M credits + pro voice cloning
- Scale: $299/tháng, 8M credits + priority support
- Enterprise: custom pricing, SOC 2 Type II, HIPAA, PCI Level 1
Roadmap và những gì chưa có
Hiện tại chỉ có [laughter] hoạt động. Cartesia xác nhận sẽ thêm [sigh] và [cough] trong các bản tiếp theo, nhưng chưa có ETA cụ thể. [yawn] chưa được đề cập.
Speed và volume trên sonic-3.5 đang bị tắt tạm thời và sẽ được re-enable sớm. Với việc ElevenLabs đang theo sau với emotion control API, 2026 sẽ là cuộc đua thú vị.
Để thử: playground miễn phí tại cartesia.ai, API docs tại docs.cartesia.ai.
Nguồn: Cartesia Sonic-3, Cartesia Docs, @lucatac0 on X.
![Cartesia Sonic-3: Real-time thật sự, [laugh] hoạt động, và trick viết accent vào text](/_next/image?url=https%3A%2F%2Fblue-sky-ideas.mated.dev%2Fuploads%2F1778095269498-25ee525398011d86.webp&w=3840&q=75)