- Soniox vừa công bố Soniox Text-to-Speech vào 23/04/2026 — hoàn tất cú chuyển mình từ công ty STT thành voice platform đầy đủ.
- $0.70/giờ giọng nói, 60+ ngôn ngữ chất lượng bản ngữ, không hallucinate, phát âm đúng số điện thoại, tên riêng và chuyển ngôn ngữ giữa câu.
TL;DR
Ngày 23/04/2026, Soniox ra mắt Text-to-Speech — chính thức khép lại cú pivot từ công ty STT đơn thuần sang một voice platform cho mọi ngôn ngữ. Giá $0.70/giờ giọng nói sinh ra, hỗ trợ 60+ ngôn ngữ chất lượng bản ngữ, không hallucinate, phát âm đúng số điện thoại / ID / tên riêng, và streaming độ trễ cực thấp cho voice agent thời gian thực. Với mức giá này, Soniox rẻ hơn OpenAI TTS chuẩn khoảng 10× và rẻ hơn ElevenLabs retail hai bậc độ lớn.

Có gì mới
Trước đây Soniox là một trong những nhà cung cấp speech-to-text (STT) chính xác bậc nhất, đặc biệt mạnh ở real-time translation đa ngôn ngữ (Soniox v4 real-time vừa ra tháng 2/2026). Hôm nay họ công bố mảnh ghép còn thiếu: Text-to-Speech API dùng chung hạ tầng, SDK và compliance profile với STT.
Thông điệp chính từ founder: "Developers và doanh nghiệp giờ có thể làm việc với một nhà cung cấp duy nhất cho toàn bộ voice stack — speech-to-text, text-to-speech, multilingual voice, real-time infrastructure, regional deployments, và compliance."
Vì sao quan trọng
Voice đang trở thành interface chính của phần mềm — từ voice agent bán hàng, IVR ngân hàng, tới assistive tool. Nhưng voice stack toàn cầu hiện nay rất phân mảnh: dùng ElevenLabs cho chất giọng tiếng Anh, Google Cloud TTS cho tiếng Nhật/Hàn, OpenAI cho low-cost, và STT ở một nhà khác. Mỗi provider có compliance riêng, SLA riêng, giọng nói không đồng bộ.
Soniox tấn công đúng chỗ đau đó: một API, một billing, một SLA, đồng thời chốt luôn được ba yếu điểm kinh điển của TTS — hallucinate, đọc sai số/tên riêng, và độ trễ khi streaming.
Technical facts
- 60+ ngôn ngữ chất lượng native-speaker: Việt, Anh, Trung, Nhật, Hàn, Arab, Hindi, Bengali, Albanian... tổng 60+ ngôn ngữ.
- Hallucination-free: text đầu vào khớp audio đầu ra 1:1 — không bịa từ, không drop content, không thay thế bất ngờ.
- Alphanumeric precision: đọc chính xác email, số điện thoại, địa chỉ, ID, mã xác thực — yếu điểm chết người của nhiều TTS khác khi dùng trong IVR/fintech.
- Name pronunciation: xử lý tên người, địa danh, thương hiệu, từ mượn đúng ngữ điệu bản ngữ.
- Language switching giữa câu: văn bản mixed-language được đọc liền mạch.
- Ultra-low-latency streaming: bắt đầu generate audio ngay từ vài từ đầu tiên, không chờ hết câu.
- 99.9% uptime SLA, compliance SOC 2 Type 2, ISO/IEC 27001:2022, HIPAA, GDPR. Audio chỉ nằm trong memory, xử lý real-time.
So sánh với ElevenLabs & OpenAI TTS
Với 1M ký tự ≈ 2 giờ giọng nói, mức giá quy đổi xấp xỉ:
| Provider | Giá quy về $/giờ | Ngôn ngữ | Điểm mạnh |
|---|---|---|---|
| Soniox TTS | $0.70 | 60+ | Đa ngôn ngữ, số/tên chính xác, compliance |
| OpenAI TTS standard | ~$7.50 ($15/1M chars) | ~20 | Chất giọng tiếng Anh tốt |
| OpenAI TTS HD | ~$15.00 ($30/1M chars) | ~20 | Chất giọng cao cấp |
| ElevenLabs (Scale plan) | ~$82.50 ($330/2M chars) | ~30 | Voice cloning, chất giọng nghệ thuật |
Soniox không cạnh tranh trực tiếp ở chất giọng "diễn xuất" kiểu ElevenLabs. Thay vào đó họ chọn trận địa khác: voice infrastructure cho sản phẩm toàn cầu — nơi chi phí trên mỗi giờ, độ chính xác số/tên riêng, và multilingual quan trọng hơn giọng kể chuyện.
Use cases
- Voice agent & conversational AI — streaming đủ nhanh để phản hồi real-time.
- Enterprise IVR & customer support — đọc số tài khoản, mã đơn hàng, OTP không nhầm.
- Structured speech — PIN, verification code, địa chỉ đọc đúng từng ký tự.
- Giao tiếp đa ngôn ngữ — cùng một API cho 60+ ngôn ngữ, chuyển ngữ giữa câu.
- Accessibility — screen reader, captions-to-speech.
- Media/content production — voiceover cho nội dung dubbed/localized.
Đối tượng hưởng lợi nhiều nhất: startup voice agent, fintech/healthcare/travel đa quốc gia, EdTech localization, và team accessibility.
Limitations & pricing
- Giá: $0.70/giờ giọng nói sinh ra (flat). Cấu trúc token bên trong: $4.00/1M input text + $21.50/1M output audio. 1 giờ ≈ 30.000 audio tokens.
- Trang pricing không công bố free tier, cũng chưa có volume discount công khai.
- Regional availability hiện có: US, EU, Nhật. Sắp mở: Hàn Quốc, Úc, Canada, Ấn Độ, Saudi Arabia, UK, Brazil.
- Launch materials không đề cập voice cloning — Soniox đi theo hướng giọng native cố định, không custom clone.
- Chưa có end-user app cho TTS (khác với Soniox STT có app iOS/Android).
What's next
Roadmap tiếp theo tập trung vào mở rộng region (Hàn, Úc, Canada, Ấn Độ, Saudi, UK, Brazil) và deeper voice agent SDK. Python SDK đã có TTS support ngay từ ngày đầu. Về mặt chiến lược, Soniox đang đặt cược rằng thị trường voice sẽ hợp nhất về một provider cho toàn bộ stack — STT, TTS, translation, real-time infra, compliance, regional residency — thay vì pattern hiện tại là ghép 3-4 vendor.
Nếu bạn đang build voice product đa ngôn ngữ hoặc IVR cần đọc chính xác số/ID, Soniox TTS đáng thử ngay — mức giá $0.70/giờ gần như phá đáy thị trường.
Nguồn: Soniox blog, Soniox TTS product page, Soniox Pricing, Soniox launch tweet.

