TL;DR

Ngày 23/04/2026, Soniox ra mắt Text-to-Speech — chính thức khép lại cú pivot từ công ty STT đơn thuần sang một voice platform cho mọi ngôn ngữ. Giá $0.70/giờ giọng nói sinh ra, hỗ trợ 60+ ngôn ngữ chất lượng bản ngữ, không hallucinate, phát âm đúng số điện thoại / ID / tên riêng, và streaming độ trễ cực thấp cho voice agent thời gian thực. Với mức giá này, Soniox rẻ hơn OpenAI TTS chuẩn khoảng 10× và rẻ hơn ElevenLabs retail hai bậc độ lớn.

Soniox Text-to-Speech launch hero — Hello world waveform

Có gì mới

Trước đây Soniox là một trong những nhà cung cấp speech-to-text (STT) chính xác bậc nhất, đặc biệt mạnh ở real-time translation đa ngôn ngữ (Soniox v4 real-time vừa ra tháng 2/2026). Hôm nay họ công bố mảnh ghép còn thiếu: Text-to-Speech API dùng chung hạ tầng, SDK và compliance profile với STT.

Thông điệp chính từ founder: "Developers và doanh nghiệp giờ có thể làm việc với một nhà cung cấp duy nhất cho toàn bộ voice stack — speech-to-text, text-to-speech, multilingual voice, real-time infrastructure, regional deployments, và compliance."

Vì sao quan trọng

Voice đang trở thành interface chính của phần mềm — từ voice agent bán hàng, IVR ngân hàng, tới assistive tool. Nhưng voice stack toàn cầu hiện nay rất phân mảnh: dùng ElevenLabs cho chất giọng tiếng Anh, Google Cloud TTS cho tiếng Nhật/Hàn, OpenAI cho low-cost, và STT ở một nhà khác. Mỗi provider có compliance riêng, SLA riêng, giọng nói không đồng bộ.

Soniox tấn công đúng chỗ đau đó: một API, một billing, một SLA, đồng thời chốt luôn được ba yếu điểm kinh điển của TTS — hallucinate, đọc sai số/tên riêng, và độ trễ khi streaming.

Technical facts

  • 60+ ngôn ngữ chất lượng native-speaker: Việt, Anh, Trung, Nhật, Hàn, Arab, Hindi, Bengali, Albanian... tổng 60+ ngôn ngữ.
  • Hallucination-free: text đầu vào khớp audio đầu ra 1:1 — không bịa từ, không drop content, không thay thế bất ngờ.
  • Alphanumeric precision: đọc chính xác email, số điện thoại, địa chỉ, ID, mã xác thực — yếu điểm chết người của nhiều TTS khác khi dùng trong IVR/fintech.
  • Name pronunciation: xử lý tên người, địa danh, thương hiệu, từ mượn đúng ngữ điệu bản ngữ.
  • Language switching giữa câu: văn bản mixed-language được đọc liền mạch.
  • Ultra-low-latency streaming: bắt đầu generate audio ngay từ vài từ đầu tiên, không chờ hết câu.
  • 99.9% uptime SLA, compliance SOC 2 Type 2, ISO/IEC 27001:2022, HIPAA, GDPR. Audio chỉ nằm trong memory, xử lý real-time.

So sánh với ElevenLabs & OpenAI TTS

Với 1M ký tự ≈ 2 giờ giọng nói, mức giá quy đổi xấp xỉ:

ProviderGiá quy về $/giờNgôn ngữĐiểm mạnh
Soniox TTS$0.7060+Đa ngôn ngữ, số/tên chính xác, compliance
OpenAI TTS standard~$7.50 ($15/1M chars)~20Chất giọng tiếng Anh tốt
OpenAI TTS HD~$15.00 ($30/1M chars)~20Chất giọng cao cấp
ElevenLabs (Scale plan)~$82.50 ($330/2M chars)~30Voice cloning, chất giọng nghệ thuật

Soniox không cạnh tranh trực tiếp ở chất giọng "diễn xuất" kiểu ElevenLabs. Thay vào đó họ chọn trận địa khác: voice infrastructure cho sản phẩm toàn cầu — nơi chi phí trên mỗi giờ, độ chính xác số/tên riêng, và multilingual quan trọng hơn giọng kể chuyện.

Use cases

  • Voice agent & conversational AI — streaming đủ nhanh để phản hồi real-time.
  • Enterprise IVR & customer support — đọc số tài khoản, mã đơn hàng, OTP không nhầm.
  • Structured speech — PIN, verification code, địa chỉ đọc đúng từng ký tự.
  • Giao tiếp đa ngôn ngữ — cùng một API cho 60+ ngôn ngữ, chuyển ngữ giữa câu.
  • Accessibility — screen reader, captions-to-speech.
  • Media/content production — voiceover cho nội dung dubbed/localized.

Đối tượng hưởng lợi nhiều nhất: startup voice agent, fintech/healthcare/travel đa quốc gia, EdTech localization, và team accessibility.

Limitations & pricing

  • Giá: $0.70/giờ giọng nói sinh ra (flat). Cấu trúc token bên trong: $4.00/1M input text + $21.50/1M output audio. 1 giờ ≈ 30.000 audio tokens.
  • Trang pricing không công bố free tier, cũng chưa có volume discount công khai.
  • Regional availability hiện có: US, EU, Nhật. Sắp mở: Hàn Quốc, Úc, Canada, Ấn Độ, Saudi Arabia, UK, Brazil.
  • Launch materials không đề cập voice cloning — Soniox đi theo hướng giọng native cố định, không custom clone.
  • Chưa có end-user app cho TTS (khác với Soniox STT có app iOS/Android).

What's next

Roadmap tiếp theo tập trung vào mở rộng region (Hàn, Úc, Canada, Ấn Độ, Saudi, UK, Brazil) và deeper voice agent SDK. Python SDK đã có TTS support ngay từ ngày đầu. Về mặt chiến lược, Soniox đang đặt cược rằng thị trường voice sẽ hợp nhất về một provider cho toàn bộ stack — STT, TTS, translation, real-time infra, compliance, regional residency — thay vì pattern hiện tại là ghép 3-4 vendor.

Nếu bạn đang build voice product đa ngôn ngữ hoặc IVR cần đọc chính xác số/ID, Soniox TTS đáng thử ngay — mức giá $0.70/giờ gần như phá đáy thị trường.

Nguồn: Soniox blog, Soniox TTS product page, Soniox Pricing, Soniox launch tweet.