TL;DR

Trong vòng 4 tháng, xAI đã release đủ 3 voice API: Voice Agent (real-time speech-to-speech, Dec 2025), Text-to-Speech standalone (Mar 2026), và Speech-to-Text Beta (Apr 2026). Cả ba đều dùng chung stack in-house do xAI tự train từ VAD, tokenizer cho tới audio model. Hệ quả:

  • $0.05 / phút Voice Agent — bằng nửa giá ElevenLabs Agents ($0.088), Deepgram ($0.08), OpenAI Realtime (~$0.10+).
  • 92.3% Big Bench Audio — đứng #1 về speech reasoning, vượt Gemini 2.5 Flash Native Audio Dialog (Thinking) và OpenAI Realtime Aug 2025.
  • 0.78s time-to-first-audio — dưới ngưỡng 1s mà tai người cảm nhận là “trễ”.
  • TTS có speech tags nhúng thẳng trong text ([laugh], [pause], <whisper>...</whisper>) — không cần SSML, không cần model riêng.
  • OpenAI Realtime API spec compatible — migrate gần như chỉ cần đổi base URL.

Audio Input/Output pricing chart from Artificial Analysis showing Grok Voice Agent at $3 per hour both ways vs OpenAI ChatCompletions at $14.40

What’s new

Tweet viral của @cb_doge không phóng đại: cả ba API audio của Grok hiện tại vừa rẻ nhất, vừa nhanh nhất, vừa thông minh nhất ở mảng speech reasoning. Roadmap khởi đầu từ ngày 17/12/2025 với Grok Voice Agent API — sản phẩm dựa trên cùng stack đã chạy production trên hàng triệu xe Tesla. Đến 17/3/2026, xAI tách standalone TTS endpoint tại /v1/tts; và hiện tại Speech-to-Text endpoint /v1/stt đã liệt kê công khai trên trang docs với 25 ngôn ngữ, hỗ trợ batch + streaming + bidirectional.

Khác biệt lớn nhất so với ElevenLabs hay OpenAI: xAI tự build toàn bộ voice stack — VAD (voice activity detection), audio tokenizer và core audio model — không lắp ghép từ vendor thứ ba. Toàn quyền kiểm soát stack giúp họ giảm latency và đẩy giá xuống mức không đối thủ nào theo nổi trong ngắn hạn.

Why it matters

Voice AI 2024-2025 bị mắc kẹt ở 3 vấn đề: latency cao (1.5s+), giá đắt ($0.10-0.14/min), và quality kém ở non-English. Grok giải quyết cả ba cùng lúc, lại còn tương thích spec OpenAI Realtime — nghĩa là một startup đang chạy GPT-4o Realtime có thể switch trong vài giờ và cắt 50% chi phí mà không phải refactor.

Với phone agent, contact center, IVR, voice-first SaaS, voice tutor — đây là khoảnh khắc rate cards của cả industry phải viết lại. ElevenLabs đã giữ vị thế “voice premium” suốt 2 năm; OpenAI Realtime kiếm tiền nhờ thiếu cạnh tranh. Cả hai vừa mất lợi thế đó trong một quý.

Technical facts

Big Bench Audio benchmark chart from Artificial Analysis showing Grok Voice Agent ranked #1 with 92.3 percent speech reasoning accuracy

CapabilityVoice Agent APITTS BetaSTT Beta
Endpointwss://api.x.ai/v1/realtimePOST /v1/tts + wss://api.x.ai/v1/ttsPOST /v1/stt + streaming
Pricing$0.05 / min ($3 / hr)$4.20 / 1M chars$0.10 / hr batch · $0.20 / hr streaming
Languages100+ (auto-detect, code-switch)20 (Hindi, Bengali, Vietnamese, 3 Arabic dialects)25 (medical, legal, financial jargon)
VoicesEve, Ara, Rex, Sal, LeoEve, Ara, Rex, Sal, Leon/a
CodecsWebSocket realtimeMP3, WAV, PCM, µ-law, A-law (8–48 kHz)MP3, WAV, MP4, OGG, FLAC, M4A
Rate limits100 sessions / team3000 rpm, 50 rps, 100 sessions600 rpm, 10 rps, 100 sessions

Speech tags là feature bị đánh giá thấp nhất nhưng có ROI cao nhất. Thay vì pipeline SSML phức tạp, developer nhúng trực tiếp <whisper>đây là bí mật</whisper> hoặc [laugh] thật không tin nổi! [pause] khá hay đấy. vào text input. Inline tags ([pause], [laugh], [sigh], [breath]) phát đúng vị trí; wrapping tags (<slow>, <soft>) đổi delivery cả phrase. Không cần API param phụ.

Comparison

Time to first audio chart showing Grok Voice Agent at 0.78 seconds, third fastest after Gemini 2.5 Flash Native Audio Dialog at 0.63s and Gemini 2.5 Flash Live at 0.64s

Provider$ / minSpeech reasoningTTFA
Grok Voice Agent$0.0592.3%0.78s
Gemini 2.5 Flash Native Audio (Thinking)~$1.7492.1%3.87s
Deepgram$0.08
ElevenLabs Agents$0.088
OpenAI Realtime API~$0.10+ (token-based)83% (Aug 2025)0.98–1.49s
Bland AI$0.14

Lưu ý fair: theo dataset Artificial Analysis, Grok đứng thứ 3 về raw time-to-first-audio (0.78s), sau Gemini 2.5 Flash Native Audio Dialog (0.63s) và Flash Live (0.64s). Tuy nhiên cả hai Gemini đều đắt hơn rất nhiều và Gemini Thinking có TTFA tận 3.87s. Trong category “giá rẻ + thông minh + đủ nhanh”, Grok không có đối thủ.

Blind human eval cho thấy Grok thắng OpenAI Realtime ở pronunciation/accent/prosody 7/7 ngôn ngữ test: EN 54.3%, ES 67.2%, DE 48.9%, RU 85.4%, VI 66.7%, HI 56.2%, JA 34.2%.

Use cases

  • Phone agent & contact center: native G.711 µ-law/A-law @ 8 kHz — cắm thẳng SIP, Twilio, Vonage, Pipecat, Voximplant. Không cần transcoding layer.
  • Tesla automotive: Grok Voice đã chạy production trên hàng triệu xe Tesla cho navigation, vehicle status, route planning — thực địa chứng minh ổn định.
  • Medical/legal/financial: SOC 2 Type II + HIPAA Eligible (BAA available) + GDPR; STT trained để nhận diện chính xác thuật ngữ chuyên ngành, tên thuốc, mã hồ sơ.
  • Customer support: voice ara (warm, friendly) được tune riêng cho onboarding/support; tool calling vào CRM, calendar, database mid-conversation.
  • Podcast & content: TTS xuất WAV 48 kHz/192 kbps + speech tags để generate audiobook, e-learning narration; voice sal cho podcast, leo cho instructional.
  • Apps đa ngôn ngữ: auto-detect + code-switch giữa câu — xử lý Hinglish, “Vietglish” mà không cần language detection server-side.

Limitations & pricing

  • TTS + STT vẫn ở Beta — xAI ghi rõ “pricing and rate limits may change” khi GA. Lập kế hoạch chi phí dài hạn nên có buffer.
  • POST /v1/tts giới hạn 15,000 ký tự / request, timeout 15 phút. Content dài cần dùng WebSocket.
  • WebSocket session TTL 600 giây — multi-turn trong session OK, nhưng phải reconnect cho session dài hơn.
  • Raw codec (PCM, µ-law, A-law) không play được trực tiếp trên browser. Web app phải dùng MP3/WAV.
  • TTS cover 20 ngôn ngữ, STT 25, Voice Agent quảng cáo 100+ — mismatch khá lớn. Ngôn ngữ ngoài list vẫn chạy nhưng “varying accuracy”.

What’s next

Theo announcement gốc, xAI sắp ship: audio model thế hệ mới với pronunciation chuẩn hơn + latency thấp hơn nữa, mở rộng language coverage cho TTS lên ngang STT, và GA pricing. Câu hỏi thực sự không phải “Grok có nhanh hơn nữa không” mà là “ElevenLabs, Deepgram, OpenAI sẽ phản ứng thế nào trong Q2-Q3 2026”. Nếu họ không hạ giá ít nhất 40% và đẩy chất lượng non-English, market share sẽ chảy nhanh.

Với indie hacker và team nhỏ đang build voice product: cơ hội ở đây là chi phí infrastructure giảm 50%, đủ để biến những use case trước đây không khả thi (voice tutor, AI receptionist 24/7, multilingual phone agent) thành sản phẩm có biên lợi nhuận lành mạnh ngay từ MVP.

Nguồn: x.ai/news, docs.x.ai, adwaitx.com, realifeai.com.