- xAI tung model flagship grok-voice-think-fast-1.0 cho voice agent: time-to-first-audio dưới 1 giây, nhanh gần 5× so với đối thủ gần nhất, #1 trên Big Bench Audio, giá phẳng $0.05/phút.
- Đã có mặt trên xAI Console và qua LiveKit plugin.
TL;DR
xAI vừa mở quyền truy cập Grok Voice Think Fast 1.0 (grok-voice-think-fast-1.0) trên xAI Console — một model voice-to-voice flagship dành cho việc xây voice agent production. Điểm nổi bật: time-to-first-audio dưới 1 giây, nhanh gần 5× so với đối thủ gần nhất, đứng đầu Big Bench Audio, giá phẳng $0.05/phút kết nối. API tương thích OpenAI Realtime và có plugin LiveKit chính thức.
What's new
Model mới được phát hành qua ba endpoint thuộc bộ Grok Audio:
/v1/realtime— Voice Agent API (WebSocket, voice-to-voice)/v1/tts— Text-to-Speech/v1/stt— Speech-to-Text
Theo nguồn tin đầu tiên từ testingcatalog, model giờ đã có trên xAI Console để test trực tiếp. Bộ khởi đầu gồm 5 giọng prebuilt: eve, ara, rex, sal, leo — phủ giọng nam, nữ và neutral, hỗ trợ 20+ ngôn ngữ với khả năng code-switching liền mạch và thẻ biểu cảm như [laugh], [sigh], <whisper>.
Why it matters
Cho đến gần đây, voice agent production vẫn phải ghép ba thành phần rời rạc: STT → LLM → TTS. Mỗi hop cộng thêm 200–400 ms độ trễ, và tone cảm xúc thường bị đánh mất giữa các chặng — bot "hiểu" từ, nhưng không hiểu người gọi đang bực hay đang vui. Grok Voice Think Fast 1.0 dùng kiến trúc voice-to-voice duy nhất: audio vào, audio ra, không trung chuyển qua text. xAI tự train từ đầu cả VAD, tokenizer và model audio để kiểm soát end-to-end độ trễ lẫn ngữ điệu. Kết quả: first-audio dưới 1 giây, đủ ngưỡng cho hội thoại tự nhiên mà người dùng không cảm thấy chờ — và tone cảm xúc được giữ nguyên từ input tới output.
Quan trọng không kém: API tương thích OpenAI Realtime. Nghĩa là team đang dùng OpenAI Realtime có thể đổi base URL, thử Grok Voice mà không phải rewrite voice pipeline. Đây là rào cản chuyển đổi gần như bằng không — một chiến thuật xAI dùng lặp lại trên mảng text API và giờ lặp lại trên voice.
Technical facts
| Chỉ số | Giá trị |
|---|---|
| Model ID | grok-voice-think-fast-1.0 |
| Time-to-first-audio | < 1 giây |
| Latency qua LiveKit | < 700 ms |
| Big Bench Audio rank | #1 |
| Ngôn ngữ | 20+ (voice agent) / 25 (STT) |
| Giọng prebuilt | 5 (eve, ara, rex, sal, leo) |
| Compliance | SOC 2 Type II · HIPAA eligible · GDPR |
Toàn bộ stack do xAI phát triển nội bộ — VAD, tokenizer và audio model đều được train from scratch, không dựa trên pipeline STT+TTS ghép rời.
Comparison
Trên phone-call entity recognition, Grok STT vượt hầu hết đối thủ chính:
| Provider | Word error rate (phone) |
|---|---|
| Grok STT | 5.0% |
| ElevenLabs | 12.0% |
| Deepgram | 13.5% |
| AssemblyAI | 21.3% |
Về latency voice-to-voice, xAI tuyên bố nhanh gần 5× so với competitor gần nhất. Đây là con số quyết định khi build voice agent telephony — ngưỡng 700 ms là giới hạn mà người gọi không còn cảm thấy "bot đang nghĩ".
Use cases
- Customer service qua điện thoại — SIP inbound/outbound, G.711, tone detection
- Healthcare & therapy — companion + mental health support (có HIPAA eligibility)
- Education — language learning với code-switching tự nhiên
- Sales & recruiting — qualify lead tự động, tool calling ra CRM/ATS
- In-car & embedded — Tesla đã dùng production; ESP32 SDK sẵn sàng cho device makers
Stack nền đã được validate ở quy mô lớn: cùng một hệ thống đang phục vụ hàng triệu người dùng Grok mobile, Tesla vehicles và Starlink customer support. Đây không phải beta xuất xưởng — là công nghệ production được bóc tách ra cho developer truy cập.
Limitations & pricing
- Voice Agent API: $0.05 / phút kết nối (flat rate)
- STT: $0.10/giờ batch, $0.20/giờ streaming
- TTS: $4.20 / 1M ký tự
- REST TTS giới hạn 15,000 ký tự/request (WebSocket không giới hạn)
- STT file tối đa 500 MB, 12 định dạng
- Plugin Node.js cho LiveKit chưa GA — hiện chỉ có Python SDK
- Chưa có voice cloning công khai — mới dừng ở 5 giọng prebuilt
What's next
xAI đã lộ diện mốc tiếp theo: plugin LiveKit Node.js, mở rộng ngôn ngữ (đang có 20+, chưa phủ hết thị trường APAC), và khả năng custom voice training — hiện chỉ gợi ý chưa cam kết thời gian. Với đà launch liên tục (Voice Agent tháng 12/2025 → STT/TTS standalone tháng 4/2026 → Console access ngay bây giờ), xAI đang khép kín stack audio tốc độ đáng nể.
Đối với developer: nếu bạn đang build voice agent 2026, Grok Voice Think Fast 1.0 đáng để spike ngay. Độ trễ dưới 1 giây + giá $0.05/phút + OpenAI Realtime compatibility là một tổ hợp khó bỏ qua. Rủi ro chính: lock-in vào 5 giọng prebuilt và phụ thuộc roadmap ngôn ngữ của xAI — nếu sản phẩm của bạn target thị trường Đông Nam Á hoặc cần voice cloning custom, hãy verify ngôn ngữ trước khi commit.
Nguồn: xAI News, xAI Docs, LiveKit, MarkTechPost.