- xAI ra mắt grok-voice-think-fast-1.0 và lên #1 trên τ-voice Bench của Sierra với 67.3% overall, 62.3% retail, 66% airline và 73.7% telecom — gấp đôi GPT Realtime 1.5 và Gemini 3.1 Flash Live ở domain khó nhất.
- Dưới đây là full context, số liệu, và giới hạn.
TL;DR
Ngày 23/04/2026, xAI ra mắt grok-voice-think-fast-1.0 — flagship voice agent mới, ngay lập tức chiếm #1 trên τ-voice Bench (benchmark của Sierra đánh giá voice agent trong điều kiện thực: noise, accent, interruption, turn-taking).
- Overall: 67.3% — bỏ xa Gemini 3.1 Flash Live (43.8%) và GPT Realtime 1.5 (35.3%)
- Retail: 62.3% · Airline: 66% · Telecom: 73.7%
- Ở telecom, Grok cao hơn GPT Realtime 3.5 lần (73.7% vs 21.1%)
- Đang chạy production tại Starlink với 28 tool, 20% conversion rate, 70% autonomous resolution
Có gì mới
Grok Voice Think Fast 1.0 là model voice đầu tiên xAI định vị cho workflow phức tạp, đa bước, mơ hồ — thay vì chỉ chat voice như thế hệ trước. Model chạy reasoning song song ở background, cho phép suy luận qua edge case mà không làm tăng độ trễ phản hồi. Đây là điểm khác biệt kỹ thuật lớn so với các realtime model khác vốn phải chọn giữa "nhanh" hoặc "thông minh".
Bên cạnh model mới, xAI cũng đã public Grok STT và TTS API standalone từ 18/04, tạo ra full stack voice cho enterprise.
Tại sao điều này quan trọng
Benchmark τ-voice (do Sierra phát triển, mở rộng từ τ²-Bench) là benchmark voice agent thực tế nhất hiện tại — nó mô phỏng cuộc gọi thật: người dùng có accent, gọi từ quán cà phê ồn, kết nối kém, phone line nén. Trước Grok Voice Think Fast, best voice agent chỉ đạt 38% task completion trong điều kiện realistic — so với 85% của text SOTA. Voice agent giữ được chưa tới một nửa năng lực text.
Grok đẩy overall lên 67.3%, tiến gần hơn text SOTA đáng kể, và đặc biệt mở khoá telecom — domain trước đây không một voice model nào vượt 22%.
Số liệu kỹ thuật
- Reasoning latency: zero added — background reasoning không làm chậm turn response
- Tool calling: 28 tool đồng thời trong 1 agent Starlink (hardware troubleshooting, appointment booking, service credits)
- Languages: 25+ ngôn ngữ native support
- STT error rate (entity recognition trên phone call): 5.0% — so với ElevenLabs 12.0%, Deepgram 13.5%, AssemblyAI 21.3%
- Voices: 5 (Ara, Eve, Leo, Rex, Sal) + speech tags
[laugh],[sigh],<whisper> - Pricing: Grok Voice Agent API $0.05/phút · STT $0.10/hr batch, $0.20/hr streaming · TTS $4.20/1M ký tự
- Interaction quality: 57% selectivity, 84% interrupt rate
So sánh với competitor
Điểm τ-voice Bench trong điều kiện realistic (noise + accent + interruption + turn-taking):
| Domain | Grok Voice Think Fast 1.0 | Grok Voice Fast 1.0 | Gemini 3.1 Flash Live | GPT Realtime 1.5 |
|---|---|---|---|---|
| Overall | 67.3% | 38.3% | 43.8% | 35.3% |
| Retail | 62.3% | 45.6% | 44.7% | 38.6% |
| Airline | 66% | 64% | 40% | 36% |
| Telecom | 73.7% | 40.4% | 21.9% | 21.1% |
Telecom là domain khó nhất (plan change, billing dispute, technical troubleshooting) — Grok là voice agent đầu tiên vượt mốc 50%, thậm chí gần 74%.
Use case thực tế
xAI công bố case study rõ nhất là Starlink — đang dùng Grok Voice cho phone sales và support tại +1 (888) GO STARLINK:
- 20% conversion rate — cứ 5 sales inquiry thì 1 khách chốt mua ngay trên điện thoại
- 70% resolution rate — đa số support case được giải quyết tự động, không human-in-loop
- 28 tool trong 1 agent, bao gồm: troubleshoot hardware, issue replacement, grant service credit, book appointment, onboarding khách mới
Target thị trường: customer support, phone sales, appointment booking, IVR replacement, call center deflection, multilingual global deployment.
Giới hạn & pricing
Dù #1 leaderboard, Grok Voice vẫn có weakness rõ rệt khi phân tích failure mode (từ phân tích τ-voice của Arun Baby):
- Accent gap -18pp: task completion rớt 18 điểm với non-native accent. Google chỉ rớt 2pp. Nghĩa là model đang fail khoảng 1/5 user nói tiếng Anh không phải bản ngữ.
- Interrupt rate 84%: model nói đè lên user 84% turn — cao nhất trong nhóm test (Google 21%, OpenAI không công bố).
- Authentication bottleneck: nếu agent nghe sai tên/email, cascade hỏng toàn bộ downstream workflow.
- Voice agent tốt nhất (xAI 38% realistic Pass@1 trong run của Arun Baby) vẫn chỉ giữ được ~45% năng lực text SOTA (85%).
Pricing: Grok Voice Agent API $0.05/phút. Standalone STT $0.10/hr batch, $0.20/hr streaming. TTS $4.20 / 1 triệu ký tự.
Điều gì tiếp theo
xAI đang dùng dữ liệu production từ Starlink (nhiều ngôn ngữ, nhiều accent, nhiều scenario khó) để tiếp tục tune model. Hai hướng cải thiện rõ nhất theo τ-voice: (1) thu hẹp accent gap để ngang Google, (2) giảm interrupt rate từ 84% xuống dưới 50% trong khi giữ selectivity ≥57%.
Với pricing $0.05/phút và score tăng gấp đôi ở telecom, kỳ vọng xAI sẽ đẩy mạnh sales với các call center BPO, ngân hàng phone banking, và telecom carrier — nơi voice agent truyền thống vẫn fail hơn 75%.
Nguồn: xAI news, Sierra τ³-Bench, τ-Voice analysis, Blockchain.News.
