Grok Voice Think Fast 1.0 quét sạch τ-voice Bench: 67.3% overall, 73.7% telecom

TL;DR

Ngày 23/04/2026, xAI ra mắt grok-voice-think-fast-1.0 — flagship voice agent mới, ngay lập tức chiếm #1 trên τ-voice Bench (benchmark của Sierra đánh giá voice agent trong điều kiện thực: noise, accent, interruption, turn-taking).

Overall: 67.3% — bỏ xa Gemini 3.1 Flash Live (43.8%) và GPT Realtime 1.5 (35.3%)
Retail: 62.3% · Airline: 66% · Telecom: 73.7%
Ở telecom, Grok cao hơn GPT Realtime 3.5 lần (73.7% vs 21.1%)
Đang chạy production tại Starlink với 28 tool, 20% conversion rate, 70% autonomous resolution

Có gì mới

Grok Voice Think Fast 1.0 là model voice đầu tiên xAI định vị cho workflow phức tạp, đa bước, mơ hồ — thay vì chỉ chat voice như thế hệ trước. Model chạy reasoning song song ở background, cho phép suy luận qua edge case mà không làm tăng độ trễ phản hồi. Đây là điểm khác biệt kỹ thuật lớn so với các realtime model khác vốn phải chọn giữa "nhanh" hoặc "thông minh".

Bên cạnh model mới, xAI cũng đã public Grok STT và TTS API standalone từ 18/04, tạo ra full stack voice cho enterprise.

Tại sao điều này quan trọng

Benchmark τ-voice (do Sierra phát triển, mở rộng từ τ²-Bench) là benchmark voice agent thực tế nhất hiện tại — nó mô phỏng cuộc gọi thật: người dùng có accent, gọi từ quán cà phê ồn, kết nối kém, phone line nén. Trước Grok Voice Think Fast, best voice agent chỉ đạt 38% task completion trong điều kiện realistic — so với 85% của text SOTA. Voice agent giữ được chưa tới một nửa năng lực text.

Grok đẩy overall lên 67.3%, tiến gần hơn text SOTA đáng kể, và đặc biệt mở khoá telecom — domain trước đây không một voice model nào vượt 22%.

Số liệu kỹ thuật

Reasoning latency: zero added — background reasoning không làm chậm turn response
Tool calling: 28 tool đồng thời trong 1 agent Starlink (hardware troubleshooting, appointment booking, service credits)
Languages: 25+ ngôn ngữ native support
STT error rate (entity recognition trên phone call): 5.0% — so với ElevenLabs 12.0%, Deepgram 13.5%, AssemblyAI 21.3%
Voices: 5 (Ara, Eve, Leo, Rex, Sal) + speech tags [laugh], [sigh], <whisper>
Pricing: Grok Voice Agent API $0.05/phút · STT $0.10/hr batch, $0.20/hr streaming · TTS $4.20/1M ký tự
Interaction quality: 57% selectivity, 84% interrupt rate

So sánh với competitor

Điểm τ-voice Bench trong điều kiện realistic (noise + accent + interruption + turn-taking):

Domain	Grok Voice Think Fast 1.0	Grok Voice Fast 1.0	Gemini 3.1 Flash Live	GPT Realtime 1.5
Overall	67.3%	38.3%	43.8%	35.3%
Retail	62.3%	45.6%	44.7%	38.6%
Airline	66%	64%	40%	36%
Telecom	73.7%	40.4%	21.9%	21.1%

Telecom là domain khó nhất (plan change, billing dispute, technical troubleshooting) — Grok là voice agent đầu tiên vượt mốc 50%, thậm chí gần 74%.

Use case thực tế

xAI công bố case study rõ nhất là Starlink — đang dùng Grok Voice cho phone sales và support tại +1 (888) GO STARLINK:

20% conversion rate — cứ 5 sales inquiry thì 1 khách chốt mua ngay trên điện thoại
70% resolution rate — đa số support case được giải quyết tự động, không human-in-loop
28 tool trong 1 agent, bao gồm: troubleshoot hardware, issue replacement, grant service credit, book appointment, onboarding khách mới

Target thị trường: customer support, phone sales, appointment booking, IVR replacement, call center deflection, multilingual global deployment.

Giới hạn & pricing

Dù #1 leaderboard, Grok Voice vẫn có weakness rõ rệt khi phân tích failure mode (từ phân tích τ-voice của Arun Baby):

Accent gap -18pp: task completion rớt 18 điểm với non-native accent. Google chỉ rớt 2pp. Nghĩa là model đang fail khoảng 1/5 user nói tiếng Anh không phải bản ngữ.
Interrupt rate 84%: model nói đè lên user 84% turn — cao nhất trong nhóm test (Google 21%, OpenAI không công bố).
Authentication bottleneck: nếu agent nghe sai tên/email, cascade hỏng toàn bộ downstream workflow.
Voice agent tốt nhất (xAI 38% realistic Pass@1 trong run của Arun Baby) vẫn chỉ giữ được ~45% năng lực text SOTA (85%).

Pricing: Grok Voice Agent API $0.05/phút. Standalone STT $0.10/hr batch, $0.20/hr streaming. TTS $4.20 / 1 triệu ký tự.

Điều gì tiếp theo

xAI đang dùng dữ liệu production từ Starlink (nhiều ngôn ngữ, nhiều accent, nhiều scenario khó) để tiếp tục tune model. Hai hướng cải thiện rõ nhất theo τ-voice: (1) thu hẹp accent gap để ngang Google, (2) giảm interrupt rate từ 84% xuống dưới 50% trong khi giữ selectivity ≥57%.

Với pricing $0.05/phút và score tăng gấp đôi ở telecom, kỳ vọng xAI sẽ đẩy mạnh sales với các call center BPO, ngân hàng phone banking, và telecom carrier — nơi voice agent truyền thống vẫn fail hơn 75%.

Nguồn: xAI news, Sierra τ³-Bench, τ-Voice analysis, Blockchain.News.

Grok Voice Think Fast 1.0 quét sạch τ-voice Bench: 67.3% overall, 73.7% telecom — bỏ xa OpenAI và Google

TL;DR

Có gì mới

Tại sao điều này quan trọng

Số liệu kỹ thuật

So sánh với competitor

Use case thực tế

Giới hạn & pricing

Điều gì tiếp theo

Tiếp tục lướt

OpenClaw v2026.4.24: Google Meet agents, full-agent voice, and DeepSeek V4 land in one release

Lightning TTS + Pulse STT giờ chạy native trên Pipecat — cắt 200ms khỏi voice agent

OpenAI's gpt-realtime-1.5 opens a 20+ point lead on Sierra's voice leaderboard

Soniox ra mắt Text-to-Speech: $0.70/giờ, 60+ ngôn ngữ, hallucination-free

xAI ra mắt Grok Voice Think Fast 1.0: voice agent phản hồi dưới 1 giây, $0.05/phút