TL;DR

Ngày 18/04/2026, xAI công bố Grok Speech-to-Text API chính thức Generally Available: transcribe đa người nói (multi-speaker), hỗ trợ 25 ngôn ngữ, chạy cả batch REST lẫn streaming. Giá công bố: $0.10/giờ batch$0.20/giờ streaming — rẻ hơn Whisper ~3.6×, Deepgram Nova-3 ~2.6×, AssemblyAI ~3.7×. Nếu dùng Batch API thì hạ xuống còn $0.05/giờ. Endpoint: POST https://api.x.ai/v1/stt.

What's new

Trước đó, xAI mới chỉ mở Voice Agent API (speech-to-speech, $0.05/phút) và TTS beta. Standalone STT được hứa từ tháng 12/2025 nhưng mãi đến nay mới GA. Ba điểm đáng chú ý:

  • Multi-speaker transcription được xAI đưa vào tiêu đề launch — gợi ý diarization có sẵn (chi tiết spec chưa công bố đầy đủ).
  • 25 ngôn ngữ, chạy cả batch và streaming — rộng hơn TTS (20 ngôn ngữ) và hẹp hơn Voice Agent (100+).
  • Giá theo giờ audio thay vì per-minute — mô hình tính giá thân thiện hơn cho workload dài (podcast, call center, compliance).

Why it matters

Kinh tế của voice AI thay đổi khi transcript cost tiến gần về 0. Với Whisper $0.36/giờ, nhiều team chỉ dám transcribe mẫu 10-20% cuộc gọi. Ở $0.10/giờ (hoặc $0.05 batch), transcribe 100% volume trở thành default — mở cửa cho quality scoring, compliance audit, search trên toàn bộ dữ liệu voice mà trước đây bị bỏ rơi.

Ngoài ra, xAI đang gom cả chuỗi STT → LLM (Grok) → TTS về một provider, một bill, một SDK. Với team đang trả cho Deepgram + OpenAI + ElevenLabs, đây là áp lực consolidation thật sự. Một stack duy nhất đồng nghĩa ít auth flow hơn, latency giữa các bước ngắn hơn, debugging đơn giản hơn, và phía CFO thì chỉ cần duyệt một invoice thay vì ba.

Tác động ngắn hạn rõ nhất nằm ở phân khúc budget-constrained: indie dev, agency nhỏ, product hackathon, hoặc các team nội bộ ở doanh nghiệp lớn không được duyệt vendor mới. Ở $0.05–$0.10/giờ, transcript không còn là line item cần biện hộ — nó biến thành primitive mặc định trong mọi pipeline xử lý voice.

Technical facts

PropertyGiá trị
Endpoint (batch)POST https://api.x.ai/v1/stt
StreamingCó (endpoint riêng)
Ngôn ngữ25
Multi-speakerCó (theo announcement)
Giá batch$0.10 / giờ audio
Giá streaming$0.20 / giờ audio
Batch API discount-50% → $0.05 / giờ batch
Domain tuningMedical, Legal, Financial, Technical
Trạng tháiGA (không phải beta)

xAI đã tự xây toàn bộ voice stack — VAD, tokenizer, audio models — từ đầu, cùng stack đang giúp Grok Voice Agent đứng #1 trên Big Bench Audio và có time-to-first-audio dưới 1 giây.

Comparison

ProviderBatch $/giờStreaming $/giờ
Grok STT (xAI)$0.10$0.20
Deepgram Nova-3~$0.26~$0.43
OpenAI Whisper~$0.36n/a
AssemblyAI~$0.37~$0.15 (advertised, overhead cao)
Google / AWS STT$0.60–$1.44Tương đương

Ở mức giá này, Grok STT không đơn giản là "rẻ hơn vài xu" — nó thấp hơn một bậc so với nhóm premium (Whisper, Deepgram). Với khối lượng 10.000 giờ/tháng, chi phí giảm từ $2.600 (Deepgram) xuống $1.000 (Grok batch) hoặc $500 (Batch API), tiết kiệm $1.600–$2.100 mỗi tháng.

Use cases

  • Call center & CS analytics — transcribe 100% cuộc gọi thay vì sample 10%, chạy QA/sentiment trên toàn bộ.
  • Podcast & media captioning — phủ 25 ngôn ngữ, làm subtitle tự động rẻ hơn YouTube API.
  • Voice notes & dictation trong product SaaS — streaming $0.20/giờ đủ rẻ để bật mặc định.
  • Compliance & regulated workflows — medical scribe, legal deposition, financial advisory, tận dụng domain tuning.
  • AI agent pipelines — ghép STT + Grok LLM + Grok TTS thành full voice loop trên cùng một vendor, một bill.
  • Indie dev & hackathon — $0.05/giờ (Batch API) biến transcript thành feature "miễn phí" trong MVP.

Limitations & pricing

  • WER benchmarks chưa công bố — chưa có số chính thức so với Whisper-v3 hay Deepgram Nova-3. Early adopter sẽ là người validate accuracy.
  • Spec diarization chưa đầy đủ — announcement nói "multi-speaker" nhưng doc chưa list số speaker tối đa, confidence per speaker, timestamp.
  • Danh sách 25 ngôn ngữ chưa enumerate công khai.
  • Rate limit & concurrency cho STT chưa publish riêng (tham chiếu Voice Agent: 100 concurrent/team).
  • Không free tier rõ ràng cho STT.
  • Availability phụ thuộc region và account status trên xAI Console.

What's next

Vài thứ đáng theo dõi 3-6 tháng tới: (1) WER benchmarks chính thức — xAI sẽ cần số để thuyết phục team đang quen Whisper/Deepgram; (2) diarization spec chi tiết hơn; (3) fine-tuned STT riêng cho medical/legal/finance (xAI đã úp mở domain expertise); (4) tích hợp sâu hơn với Voice Agent để dev có thể dùng STT standalone trong pipeline custom thay vì bị khóa vào speech-to-speech loop.

Nguồn: @xai announcement, xAI Voice API docs, xAI Models & Pricing, Deepgram pricing breakdown.