TL;DR

Sarvam AI — startup AI chủ quyền của Ấn Độ — vừa mở mã nguồn hai framework đánh giá ASR (Automatic Speech Recognition) chuyên cho ngôn ngữ Ấn, kèm bộ hướng dẫn trải 22 ngôn ngữ. Bộ bốn chỉ số mới LLM-WER, LLM-CER, Intent Score và Entity Preservation Score dùng LLM làm giám khảo ngữ nghĩa, đi kèm WER/CER truyền thống và COMET để vá đúng những điểm chết của cách đo cũ.

Sarvam AI Indic ASR Evaluation banner

Có gì mới

Hai repo cùng bước lên GitHub dưới tài khoản sarvamai:

  • llm_wer — tính LLM-WER / LLM-CER: thay vì so sánh ký tự cứng nhắc, LLM kiểm xem khác biệt có thật sự là lỗi ngữ nghĩa hay chỉ là biến thể chấp nhận được.
  • llm_intent_entity — tính Intent Score (0 hoặc 1) và Entity Preservation Score (0.0–1.0) trên từng utterance.

Đi kèm là bài viết dài trên blog Sarvam giải thích từng thất bại của WER/CER, cách bốn chỉ số mới vá các thất bại đó, và checklist áp dụng cho từng mode output của Saaras V3 — API ASR production của Sarvam.

Vì sao quan trọng

WER và CER được thiết kế cho tiếng Anh, giả định mỗi từ có một chính tả duy nhất, không có code-mixing và khoảng cách formal/colloquial hẹp. Ba giả định này đều sai với ngôn ngữ Ấn: tiếng Hindi, Tamil, Bengali… thường xuyên pha tiếng Anh trong cùng câu nói, từ vay có thể viết bằng Latin script hoặc native script, số có thể ghi bằng chữ hoặc số Ả Rập hoặc số Devanagari. Hệ quả: một mô hình ASR có thể giải mã chính xác nội dung người nói nhưng vẫn bị WER chấm điểm tệ vì chọn biến thể script "sai". Với 1 tỷ người dùng nói 22 ngôn ngữ Indic, đây là vấn đề tỷ đô chứ không phải tiểu tiết học thuật.

Thông số kỹ thuật

Chỉ sốKiểu trả vềCâu hỏi nó trả lời
WER / CERFloat ≥ 0Bao nhiêu từ/ký tự khác so với ground truth?
LLM-WER / LLM-CERFloat ≥ 0Bao nhiêu khác biệt thực sự là lỗi, không phải biến thể hợp lệ?
Intent ScoreBinary 0 / 1Ý nghĩa cốt lõi câu nói có được bảo toàn không?
Entity Preservation ScoreFloat 0.0–1.0Tỷ lệ named entity (tên, địa danh, số, ngày) được giữ đúng.

LLM giám khảo mặc định là Gemini chạy qua Google Vertex AI, cấu hình temperature=0 + pin model version + seed cố định để đảm bảo reproducibility. Framework llm_intent_entity có hash-based caching tránh gọi lại LLM cho utterance đã chấm, và hỗ trợ export ra Google Sheets để team QA dùng trực tiếp.

Saaras V3 — mô hình ASR production của Sarvam dùng làm ví dụ xuyên suốt — hỗ trợ 5 mode output (transcribe, translate, verbatim, translit, codemix), REST API ≤30s với độ trễ 2–5s, batch ≤60 phút, và WebSocket streaming dưới 1 giây.

So sánh: chỗ WER gãy, LLM-metrics vá

Tình huốngPhán quyết WER/CERPhán quyết mới
"doctor" → "डॉक्टर"LỗiTương đương ngữ nghĩa ✓
"पांच सौ" → "500"LỗiCùng số 500 ✓
"I do want to go" → "I do not want to go"Edit nhỏ, coi như OKIntent = 0 (đảo nghĩa)
"Chuyển ₹5.000 về TK 9876543210" → "…9876543220"~1 ký tự lỗiIntent=1, Entity=0.5 (sai TK)
"500mg Metformin" → "250mg Metformin"Sửa nhỏIntent=1, Entity=0.5 (sai liều)
"वसंत विहार" → "Vasant Kunj"Lỗi trung bìnhIntent=1, Entity=0.0 (sai địa điểm)

BLEU và COMET hỗ trợ tốt cho mode translate nhưng không bắt được entity drop hay meaning-flip. Đó là khoảng trống mà Intent và Entity Score lấp.

Use case thực tế

  • IVR ngân hàng / fintech — mỗi chữ số trong số tài khoản hoặc số tiền đều quan trọng. Entity Score bắt đúng rủi ro này.
  • Phiên âm y tế — nhầm "500mg" thành "250mg" là sự cố an toàn bệnh nhân, không phải lỗi đánh máy.
  • Call-center QA — hội thoại Hindi-English code-mixed trước đây bị WER chấm oan; LLM-WER cho điểm phản ánh chất lượng thực.
  • Voice assistant 22 ngôn ngữ — so sánh fair giữa vendor ASR khi output khác nhau về script / register.
  • Benchmark vendor — so sánh apples-to-apples giữa Whisper Indic, Saaras V3, mô hình nội bộ, không bị biased bởi style output.

Hạn chế & chi phí

  • Mã nguồn mở, miễn phí — nhưng bạn trả chi phí Gemini / Vertex AI khi chạy eval. Ở quy mô lớn, mỗi utterance = 1 LLM call là không rẻ. Caching giúp nhưng không giải quyết hết.
  • Độ trễ eval — không chạy online, chỉ phù hợp batch QA hoặc regression test, không phải realtime signal.
  • Ngôn ngữ low-resource — COMET yếu ngôn ngữ Indic ít dữ liệu; Sarvam khuyên weight Intent Score nặng hơn trong trường hợp này.
  • Reproducibility burden — phải pin model, temperature, seed, prompt version. Đổi bất kỳ yếu tố nào đều invalidate baseline.
  • Không có metric nào đủ một mình — triết lý framework là "layered": dùng cả WER, LLM-WER, COMET, Intent, Entity mới có bức tranh đủ.
  • Repo còn sớm — mới vài stars, ít commit, sẵn sàng breaking changes. Nên fork và pin commit nếu dùng production.

Tiếp theo

Sarvam thẳng thắn "field is still developing" — bộ metric lý tưởng sẽ còn tiến hoá cùng các hệ ASR. Công ty cũng đang đồng thời mở mã nguồn hai LLM Sarvam 30B và 105B cho 22 ngôn ngữ Indic, và tiếp tục phát hành các thế hệ Saaras. Nếu bạn đang xây voice product cho thị trường Ấn — hoặc đơn giản là muốn benchmark ASR đa ngôn ngữ nghiêm túc — thì đây là bộ công cụ đáng fork từ hôm nay.

Nguồn: Sarvam AI blog, llm_wer, llm_intent_entity, @SarvamAI.