Sarvam AI open-source hai framework đánh giá ASR tiếng Ấn: tại sao WER đã hết thời với 22 ngôn ngữ Indic

TL;DR

Sarvam AI — startup AI chủ quyền của Ấn Độ — vừa mở mã nguồn hai framework đánh giá ASR (Automatic Speech Recognition) chuyên cho ngôn ngữ Ấn, kèm bộ hướng dẫn trải 22 ngôn ngữ. Bộ bốn chỉ số mới LLM-WER, LLM-CER, Intent Score và Entity Preservation Score dùng LLM làm giám khảo ngữ nghĩa, đi kèm WER/CER truyền thống và COMET để vá đúng những điểm chết của cách đo cũ.

Sarvam AI Indic ASR Evaluation banner

Có gì mới

Hai repo cùng bước lên GitHub dưới tài khoản sarvamai:

llm_wer — tính LLM-WER / LLM-CER: thay vì so sánh ký tự cứng nhắc, LLM kiểm xem khác biệt có thật sự là lỗi ngữ nghĩa hay chỉ là biến thể chấp nhận được.
llm_intent_entity — tính Intent Score (0 hoặc 1) và Entity Preservation Score (0.0–1.0) trên từng utterance.

Đi kèm là bài viết dài trên blog Sarvam giải thích từng thất bại của WER/CER, cách bốn chỉ số mới vá các thất bại đó, và checklist áp dụng cho từng mode output của Saaras V3 — API ASR production của Sarvam.

Vì sao quan trọng

WER và CER được thiết kế cho tiếng Anh, giả định mỗi từ có một chính tả duy nhất, không có code-mixing và khoảng cách formal/colloquial hẹp. Ba giả định này đều sai với ngôn ngữ Ấn: tiếng Hindi, Tamil, Bengali… thường xuyên pha tiếng Anh trong cùng câu nói, từ vay có thể viết bằng Latin script hoặc native script, số có thể ghi bằng chữ hoặc số Ả Rập hoặc số Devanagari. Hệ quả: một mô hình ASR có thể giải mã chính xác nội dung người nói nhưng vẫn bị WER chấm điểm tệ vì chọn biến thể script "sai". Với 1 tỷ người dùng nói 22 ngôn ngữ Indic, đây là vấn đề tỷ đô chứ không phải tiểu tiết học thuật.

Thông số kỹ thuật

Chỉ số	Kiểu trả về	Câu hỏi nó trả lời
WER / CER	Float ≥ 0	Bao nhiêu từ/ký tự khác so với ground truth?
LLM-WER / LLM-CER	Float ≥ 0	Bao nhiêu khác biệt thực sự là lỗi, không phải biến thể hợp lệ?
Intent Score	Binary 0 / 1	Ý nghĩa cốt lõi câu nói có được bảo toàn không?
Entity Preservation Score	Float 0.0–1.0	Tỷ lệ named entity (tên, địa danh, số, ngày) được giữ đúng.

LLM giám khảo mặc định là Gemini chạy qua Google Vertex AI, cấu hình temperature=0 + pin model version + seed cố định để đảm bảo reproducibility. Framework llm_intent_entity có hash-based caching tránh gọi lại LLM cho utterance đã chấm, và hỗ trợ export ra Google Sheets để team QA dùng trực tiếp.

Saaras V3 — mô hình ASR production của Sarvam dùng làm ví dụ xuyên suốt — hỗ trợ 5 mode output (transcribe, translate, verbatim, translit, codemix), REST API ≤30s với độ trễ 2–5s, batch ≤60 phút, và WebSocket streaming dưới 1 giây.

So sánh: chỗ WER gãy, LLM-metrics vá

Tình huống	Phán quyết WER/CER	Phán quyết mới
"doctor" → "डॉक्टर"	Lỗi	Tương đương ngữ nghĩa ✓
"पांच सौ" → "500"	Lỗi	Cùng số 500 ✓
"I do want to go" → "I do not want to go"	Edit nhỏ, coi như OK	Intent = 0 (đảo nghĩa)
"Chuyển ₹5.000 về TK 9876543210" → "…9876543220"	~1 ký tự lỗi	Intent=1, Entity=0.5 (sai TK)
"500mg Metformin" → "250mg Metformin"	Sửa nhỏ	Intent=1, Entity=0.5 (sai liều)
"वसंत विहार" → "Vasant Kunj"	Lỗi trung bình	Intent=1, Entity=0.0 (sai địa điểm)

BLEU và COMET hỗ trợ tốt cho mode translate nhưng không bắt được entity drop hay meaning-flip. Đó là khoảng trống mà Intent và Entity Score lấp.

Use case thực tế

IVR ngân hàng / fintech — mỗi chữ số trong số tài khoản hoặc số tiền đều quan trọng. Entity Score bắt đúng rủi ro này.
Phiên âm y tế — nhầm "500mg" thành "250mg" là sự cố an toàn bệnh nhân, không phải lỗi đánh máy.
Call-center QA — hội thoại Hindi-English code-mixed trước đây bị WER chấm oan; LLM-WER cho điểm phản ánh chất lượng thực.
Voice assistant 22 ngôn ngữ — so sánh fair giữa vendor ASR khi output khác nhau về script / register.
Benchmark vendor — so sánh apples-to-apples giữa Whisper Indic, Saaras V3, mô hình nội bộ, không bị biased bởi style output.

Hạn chế & chi phí

Mã nguồn mở, miễn phí — nhưng bạn trả chi phí Gemini / Vertex AI khi chạy eval. Ở quy mô lớn, mỗi utterance = 1 LLM call là không rẻ. Caching giúp nhưng không giải quyết hết.
Độ trễ eval — không chạy online, chỉ phù hợp batch QA hoặc regression test, không phải realtime signal.
Ngôn ngữ low-resource — COMET yếu ngôn ngữ Indic ít dữ liệu; Sarvam khuyên weight Intent Score nặng hơn trong trường hợp này.
Reproducibility burden — phải pin model, temperature, seed, prompt version. Đổi bất kỳ yếu tố nào đều invalidate baseline.
Không có metric nào đủ một mình — triết lý framework là "layered": dùng cả WER, LLM-WER, COMET, Intent, Entity mới có bức tranh đủ.
Repo còn sớm — mới vài stars, ít commit, sẵn sàng breaking changes. Nên fork và pin commit nếu dùng production.

Sarvam thẳng thắn "field is still developing" — bộ metric lý tưởng sẽ còn tiến hoá cùng các hệ ASR. Công ty cũng đang đồng thời mở mã nguồn hai LLM Sarvam 30B và 105B cho 22 ngôn ngữ Indic, và tiếp tục phát hành các thế hệ Saaras. Nếu bạn đang xây voice product cho thị trường Ấn — hoặc đơn giản là muốn benchmark ASR đa ngôn ngữ nghiêm túc — thì đây là bộ công cụ đáng fork từ hôm nay.

Nguồn: Sarvam AI blog, llm_wer, llm_intent_entity, @SarvamAI.

Sarvam AI open-source hai framework đánh giá ASR tiếng Ấn: tại sao WER đã hết thời với 22 ngôn ngữ Indic

TL;DR

Có gì mới

Vì sao quan trọng

Thông số kỹ thuật

So sánh: chỗ WER gãy, LLM-metrics vá

Use case thực tế

Hạn chế & chi phí

Tiếp theo

Tiếp tục lướt

Sherlock: công cụ OSINT mã nguồn mở quét username trên 400+ mạng xã hội trong vài giây

SideImpactor: ký và cài app iOS ngay trong trình duyệt qua WebUSB, không cần Sideloadly

OpenClaw v2026.4.24: Google Meet agents, full-agent voice, and DeepSeek V4 land in one release

qa-use: AI agents tự test E2E web app — viết test bằng tiếng Anh, chạy bằng Claude/GPT/Gemini

Faraday: nền tảng quản lý lỗ hổng mã nguồn mở dành cho red team