Fun-ASR 1.5 ra mắt: 30 ngôn ngữ, code-switching tự động, text production-ready

TL;DR

Alibaba Tongyi Lab vừa công bố Fun-ASR 1.5 — bản nâng cấp quan trọng của mô hình nhận dạng giọng nói end-to-end. Ba thay đổi cốt lõi: 30+ ngôn ngữ trong 1 model duy nhất, code-switching tự động (không cần tag language), và text output cấp production với punctuation + định dạng thông minh cho ngày, số, tiền tệ. Industry WER trung bình 12.70 — bằng nửa GLM-ASR-Nano (26.13). Model 7.7B qua Alibaba Cloud, Nano 0.8B open-source Apache-2.0.

Fun-ASR architecture diagram

Có gì mới trong bản 1.5

Khác với các bản Fun-ASR trước (chủ yếu Trung-Anh-Nhật + phương ngữ tiếng Trung), 1.5 mở rộng ra ba hướng:

Phủ ngôn ngữ: 30+ ngôn ngữ Á-Âu-Trung Đông trong cùng một model — không cần load variant riêng cho mỗi region.
Language switching: xử lý mixed-language speech (code-switching) natively. Khi speaker chuyển từ tiếng Việt sang tiếng Anh giữa câu, model tự detect và transcribe đúng, không cần manual tagging.
Professional text output: transcript trả về đã có dấu câu thông minh, tự động format ngày tháng (15/04/2026), số lượng lớn (1,250,000), và currency ($49.99) — paste thẳng vào document được.

Vì sao quan trọng

Pipeline ASR enterprise truyền thống thường gồm 3 stage: (1) raw ASR, (2) punctuation restoration model, (3) text normalization cho số/ngày/tiền. Fun-ASR 1.5 gộp cả ba vào một model end-to-end, giảm latency và loại nguồn lỗi lan truyền giữa các stage.

Với đội làm global product: code-switching đúng nghĩa là người dùng Á-Âu có thể nói tiếng bản địa pha tiếng Anh (pattern phổ biến ở Đông Nam Á, Ấn Độ) mà không cần chọn language trước — giảm friction UX đáng kể.

Technical facts

Property	Fun-ASR 1.5 (full)	Fun-ASR Nano
Params	7.7B	0.8B
Ngôn ngữ	30+ (31 liệt kê trên homepage)	Trung + Anh + Nhật
Training data	Hàng chục triệu giờ speech thực tế
Industry avg WER	12.70	—
Nearfield WER	6.31	—
Farfield WER	4.34	—
Code-switch test A WER	1.55 (offline + RL)	—
License	Commercial (Alibaba Cloud)	Apache-2.0

Code-switching được huấn luyện bằng cách sinh training data tổng hợp: LLM viết text đa ngôn ngữ xen kẽ, sau đó TTS chuyển thành audio. Cách này scale được dữ liệu mixed-language hiếm trong tự nhiên.

So sánh với các ASR khác

Fun-ASR benchmark comparison across scenarios

Trên 9 test scenario (nearfield, farfield, complex background, English general, open-source, dialect, accent, lyrics, hip-hop), Fun-ASR 7.7B dẫn đầu hoặc top-2 ở gần như mọi bucket. Điểm đáng chú ý:

vs Whisper-v3-large: Fun-ASR dẫn rõ ở Chinese dialect, accent, và lyrics — các kịch bản Whisper vốn yếu. Whisper vẫn cạnh tranh ở English general.
vs Seed-ASR: gần tương đương ở scenarios chuẩn, Fun-ASR vượt ở dialect và complex background.
vs GLM-ASR-Nano: industry WER 12.70 vs 26.13 — chênh đúng nửa error rate.

Use cases

Global meeting transcription: Zoom/Teams recording với speaker đa quốc gia, code-switching tự động.
Enterprise documentation: contact center, legal, medical — output đã format sẵn, không cần post-process.
Media subtitle: video đa ngôn ngữ, podcast pha trộn Á-Âu.
Voice agent backend: ASR cho consumer product cần support user đa quốc gia mà không bắt họ chọn language.
DingTalk vertical integration: Tongyi × DingTalk đã deploy cho 10+ industry (home appliances, animal husbandry, finance, education) với jargon recognition.

Limitations & pricing

Dialect WER 15.21 — accent tiếng Trung mạnh vẫn khó hơn nearfield/farfield clean.
Lyrics WER 21.00 — hát hoặc giọng có nhạc nền còn yếu.
WER detail cho low-resource EU languages (Estonian, Maltese, Irish) chưa được công bố chính thức — cần benchmark độc lập.
Model 7.7B self-host đòi GPU server mạnh; phần đông team sẽ dùng qua API.
Pricing: Fun-ASR full không công bố giá public — pay-per-use qua Alibaba Cloud Model Studio, tính theo phút recording. Fun-ASR-Nano 0.8B open-source Apache-2.0, self-host miễn phí.

What's next

Từ roadmap đã lộ rõ trong các bản trước (Nano 0.8B → Fun-ASR 7.7B → 1.5), hướng tiếp theo có thể là: streaming real-time upgrade cho long-form audio, tích hợp speaker diarization + emotion detection vào cùng model, và mở rộng sang các low-resource African/Latin American languages. Cho team đang cân nhắc adopt: nếu workload là Asia-centric + multilingual meeting, đây là bản nâng cấp đáng benchmark ngay. Whisper-large-v3 vẫn là baseline đáng so trên English-only workload.

Một điểm đáng lưu ý khi đánh giá: 3 pillar của 1.5 — coverage, switching, production text — cộng lại giải quyết đúng ba pain point lớn nhất khi đưa ASR vào sản phẩm thật (không chỉ demo). Team indie hacker có thể thử nhanh qua Nano 0.8B (Apache-2.0, self-host GPU 24GB) trước khi quyết định chuyển sang full 7.7B qua Alibaba Cloud API. Chi phí thử nghiệm gần như bằng 0, risk adoption thấp.

Nguồn: Fun-ASR homepage, GitHub repository, Technical report (arXiv 2509.12508), Ali_TongyiLab announcement.

Fun-ASR 1.5 ra mắt: 30 ngôn ngữ, code-switching tự động, text production-ready

TL;DR

Có gì mới trong bản 1.5

Vì sao quan trọng

Technical facts

So sánh với các ASR khác

Use cases

Limitations & pricing

What's next

Tiếp tục lướt

Xiaomi's MiMo-V2.5-ASR: 8B Open-Source Speech Model Beats Whisper by 23% — Speaks Cantonese, Wu, Hokkien, Sings Too

VoxCPM 2: describe a voice, get a voice — open-source TTS kills the preset

Sarvam AI open-source hai framework đánh giá ASR tiếng Ấn: tại sao WER đã hết thời với 22 ngôn ngữ Indic