Ant Group lộ diện 'con voi' Ling-2.6-flash: 340 token/giây, free trên OpenRouter đến hết tháng

← quay lại timelineArticle thread

Ant Group lộ diện 'con voi' Ling-2.6-flash: 340 token/giây, free trên OpenRouter đến hết tháng

D. Chu

@donniechublog·24 Apr

24 Apr 2026·7 phút đọc

Highlights

Mô hình ẩn danh 'Elephant Alpha' từng quẩy âm thầm trên OpenRouter giờ đã có tên: Ling-2.6-flash của Ant Group.
104B tham số MoE, 7.4B active, tốc độ 340 token/s, kèm bản 1T cùng ra mắt.
Cả hai miễn phí đến hết tháng 4/2026.

TL;DR

Ant Group (qua nhánh Inclusion AI / AntLingAGI) vừa chính thức đặt tên cho con voi bí ẩn từng test ẩn danh trên OpenRouter dưới mã Elephant Alpha: đó là Ling-2.6-flash. Cùng tuần, họ thả luôn bản Ling-2.6-1T trillion-parameter. Điểm đáng chú ý: tốc độ generate đạt 340 token/giây trên 4 GPU H20, kiến trúc 104B MoE chỉ active 7.4B, context 256K, và quan trọng nhất — cả hai model đang miễn phí trên OpenRouter đến hết tháng 4/2026. Sau đó tiếp tục có quota free 500.000 token/ngày, vượt quota thì tính ¥0.6 / ¥1.8 (input/output) per triệu token.

Có gì mới

Trước đây cộng đồng OpenRouter để ý có một model code-name Elephant Alpha trả lời rất nhanh, kiểu “không giống ai”. Người ta đoán già đoán non là model Trung Quốc nhưng không chắc của ai. Tới ngày 22/4/2026, Ant Group ra thông cáo chính thức xác nhận đó là Ling-2.6-flash, sản phẩm của Inclusion AI — nhánh AGI của Ant Group, cùng nhà với ví Alipay.

Ngay sau đó, bản nặng ký Ling-2.6-1T (1.000 tỉ tham số) cũng âm thầm xuất hiện trên OpenRouter ở endpoint inclusionai/ling-2.6-1t:free. Đây là phiên bản kế nhiệm Ling-1T (10/2025) và Ling-2.5-1T (2/2026) trong gia đình mô hình mở của Ant.

Vì sao đáng quan tâm

Ling 2.6 không phải model “to nhất” hay “thông minh nhất” trên các bảng leaderboard tuyệt đối. Cách Ant Group định vị nó là model cho agent: tool-use chuẩn, multi-turn ổn định, output ngắn gọn, và rẻ. Trong production thực tế — nơi 1 phiên agent có thể gọi tool 20-30 lần — chi phí token và tốc độ phản hồi quan trọng hơn vài điểm benchmark.

Ant tuyên bố Ling-2.6-flash đạt Intelligence Index 26 mà chỉ tiêu thụ ~15 triệu output token, trong khi đối thủ tương đương như Nemotron-3-Super tốn 110 triệu+ để đạt cùng mức — tức ít hơn ~7 lần, tương đương giảm 86% chi phí inference.

Số liệu kỹ thuật

Thuộc tính	Ling-2.6-flash	Ling-2.6-1T
Tổng tham số	104B	~1.000B
Active per token	7.4B	~50B
Kiến trúc	Sparse MoE + Hybrid 1:7 MLA & Lightning Linear	Sparse MoE
Context	256K	—
Tốc độ peak	340 token/s (4× H20)	—
Output ổn định	215 token/s	—
Prefill throughput	2.2× Nemotron-3-Super	—

Điểm kiến trúc đáng chú ý nhất: Ling-2.6-flash thay phần lớn lớp attention truyền thống bằng Lightning Linear theo tỉ lệ 1 MLA : 7 Lightning Linear. Đây chính là lý do nó scale rất tốt ở context dài mà chi phí prefill không nổ.

So sánh với đối thủ

Ant Group benchmark Ling-2.6-flash trên 19 bài test, 7 nhóm, đối đầu Qwen3-57B-A14B, Qwen3.5-122B-A10B, GLM-4.5-Air, Nemotron-3-Super và MiniMax-M1-80k. Một vài kết quả nổi bật:

BFCL-V4 (Function Calling): 67.04 — Nemotron 35.12, gap khoảng 90%.
PinchBench (Agent Tasks): 81.10 vs Nemotron 73.10.
LongBench-v2: 54.80, top trong nhóm size tương đương.
Multi-IF Turn-3: 74.85.
CCAlignBench (tiếng Trung): 7.44, dẫn đầu mảng tiếng Trung.

So với Kimi K2 (cũng 1T), thế hệ Ling 2.5 đã cho throughput cao hơn 3.5 lần ở context 32K. Bản 2.6 còn nới khoảng cách thêm nhờ Lightning Linear attention.

Use case phù hợp

Function calling và tool orchestration ở khối lượng lớn.
Phiên agent multi-turn với context dài (research, coding agent, sub-task delegation).
Long-RAG pipeline cần prefill chi phí tuyến tính.
Document parsing, vận hành terminal, GUI tự động.
Production deploy nhạy cảm chi phí và độ trễ.
Ứng dụng tiếng Trung — mảng nó rõ ràng vượt trội.

Khi nào không nên chọn: bài toán math thi đấu, hoặc cần điểm coding benchmark tuyệt đối cao — Nemotron và Qwen3.5-122B-A10B vẫn dẫn ở những hạng mục này.

Hạn chế & giá

Cộng đồng OpenRouter ghi nhận một số trường hợp Ling-2.6-flash hallucinate cao hơn peers nếu prompt thiếu context rõ ràng. Đây là trade-off thường thấy ở model thiên về tốc độ & tool-use.

Giá chính thức (USD): input $0.10 / triệu token, output $0.30 / triệu token.

Giá nền tảng CN (sau period free): input ¥0.6 / triệu token, output ¥1.8 / triệu token. Quota free 500.000 token/ngày, vượt mới tính tiền.

Quan trọng: ngay lúc này (24/4/2026) cả hai model vẫn miễn phí 100% trên OpenRouter cho tới hết tháng. Endpoint: inclusionai/ling-2.6-1t:free.

What’s next

Ant Group đang đẩy mạnh dòng Inclusion AI với chiến lược rõ: model open-weight cho agent + giá cực mềm + tích hợp sâu vào hệ sinh thái Alipay Tbox. Lộ trình tiếp theo nhiều khả năng tiếp tục mở rộng huấn luyện Agentic RL và đẩy thêm checkpoint mới qua repo inclusionAI trên Hugging Face.

Với người đang xây agent cá nhân hoặc startup, đây là cửa sổ tốt để test miễn phí một model có hệ số tốc độ/giá thuộc loại hiếm trên thị trường hiện tại. Sau ngày 30/4 vẫn còn 500K token/ngày — đủ cho phần lớn agent cá nhân chạy mượt.

Nguồn: BusinessWire, Novita AI, Kilo Code, OpenRouter, @dingyi.

Ant Group lộ diện 'con voi' Ling-2.6-flash: 340 token/giây, free trên OpenRouter đến hết tháng

TL;DR

Có gì mới

Vì sao đáng quan tâm

Số liệu kỹ thuật

So sánh với đối thủ

Use case phù hợp

Hạn chế & giá

What’s next

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

AI Agent pops a root shell on Ubuntu 26.04 — on day one

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face

OpenClaw v2026.4.24: Google Meet agents, full-agent voice, and DeepSeek V4 land in one release