TL;DR

Ant Group (qua nhánh Inclusion AI / AntLingAGI) vừa chính thức đặt tên cho con voi bí ẩn từng test ẩn danh trên OpenRouter dưới mã Elephant Alpha: đó là Ling-2.6-flash. Cùng tuần, họ thả luôn bản Ling-2.6-1T trillion-parameter. Điểm đáng chú ý: tốc độ generate đạt 340 token/giây trên 4 GPU H20, kiến trúc 104B MoE chỉ active 7.4B, context 256K, và quan trọng nhất — cả hai model đang miễn phí trên OpenRouter đến hết tháng 4/2026. Sau đó tiếp tục có quota free 500.000 token/ngày, vượt quota thì tính ¥0.6 / ¥1.8 (input/output) per triệu token.

Có gì mới

Trước đây cộng đồng OpenRouter để ý có một model code-name Elephant Alpha trả lời rất nhanh, kiểu “không giống ai”. Người ta đoán già đoán non là model Trung Quốc nhưng không chắc của ai. Tới ngày 22/4/2026, Ant Group ra thông cáo chính thức xác nhận đó là Ling-2.6-flash, sản phẩm của Inclusion AI — nhánh AGI của Ant Group, cùng nhà với ví Alipay.

Ngay sau đó, bản nặng ký Ling-2.6-1T (1.000 tỉ tham số) cũng âm thầm xuất hiện trên OpenRouter ở endpoint inclusionai/ling-2.6-1t:free. Đây là phiên bản kế nhiệm Ling-1T (10/2025) và Ling-2.5-1T (2/2026) trong gia đình mô hình mở của Ant.

Vì sao đáng quan tâm

Ling 2.6 không phải model “to nhất” hay “thông minh nhất” trên các bảng leaderboard tuyệt đối. Cách Ant Group định vị nó là model cho agent: tool-use chuẩn, multi-turn ổn định, output ngắn gọn, và rẻ. Trong production thực tế — nơi 1 phiên agent có thể gọi tool 20-30 lần — chi phí token và tốc độ phản hồi quan trọng hơn vài điểm benchmark.

Ant tuyên bố Ling-2.6-flash đạt Intelligence Index 26 mà chỉ tiêu thụ ~15 triệu output token, trong khi đối thủ tương đương như Nemotron-3-Super tốn 110 triệu+ để đạt cùng mức — tức ít hơn ~7 lần, tương đương giảm 86% chi phí inference.

Số liệu kỹ thuật

Thuộc tínhLing-2.6-flashLing-2.6-1T
Tổng tham số104B~1.000B
Active per token7.4B~50B
Kiến trúcSparse MoE + Hybrid 1:7 MLA & Lightning LinearSparse MoE
Context256K
Tốc độ peak340 token/s (4× H20)
Output ổn định215 token/s
Prefill throughput2.2× Nemotron-3-Super

Điểm kiến trúc đáng chú ý nhất: Ling-2.6-flash thay phần lớn lớp attention truyền thống bằng Lightning Linear theo tỉ lệ 1 MLA : 7 Lightning Linear. Đây chính là lý do nó scale rất tốt ở context dài mà chi phí prefill không nổ.

So sánh với đối thủ

Ant Group benchmark Ling-2.6-flash trên 19 bài test, 7 nhóm, đối đầu Qwen3-57B-A14B, Qwen3.5-122B-A10B, GLM-4.5-Air, Nemotron-3-Super và MiniMax-M1-80k. Một vài kết quả nổi bật:

  • BFCL-V4 (Function Calling): 67.04 — Nemotron 35.12, gap khoảng 90%.
  • PinchBench (Agent Tasks): 81.10 vs Nemotron 73.10.
  • LongBench-v2: 54.80, top trong nhóm size tương đương.
  • Multi-IF Turn-3: 74.85.
  • CCAlignBench (tiếng Trung): 7.44, dẫn đầu mảng tiếng Trung.

So với Kimi K2 (cũng 1T), thế hệ Ling 2.5 đã cho throughput cao hơn 3.5 lần ở context 32K. Bản 2.6 còn nới khoảng cách thêm nhờ Lightning Linear attention.

Use case phù hợp

  • Function calling và tool orchestration ở khối lượng lớn.
  • Phiên agent multi-turn với context dài (research, coding agent, sub-task delegation).
  • Long-RAG pipeline cần prefill chi phí tuyến tính.
  • Document parsing, vận hành terminal, GUI tự động.
  • Production deploy nhạy cảm chi phí và độ trễ.
  • Ứng dụng tiếng Trung — mảng nó rõ ràng vượt trội.

Khi nào không nên chọn: bài toán math thi đấu, hoặc cần điểm coding benchmark tuyệt đối cao — Nemotron và Qwen3.5-122B-A10B vẫn dẫn ở những hạng mục này.

Hạn chế & giá

Cộng đồng OpenRouter ghi nhận một số trường hợp Ling-2.6-flash hallucinate cao hơn peers nếu prompt thiếu context rõ ràng. Đây là trade-off thường thấy ở model thiên về tốc độ & tool-use.

Giá chính thức (USD): input $0.10 / triệu token, output $0.30 / triệu token.

Giá nền tảng CN (sau period free): input ¥0.6 / triệu token, output ¥1.8 / triệu token. Quota free 500.000 token/ngày, vượt mới tính tiền.

Quan trọng: ngay lúc này (24/4/2026) cả hai model vẫn miễn phí 100% trên OpenRouter cho tới hết tháng. Endpoint: inclusionai/ling-2.6-1t:free.

What’s next

Ant Group đang đẩy mạnh dòng Inclusion AI với chiến lược rõ: model open-weight cho agent + giá cực mềm + tích hợp sâu vào hệ sinh thái Alipay Tbox. Lộ trình tiếp theo nhiều khả năng tiếp tục mở rộng huấn luyện Agentic RL và đẩy thêm checkpoint mới qua repo inclusionAI trên Hugging Face.

Với người đang xây agent cá nhân hoặc startup, đây là cửa sổ tốt để test miễn phí một model có hệ số tốc độ/giá thuộc loại hiếm trên thị trường hiện tại. Sau ngày 30/4 vẫn còn 500K token/ngày — đủ cho phần lớn agent cá nhân chạy mượt.

Nguồn: BusinessWire, Novita AI, Kilo Code, OpenRouter, @dingyi.