TL;DR

inclusionAI — nhánh AGI của Ant Group — vừa phát hành Ling-2.6-1T ngày 23/4/2026: flagship 1 nghìn tỷ tham số, context 262.144 token, đạt SOTA trên AIME26SWE-bench Verified với chi phí inference chỉ khoảng 1/4 các model cùng hạng. API miễn phí hoàn toàn trên OpenRouter đến 30/4/2026, mở đường cho đợt open-source sắp tới.

Có gì mới

Ling-2.6-1T là model instant (instruct) đi theo hướng "fast thinking": thay vì đốt vài chục nghìn token reasoning, nó giữ độ chính xác cao mà tiêu thụ ít token hơn hẳn. Đây là bản kế nhiệm Ling-2.5-1T (16/2/2026) và Ling-1T (10/2025), được công bố cùng tuần với người em sparse-MoE Ling-2.6-flash ("Elephant Alpha") đang gây sốt trên OpenRouter.

  • Trillion-parameter, non-thinking flagship, tối ưu cho agent chạy production.
  • Context window 262K token — gấp đôi Ling-1T (128K), đủ cho codebase lớn và multi-tool workflow.
  • SOTA trên AIME26 và SWE-bench Verified theo model card OpenRouter.
  • Phân phối qua OpenRouter (provider NovitaAI), Hugging Face, ModelScope, Alipay Tbox.

Vì sao đáng chú ý

Thị trường đang dần tin rằng "scale lên trillion = phải đắt". Ling-2.6-1T bác lại giả định đó: chi phí chỉ bằng ~25% các model cùng cỡ. Kết hợp với Ling-2.6-flash (giảm 86% inference cost vs Nemotron-3-Super trên Artificial Analysis Intelligence Index), Ant Group đang đẩy Pareto frontier "accuracy vs cost" theo hướng có lợi cho developer thực dụng.

Điểm quan trọng: toàn bộ dòng Ling 2.x được huấn luyện với Agentic Reinforcement Learning — tức là tối ưu sẵn cho tool-call, terminal, GUI, chứ không phải model chat thuần rồi vá agent lên sau.

Thông số kỹ thuật

  • Context length: 262.144 token
  • Benchmarks (2.6-1T): SOTA AIME26, SOTA SWE-bench Verified
  • Kiến trúc nền tảng Ling 2.0: 1T tổng / ~50B active (1/32 MoE activation ratio), MTP layers, sigmoid expert routing, QK Normalization
  • Tiền huấn luyện Ling-1T: hơn 20.000 tỷ token, FP8 mixed-precision (lớn nhất được công bố đến nay), speedup end-to-end 15%+, lệch loss ≤ 0.1% vs BF16
  • Token efficiency: Ling-2.5-1T khớp điểm frontier thinking model trên AIME 2026 bằng ~5.890 token, so với 15.000–23.000 token của đối thủ
  • Cùng dòng 2.6-flash: 104B total / 7.4B active, 215 tps output, 340 tps prefill (4× H20), SOTA trên BFCL-V4, TAU2-bench, SWE-bench Verified, Claw-Eval, PinchBench

So sánh với đối thủ

Dòng Ling được đánh giá head-to-head với GPT-5-main, Gemini-2.5-Pro, DeepSeek-V3.1-Terminus, Kimi-K2-Instruct. Về code generation, software dev, math cạnh tranh và logic reasoning, inclusionAI tuyên bố Ling mở rộng Pareto frontier về "efficient thinking".

ModelTotal paramsContextChi phí API (so sánh tương đối)
Ling-2.6-1T1T262K~25% của cùng hạng (miễn phí đến 30/4)
Ling-2.6-flash104B (7.4B active)$0.10/M input, $0.30/M output
Ling-1T (Oct 2025)1T (50B active)128KOpen-weight, self-host
DeepSeek-V3.1-Terminus~671B (MoE)128KReference baseline

Ai nên dùng

  • Developer agentic AI: tương thích OpenClaw/KiloClaw — agent mở chạy terminal, quản file, browser, thậm chí payment qua Alipay AI Pay.
  • Coding assistant: tích hợp sẵn với Kilo Code, Claude Code, Cline — 12B+ token đã chạy qua Kilo Code cho thấy model "sống" được trong workflow thật.
  • Research & math: AIME26 SOTA + token efficiency cao = tiết kiệm cost khi brute-force solutions.
  • SMB / doanh nghiệp: bản thương mại LingDT qua Ant Digital Technologies cho triển khai có SLA.

Giới hạn & giá

Pricing:

  • Ling-2.6-1T trên OpenRouter: $0/M input, $0/M output, khuyến mãi hết 30/4/2026.
  • Ling-2.6-flash: $0.10/M input, $0.30/M output — free 1 tuần trên Kilo Code + KiloClaw.

Hạn chế đã được Ant công nhận (kế thừa từ Ling-1T):

  • GQA attention ổn định cho long-context nhưng vẫn tốn — bản kế tiếp sẽ chuyển sang hybrid attention.
  • Agentic capability còn hạn chế ở multi-turn dài, long-term memory, tool use phức tạp.
  • Thỉnh thoảng instruction deviation hoặc role confusion.

Tiếp theo là gì

Ant Group đang song song phát triển AWorld — framework cho continual learning trong autonomous agents — và sẽ mở rộng dòng Ling với hybrid attention + cải thiện alignment. Free API window khép lại 30/4, nhưng weights open-source và bản commercial LingDT sẽ giữ cửa mở cho cả indie developer lẫn doanh nghiệp.

Với giá inference chỉ bằng 1/4 đối thủ, tốc độ ra release dồn dập (1T → 2.5-1T → 2.6-flash → 2.6-1T trong 6 tháng), và chiến lược open-source đối chọi trực diện với closed frontier labs, inclusionAI đang biến "trillion-parameter" từ vũ khí PR thành công cụ thực dụng cho cộng đồng.

Nguồn: OpenRouter, Hugging Face — inclusionAI, Business Wire, Kilo.ai, AI News.