Kimi K2.6: Agent mã nguồn mở 1T params vượt SWE-Bench Pro và rẻ hơn Claude 6 lần

TL;DR

Ngày 13/04/2026, Moonshot AI chính thức mở source Kimi K2.6 — mô hình MoE 1T tổng / 32B active dành cho coding và agent workflow. K2.6 dẫn đầu open-source trên HLE w/ tools (54.0), SWE-Bench Pro (58.6), SWE-Bench Multilingual (76.7), BrowseComp (83.2, lên 86.3 với Agent Swarm) và Toolathlon (50.0). Agent Swarm nhảy từ 100 / 1,500 bước lên 300 sub-agent × 4,000 bước. Giá API chỉ $0.60/$2.50 per M token — rẻ 5–6 lần Claude Sonnet 4.6. Weights trên Hugging Face theo Modified MIT License.

Kimi K2.6 announcement hero

Điểm mới của K2.6

Long-horizon coding: 4,000+ tool call, hơn 12 giờ chạy liên tục, generalize qua Rust/Go/Python và frontend/devops/perf. Một case study thực tế: K2.6 tự refactor exchange-core (matching engine tài chính 8 năm tuổi) trong 13 giờ, 1,000+ tool call, sửa 4,000+ dòng code — throughput trung bình tăng +185% (0.43 → 1.24 MT/s).
Motion-rich frontend & coding-driven design: biến một prompt thành trang web production-ready với hero video, shader WebGL, GSAP, Framer Motion, Three.js 3D; kèm lightweight full-stack (auth, DB, session).
Agent Swarm nâng cấp: 300 sub-agent domain-specialized chạy song song 4,000 bước trong một lần prompt — gấp 3× K2.5 (100 / 1,500). Có thể biến PDF, slide, spreadsheet thành Skills giữ nguyên DNA cấu trúc và style.
Proactive Agent 24/7: động cơ cho OpenClaw, Hermes — agent nền chạy autonomous nhiều ngày. RL infra của Moonshot chạy K2.6 agent liên tục 5 ngày xử lý monitoring, incident response, ops.
Claw Groups (research preview): ecosystem mở — bring-your-own-agent từ bất cứ device / model nào; con người + bot cộng tác; K2.6 làm adaptive coordinator, tự reassign khi có agent fail.

Vì sao quan trọng

Đây là lần đầu một open-source model vượt Claude Opus 4.6 và GPT-5.4 trên HLE-Full w/ tools và SWE-Bench Pro trong cùng một release — và làm được với giá API rẻ hơn 5–6 lần. Với những team đang chi hàng nghìn đô mỗi tháng cho agent coding, con số này không còn là chi tiết kỹ thuật mà là quyết định ngân sách. Quan trọng hơn, K2.6 mở weights theo Modified MIT, cho phép self-host trên vLLM / SGLang / KTransformers — đóng lại khoảng cách mà cộng đồng đã chờ từ khi K2 bản đầu ra mắt.

Technical facts

Thông số	Giá trị
Architecture	Mixture-of-Experts (MoE)
Total / Active params	1T / 32B
Experts	384 (8 active per token)
Layers	61 (1 dense)
Attention	MLA, 64 heads, hidden 7168
Activation	SwiGLU
Context	256K tokens
Vision Encoder	MoonViT 400M
Training data	15.5T tokens (cutoff Apr 2025)
Quantization	Native INT4
License	Modified MIT

So sánh với competitor

Dưới đây là những benchmark mà K2.6 dẫn đầu hoặc ngang ngửa với model độc quyền top đầu:

Benchmark	Kimi K2.6	GPT-5.4	Opus 4.6	Gemini 3.1 Pro	Kimi K2.5
HLE-Full w/ tools	54.0	52.1	53.0	51.4	50.2
SWE-Bench Pro	58.6	57.7	53.4	54.2	50.7
DeepSearchQA (f1)	92.5	78.6	91.3	81.9	89.0
BrowseComp (Agent Swarm)	86.3	—	—	—	78.4
Toolathlon	50.0	54.6	47.2	48.8	27.8
Terminal-Bench 2.0	66.7	65.4	65.4	68.5	50.8
SWE-Bench Multilingual	76.7	—	77.8	76.9	73.0
MathVision w/ python	93.2	96.1	84.6	95.7	85.0

So với K2.5, K2.6 nhảy mạnh ở Toolathlon (+80%), APEX-Agents (+143%), Terminal-Bench 2.0 (+31%). Điểm yếu vẫn là raw reasoning không dùng tool (HLE-Full 34.7 thua Gemini 44.4, Opus 40.0, GPT-5.4 39.8) và instruction-following tiếng Anh phức tạp — nơi Claude Code còn giữ lợi thế.

Use cases thực tế

Refactor codebase lớn: K2.6 deploy Qwen3.5-0.8B local trên Mac, triển khai inference bằng Zig — một ngôn ngữ ngách — qua 4,000+ tool call, 12h, 14 iteration, tăng tốc từ ~15 lên ~193 tok/s (~20% nhanh hơn LM Studio).
Frontend từ prompt: tạo landing page có hero animation, database và auth; trong demo Moonshot tự tạo 30 landing page cho 30 retail store LA không có website.
Orchestration: upload CV → 100 sub-agent match 100 role phù hợp ở California, kèm 100 CV tailored — trong một lần chạy.
Background ops: agent chạy 5 ngày liên tục lo monitoring, incident response, ops — với persistent context.

Ai nên quan tâm nhất: (1) team chạy coding agent volume lớn và nhạy cảm chi phí; (2) dev làm sản phẩm bilingual tiếng Trung/Anh; (3) team cần open-weight để self-host và pin version.

Limitations & pricing

Giá API qua platform.moonshot.ai:

Input: $0.60 / M tokens
Output: $2.50 / M tokens
100M in + 10M out / tháng ≈ $85 (vs $450 Claude Sonnet 4.6).

Điểm cần lưu ý: subscription Kimi Code chỉ cho 300–1,200 API call / cửa sổ 5h với max concurrency 30 — automation overnight cần quota-aware. API dùng label thống nhất kimi-for-coding nên chưa pin được version cụ thể, khó cho CI/CD reproducibility. English doc vẫn lag sau Anthropic và OpenAI.

What's next

K2.6 hiện đã live trên kimi.com (chat + agent mode), Kimi Code, API và Hugging Face. Formal release ngoài beta dự kiến tháng 5/2026. Leak cộng đồng Reddit cho biết Moonshot đang phát triển Kimi K3 với target 3–4T params để đấu raw scale với model Mỹ — nếu đúng, đây sẽ là một cú "moonshot" đúng nghĩa.

Nguồn: kimi.com/blog/kimi-k2-6, Hugging Face model card, buildfastwithai, @Kimi_Moonshot.

Kimi K2.6: Agent mã nguồn mở 1T params vượt SWE-Bench Pro và rẻ hơn Claude 6 lần

TL;DR

Điểm mới của K2.6

Vì sao quan trọng

Technical facts

So sánh với competitor

Use cases thực tế

Limitations & pricing

What's next

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face

termDRAW: vẽ sơ đồ ASCII ngay trong terminal để prompt agent đỡ tốn token

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding