- Moonshot AI vừa mở mã Kimi K2.6 — mô hình coding agent 1T tham số (32B active), đạt 76.7% trên SWE-Bench Multilingual, 58.6% SWE-Bench Pro, chạy 4,000+ tool call trong 12 giờ liên tục, dàn 300 sub-agent song song, và rẻ hơn Claude Sonnet 4.6 tới 6 lần.
TL;DR
Kimi K2.6 là mô hình coding-agent mã nguồn mở mới nhất của Moonshot AI, rollout ngày 13/04/2026. Vài con số đáng nhớ:
- 76.7% trên SWE-Bench Multilingual — open-source SOTA.
- 58.6% SWE-Bench Pro, vượt Claude Opus 4.6 (53.4) và GPT-5.4 (57.7).
- Chạy 4,000+ tool call trong 12+ giờ liên tục — long-horizon coding thật sự.
- 300 sub-agent × 4,000 step song song (K2.5 trước đây chỉ 100 × 1,500).
- Từ 1 prompt có thể xuất ra 100+ file, full-stack website có database + auth.
- API giá $0.60 / $2.50 per 1M token — rẻ hơn Claude Sonnet 4.6 5–6 lần.

What's new
Bản update từ K2.5 lên K2.6 không phải minor patch. Moonshot mô tả cú nhảy này tương đương K2 → K2-Thinking hồi cuối 2025, và beta tester trên Reddit gọi thinking trace của K2.6 là "Opus-flavored" — chain-of-thought dài, có cấu trúc, hay bắt đầu bằng "Let me..." y như Claude Opus 4.6.
Bốn trụ chính K2.6 cải thiện:
- Long-horizon coding: generalize tốt trên Rust, Go, Python, Zig. Duy trì ngữ cảnh ổn định qua hàng nghìn bước.
- Coding-driven design: prompt → landing page đẹp có hero aesthetic, scroll-triggered animation, full-stack với database + auth.
- Agent Swarm 3.0: nhân đôi rưỡi quy mô — 300 sub-agent × 4,000 step đồng thời. Fix lỗi K2.5 hay "collapse" về sequential khi orchestrator gặp task phức tạp.
- Proactive & open orchestration: 24/7 background agent (OpenClaw, Hermes), "Claw Groups" cho phép nhiều người nhiều model chung một workspace, K2.6 làm coordinator.
Why it matters
Đây là lần đầu một open-source model sát nút — và có chỗ vượt — Claude Opus 4.6 / GPT-5.4 trên các benchmark coding-agent quan trọng, với chi phí API thấp hơn nhiều lần. Với dev và team có budget nhạy cảm, K2.6 mở ra lựa chọn thực sự: chạy agent swarm nặng, self-host được, license cho phép thương mại hoá (Modified MIT).
Nói ngắn: trước K2.6, open-source coding model là "tốt-nhưng-vẫn-thua-Claude". Sau K2.6, công thức đã đảo chiều trên vài trục.
Technical facts
Kiến trúc & thông số:
| Property | Value |
|---|---|
| Architecture | Mixture-of-Experts (MoE) |
| Total params | 1T |
| Activated params | 32B |
| Experts | 384 (8 active + 1 shared / token) |
| Layers | 61 (1 dense) |
| Attention | MLA, 64 heads, hidden 7168 |
| Vocab | 160K |
| Context | 256K |
| Vision encoder | MoonViT 400M |
| Quantization | Native INT4 |
| Optimizer | MuonClip |
Điểm benchmark chính (càng cao càng tốt):

- SWE-Bench Multilingual: 76.7 (K2.5: 73.0)
- SWE-Bench Pro: 58.6 (K2.5: 50.7)
- SWE-Bench Verified: 80.2 (K2.5: 76.8)
- Terminal-Bench 2.0: 66.7 (K2.5: 50.8)
- LiveCodeBench v6: 89.6 (K2.5: 85.0)
- HLE-Full w/ tools: 54.0 (K2.5: 50.2)
- BrowseComp w/ Agent Swarm: 86.3
- MathVision w/ python: 93.2, CharXiv w/ python: 86.7
Eval nội bộ CodeBuddy ghi nhận +12% code-gen accuracy, +18% long-context stability, 96.6% tool-invocation success rate so với K2.5. Vercel AI báo hiệu năng tăng hơn 50% trên benchmark Next.js nội bộ.
Comparison
| Benchmark | Kimi K2.6 | Claude Opus 4.6 | GPT-5.4 (xhigh) | Kimi K2.5 |
|---|---|---|---|---|
| SWE-Bench Pro | 58.6 | 53.4 | 57.7 | 50.7 |
| SWE-Bench Multilingual | 76.7 | 77.8 | — | 73.0 |
| SWE-Bench Verified | 80.2 | 80.8 | — | 76.8 |
| Terminal-Bench 2.0 | 66.7 | 65.4 | 65.4 | 50.8 |
| HLE-Full w/ tools | 54.0 | 53.0 | 52.1 | 50.2 |
| BrowseComp | 83.2 | 83.7 | 82.7 | 74.9 |
| AIME 2026 | 96.4 | 96.7 | 99.2 | 95.8 |
Giá API: K2.6 $0.60 / $2.50 per 1M token (in/out). Claude Sonnet 4.6: $3.00 / $15.00 — K2.6 rẻ hơn 5× input, 6× output. Ví dụ team xài 100M input + 10M output/tháng: $85 vs $450, chênh $4,380/năm.
Use cases
Những ví dụ Moonshot công bố — không phải demo cherry-pick ngắn, mà các phiên chạy nhiều giờ:
- 12 giờ tối ưu inference trên Mac: K2.6 tự download Qwen3.5-0.8B rồi implement inference trong
Zig, chạy 4,000+ tool call qua 14 vòng lặp — đẩy throughput từ ~15 lên ~193 token/giây (nhanh hơn LM Studio ~20%). - 13 giờ overhaul financial matching engine: tự phân tích flame graph, tái cấu hình topology thread từ 4ME+2RE sang 2ME+1RE, sửa 4,000+ dòng code, đẩy throughput +185%.
- 100 resume từ 1 CV: spawn 100 sub-agent match 100 role California, mỗi agent xuất 1 resume tuỳ chỉnh + dataset cơ hội.
- 5 ngày SRE tự trị: agent K2.6 của team RL infra Moonshot tự quản monitoring, incident response, resolution.
- Research paper + 20K-row dataset + 14 biểu đồ từ 1 bài astrophysics gốc, xuất ra trong một pipeline agent duy nhất.

Phù hợp nhất với:
- Team chạy coding agent volume lớn, nhạy cảm chi phí.
- Dev làm sản phẩm bilingual Việt/Anh/Trung cần output tự nhiên.
- Ai muốn self-host model trên vLLM / SGLang / KTransformers.
- DevOps/SRE cần background agent 24/7.
Limitations & pricing
- Quota Kimi Code: 300–1,200 API call / 5h window, max concurrency 30 — cẩn thận khi chạy pipeline qua đêm.
- Version pinning: API trả về tên chung
kimi-for-coding, khó pin version cho CI/CD reproducible. - CLI access có độ trễ so với dashboard khi mới rollout.
- Tài liệu tiếng Anh vẫn thua OpenAI/Anthropic; interface Chinese-first.
- Claude vẫn nhỉnh hơn ở English multi-constraint agent loop phức tạp.
- License: Modified MIT — nếu doanh nghiệp bạn >100M MAU hoặc >$20M doanh thu/tháng thì phải hiển thị branding "Kimi".
- Truy cập: API qua
platform.moonshot.ai(OpenAI/Anthropic-compatible), weights trên Hugging Facemoonshotai/Kimi-K2.6, CLI:curl -L code.kimi.com/install.sh | bash(v1.33.0+).
What's next
K2.6 hiện là preview. GA dự kiến khoảng tháng 05/2026. Đáng chú ý hơn: Moonshot đã xác nhận đang phát triển Kimi K3 — mục tiêu scale lên 3–4 nghìn tỉ tham số để ngang frontier model Mỹ. Nếu K3 giữ được hướng đi open-weights như K2 series, bức tranh coding-agent 2026–2027 có thể đảo chiều mạnh.
Khuyến nghị hành động trong 2 tuần: lấy một repo thật của bạn, chạy K2.6 song song với Claude Code trên cùng task, đo token cost và chất lượng PR thực sự. 5–6× giá rẻ không phải con số marketing — nó là một seat engineer trong team.
Nguồn: Kimi Tech Blog, Hugging Face model card, BuildFastWithAI developer guide, Kimi Moonshot announcement.


