Kimi K2.6 ra mắt: open-source SOTA SWE-Bench Multilingual 76.7%, 300 sub-agent chạy song song

TL;DR

Kimi K2.6 là mô hình coding-agent mã nguồn mở mới nhất của Moonshot AI, rollout ngày 13/04/2026. Vài con số đáng nhớ:

76.7% trên SWE-Bench Multilingual — open-source SOTA.
58.6% SWE-Bench Pro, vượt Claude Opus 4.6 (53.4) và GPT-5.4 (57.7).
Chạy 4,000+ tool call trong 12+ giờ liên tục — long-horizon coding thật sự.
300 sub-agent × 4,000 step song song (K2.5 trước đây chỉ 100 × 1,500).
Từ 1 prompt có thể xuất ra 100+ file, full-stack website có database + auth.
API giá $0.60 / $2.50 per 1M token — rẻ hơn Claude Sonnet 4.6 5–6 lần.

Kimi K2.6 official hero banner

What's new

Bản update từ K2.5 lên K2.6 không phải minor patch. Moonshot mô tả cú nhảy này tương đương K2 → K2-Thinking hồi cuối 2025, và beta tester trên Reddit gọi thinking trace của K2.6 là "Opus-flavored" — chain-of-thought dài, có cấu trúc, hay bắt đầu bằng "Let me..." y như Claude Opus 4.6.

Bốn trụ chính K2.6 cải thiện:

Long-horizon coding: generalize tốt trên Rust, Go, Python, Zig. Duy trì ngữ cảnh ổn định qua hàng nghìn bước.
Coding-driven design: prompt → landing page đẹp có hero aesthetic, scroll-triggered animation, full-stack với database + auth.
Agent Swarm 3.0: nhân đôi rưỡi quy mô — 300 sub-agent × 4,000 step đồng thời. Fix lỗi K2.5 hay "collapse" về sequential khi orchestrator gặp task phức tạp.
Proactive & open orchestration: 24/7 background agent (OpenClaw, Hermes), "Claw Groups" cho phép nhiều người nhiều model chung một workspace, K2.6 làm coordinator.

Why it matters

Đây là lần đầu một open-source model sát nút — và có chỗ vượt — Claude Opus 4.6 / GPT-5.4 trên các benchmark coding-agent quan trọng, với chi phí API thấp hơn nhiều lần. Với dev và team có budget nhạy cảm, K2.6 mở ra lựa chọn thực sự: chạy agent swarm nặng, self-host được, license cho phép thương mại hoá (Modified MIT).

Nói ngắn: trước K2.6, open-source coding model là "tốt-nhưng-vẫn-thua-Claude". Sau K2.6, công thức đã đảo chiều trên vài trục.

Technical facts

Kiến trúc & thông số:

Property	Value
Architecture	Mixture-of-Experts (MoE)
Total params	1T
Activated params	32B
Experts	384 (8 active + 1 shared / token)
Layers	61 (1 dense)
Attention	MLA, 64 heads, hidden 7168
Vocab	160K
Context	256K
Vision encoder	MoonViT 400M
Quantization	Native INT4
Optimizer	MuonClip

Điểm benchmark chính (càng cao càng tốt):

Kimi Code Bench — K2.6 (68.2) vs K2.5 (57.4)

SWE-Bench Multilingual: 76.7 (K2.5: 73.0)
SWE-Bench Pro: 58.6 (K2.5: 50.7)
SWE-Bench Verified: 80.2 (K2.5: 76.8)
Terminal-Bench 2.0: 66.7 (K2.5: 50.8)
LiveCodeBench v6: 89.6 (K2.5: 85.0)
HLE-Full w/ tools: 54.0 (K2.5: 50.2)
BrowseComp w/ Agent Swarm: 86.3
MathVision w/ python: 93.2, CharXiv w/ python: 86.7

Eval nội bộ CodeBuddy ghi nhận +12% code-gen accuracy, +18% long-context stability, 96.6% tool-invocation success rate so với K2.5. Vercel AI báo hiệu năng tăng hơn 50% trên benchmark Next.js nội bộ.

Comparison

Benchmark	Kimi K2.6	Claude Opus 4.6	GPT-5.4 (xhigh)	Kimi K2.5
SWE-Bench Pro	58.6	53.4	57.7	50.7
SWE-Bench Multilingual	76.7	77.8	—	73.0
SWE-Bench Verified	80.2	80.8	—	76.8
Terminal-Bench 2.0	66.7	65.4	65.4	50.8
HLE-Full w/ tools	54.0	53.0	52.1	50.2
BrowseComp	83.2	83.7	82.7	74.9
AIME 2026	96.4	96.7	99.2	95.8

Giá API: K2.6 $0.60 / $2.50 per 1M token (in/out). Claude Sonnet 4.6: $3.00 / $15.00 — K2.6 rẻ hơn 5× input, 6× output. Ví dụ team xài 100M input + 10M output/tháng: $85 vs $450, chênh $4,380/năm.

Use cases

Những ví dụ Moonshot công bố — không phải demo cherry-pick ngắn, mà các phiên chạy nhiều giờ:

12 giờ tối ưu inference trên Mac: K2.6 tự download Qwen3.5-0.8B rồi implement inference trong Zig, chạy 4,000+ tool call qua 14 vòng lặp — đẩy throughput từ ~15 lên ~193 token/giây (nhanh hơn LM Studio ~20%).
13 giờ overhaul financial matching engine: tự phân tích flame graph, tái cấu hình topology thread từ 4ME+2RE sang 2ME+1RE, sửa 4,000+ dòng code, đẩy throughput +185%.
100 resume từ 1 CV: spawn 100 sub-agent match 100 role California, mỗi agent xuất 1 resume tuỳ chỉnh + dataset cơ hội.
5 ngày SRE tự trị: agent K2.6 của team RL infra Moonshot tự quản monitoring, incident response, resolution.
Research paper + 20K-row dataset + 14 biểu đồ từ 1 bài astrophysics gốc, xuất ra trong một pipeline agent duy nhất.

Kimi Design Bench — K2.6 frontend generation evaluation

Phù hợp nhất với:

Team chạy coding agent volume lớn, nhạy cảm chi phí.
Dev làm sản phẩm bilingual Việt/Anh/Trung cần output tự nhiên.
Ai muốn self-host model trên vLLM / SGLang / KTransformers.
DevOps/SRE cần background agent 24/7.

Limitations & pricing

Quota Kimi Code: 300–1,200 API call / 5h window, max concurrency 30 — cẩn thận khi chạy pipeline qua đêm.
Version pinning: API trả về tên chung kimi-for-coding, khó pin version cho CI/CD reproducible.
CLI access có độ trễ so với dashboard khi mới rollout.
Tài liệu tiếng Anh vẫn thua OpenAI/Anthropic; interface Chinese-first.
Claude vẫn nhỉnh hơn ở English multi-constraint agent loop phức tạp.
License: Modified MIT — nếu doanh nghiệp bạn >100M MAU hoặc >$20M doanh thu/tháng thì phải hiển thị branding "Kimi".
Truy cập: API qua platform.moonshot.ai (OpenAI/Anthropic-compatible), weights trên Hugging Face moonshotai/Kimi-K2.6, CLI: curl -L code.kimi.com/install.sh | bash (v1.33.0+).

What's next

K2.6 hiện là preview. GA dự kiến khoảng tháng 05/2026. Đáng chú ý hơn: Moonshot đã xác nhận đang phát triển Kimi K3 — mục tiêu scale lên 3–4 nghìn tỉ tham số để ngang frontier model Mỹ. Nếu K3 giữ được hướng đi open-weights như K2 series, bức tranh coding-agent 2026–2027 có thể đảo chiều mạnh.

Khuyến nghị hành động trong 2 tuần: lấy một repo thật của bạn, chạy K2.6 song song với Claude Code trên cùng task, đo token cost và chất lượng PR thực sự. 5–6× giá rẻ không phải con số marketing — nó là một seat engineer trong team.

Nguồn: Kimi Tech Blog, Hugging Face model card, BuildFastWithAI developer guide, Kimi Moonshot announcement.

Kimi K2.6 ra mắt: open-source SOTA SWE-Bench Multilingual 76.7%, 300 sub-agent chạy song song

TL;DR

What's new

Why it matters

Technical facts

Comparison

Use cases

Limitations & pricing

What's next

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face

termDRAW: vẽ sơ đồ ASCII ngay trong terminal để prompt agent đỡ tốn token

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding