TL;DR

Ngày 20/04/2026, Moonshot AI open-source Kimi K2.6 — một model MoE 1 nghìn tỷ tham số (32B kích hoạt/token) dưới giấy phép Modified MIT. Điểm nhấn không chỉ là benchmark — mà là Agent Swarm mở rộng lên 300 sub-agents × 4,000 bước phối hợp (gấp 3× K2.5), cho phép 1 lần chạy đơn lẻ cho ra file thật: 100+ file, review văn học 100.000 từ, dataset 20.000 dòng. K2.6 đạt 58,6% SWE-Bench Pro (vượt GPT-5.4) và dẫn đầu toàn bộ frontier trên HLE-Full with tools (54.0). Có mặt ngay trên Kimi.com, Kimi App, API (OpenAI + Anthropic SDK compatible), và HuggingFace.

Có gì mới so với K2.5?

Ba dịch chuyển quan trọng, không phải bản vá benchmark thường thấy:

  • Swarm scale 3×: từ 100 sub-agents / 1.500 bước → 300 sub-agents / 4.000 bước (+200% agents, +167% steps).
  • Kỹ năng không đồng nhất chạy song song: 1 agent phân tích flame graph, 1 agent rewrite hot path, 1 agent benchmark — tất cả đồng thời, cùng 1 lần chạy.
  • Claw Groups (research preview): người + agent từ bất kỳ thiết bị, bất kỳ model nào cùng chia sẻ công việc. Dev có thể nhảy vào sửa một subtask giữa chừng mà không giết cả pipeline — giải quyết điểm yếu cốt lõi của autonomous agents trước giờ: không course-correct được nếu không kill job.

Vì sao điều này quan trọng

Hầu hết model agentic hiện nay chỉ "deeper reasoning" — chuỗi suy luận dài hơn trên 1 luồng. K2.6 đi hướng ngược lại: scale horizontally. Với 300 agent chuyên biệt chạy song song, đầu ra không còn là một đoạn chat, mà là deliverable trọn gói: website có authentication, slide đẹp, spreadsheet nhiều sheet, research paper dài. Đây là bước dịch chuyển từ "AI trợ lý trả lời" sang "AI đồng nghiệp giao deliverable".

Bên cạnh đó, việc K2.6 open-weight trên HuggingFace ở mức chất lượng gần sát GPT-5.4 và Claude Opus 4.6 trên benchmark coding — trong cùng tuần với Qwen3.6-Max-Preview — xác nhận: khoảng cách giữa open và closed trên production coding đã gần như đóng lại.

Technical facts

Kiến trúc dùng chung với K2.5 nhưng được post-train mạnh hơn cho long-horizon agentic:

SpecGiá trị
Total params1T (MoE)
Activated params/token32B
Layers61 (1 dense)
Experts384 total, 8 selected + 1 shared/token
AttentionMLA, 64 heads, hidden dim 7.168
ActivationSwiGLU
Context256K tokens
Vocab160K
Vision encoderMoonViT, 400M params (native)
QuantizationNative INT4

Điểm benchmark đáng chú ý nhất:

  • HLE-Full w/ tools: 54.0 — dẫn đầu toàn bộ frontier (GPT-5.4 52.1 · Claude Opus 4.6 53.0 · Gemini 3.1 Pro 51.4).
  • SWE-Bench Pro: 58.6% — cao nhất trong open-weight, vượt GPT-5.4 (57.7) và Claude Opus 4.6 (53.4).
  • DeepSearchQA F1: 92.5 — chênh lệch lớn (GPT-5.4 78.6).
  • BrowseComp ở chế độ Agent Swarm: 86.3 (vs 78.4 cho K2.5).
  • LiveCodeBench v6: 89.6 · Terminal-Bench 2.0: 66.7 · SWE-Bench Verified: 80.2.

So sánh K2.5 → K2.6

MetricK2.5K2.6Δ
Swarm size100300+200%
Coordinated steps1.5004.000+167%
SWE-Bench Pro50.7%58.6%+7.9pp
HLE w/ Tools50.254.0+3.8
BrowseComp74.983.2+8.3
Claw Eval pass@375.4%80.9%+5.5pp

Lead trên SWE-Bench Pro vs GPT-5.4 mỏng (0.9pp — trong ngưỡng noise), nhưng khoảng cách vs Claude Opus 4.6 (5.2pp) là durable. Trên HLE w/ tools và DeepSearchQA, K2.6 lead cả đội frontier.

Use cases thực tế

Refactor 13 giờ một matching engine tài chính. Moonshot cho K2.6 tự overhaul exchange-core — dự án 8 năm tuổi. Trong 13 giờ liên tục, model đi qua 12 chiến lược tối ưu, hơn 1.000 tool call, chỉnh hơn 4.000 dòng code. Nó đọc flame graph CPU + allocation, tìm bottleneck ẩn, reconfigure thread topology (4ME+2RE → 2ME+1RE). Kết quả: +185% median throughput (0.43 → 1.24 triệu giao dịch/giây), +133% peak throughput (1.23 → 2.86 MT/s).

Code Zig trên Mac trong 12 giờ. K2.6 tự download Qwen3.5-0.8B về Mac, implement inference bằng Zig (ngôn ngữ cực niche — out-of-distribution), qua 14 iteration và 4.000+ tool call. Throughput đi từ ~15 → ~193 tokens/sec, ~20% nhanh hơn LM Studio.

Swarm ra deliverable thật trong 1 lần chạy:

  • 1 bài paper astrophysics → Skill tái sử dụng → 40 trang / 7.000 từ research paper + dataset 20.000 dòng + 14 chart chuẩn astronomy.
  • 1 CV → 100 sub-agents → 100 role California phù hợp + 100 CV tuỳ biến.
  • 30 cửa hàng retail LA không có website (quét từ Google Maps) → 30 landing page high-converting.

24/7 proactive agent 5 ngày. Team RL infra nội bộ của Moonshot chạy 1 agent K2.6 liên tục 5 ngày: monitoring, incident response, vận hành hệ thống — full cycle từ alert đến resolution, không can thiệp người.

Limitations & pricing

  • Hardware wall: tự host 1T MoE cần multi-node vLLM + cluster A100/H100. Với phần lớn team, thực tế là dùng API.
  • Reasoning thuần: vẫn thua top closed trên HLE-Full no-tools, AIME 2026, GPQA-Diamond.
  • Context 256K: trên DeepSearchQA, task vượt 256K bị tính fail nếu không quản lý context.
  • License Modified MIT: free cho hầu hết, trừ sản phẩm thương mại có >100 triệu MAU hoặc >$20 triệu doanh thu/tháng — phải hiển thị credit "Kimi K2.6" trong UI (cùng điều khoản K2.5 từng gây ma sát với Cursor).
  • Pricing: chưa công bố giá API cụ thể trong tech blog; early testers mô tả "SOTA ở một phần giá closed frontier".
  • Deployment: vLLM / SGLang / KTransformers · transformers >= 4.57.1, < 5.0.0 · OpenAI & Anthropic SDK compatible · Native INT4.

What's next

Gap K2.5 → K2.6 chỉ 2 tháng. Nếu Moonshot giữ nhịp, bảng xếp hạng tháng 6/2026 có thể khác hoàn toàn. Claw Groups vẫn đang research preview — hướng phát triển là mở hơn nữa cho agent đa thiết bị/đa model. Trong cùng tuần, Alibaba cũng drop Qwen3.6-Max-Preview, xác nhận cuộc đua open-weight agentic coding giờ là multi-sided race.

Muốn thử ngay: kimi.com/agent-swarm. Tải weights: huggingface.co/moonshotai/Kimi-K2.6.

Nguồn: Kimi Tech Blog, MarkTechPost, The Decoder, HuggingFace.