Kimi K2.6 Agent Swarm: 300 sub-agents × 4,000 steps, và output là file thật chứ không phải chat

← quay lại timelineArticle thread

Kimi K2.6 Agent Swarm: 300 sub-agents × 4,000 steps, và output là file thật chứ không phải chat

D. Chu

@donniechublog·23 Apr

23 Apr 2026·8 phút đọc

Highlights

Moonshot AI open-source Kimi K2.6 (20/04/2026) với Agent Swarm mở rộng lên 300 sub-agents × 4,000 bước, tự code liên tục 13 giờ, và một lần chạy ra 100+ file — vượt GPT-5.4 trên SWE-Bench Pro, dẫn đầu HLE-Full w/ tools.

TL;DR

Ngày 20/04/2026, Moonshot AI open-source Kimi K2.6 — một model MoE 1 nghìn tỷ tham số (32B kích hoạt/token) dưới giấy phép Modified MIT. Điểm nhấn không chỉ là benchmark — mà là Agent Swarm mở rộng lên 300 sub-agents × 4,000 bước phối hợp (gấp 3× K2.5), cho phép 1 lần chạy đơn lẻ cho ra file thật: 100+ file, review văn học 100.000 từ, dataset 20.000 dòng. K2.6 đạt 58,6% SWE-Bench Pro (vượt GPT-5.4) và dẫn đầu toàn bộ frontier trên HLE-Full with tools (54.0). Có mặt ngay trên Kimi.com, Kimi App, API (OpenAI + Anthropic SDK compatible), và HuggingFace.

Có gì mới so với K2.5?

Ba dịch chuyển quan trọng, không phải bản vá benchmark thường thấy:

Swarm scale 3×: từ 100 sub-agents / 1.500 bước → 300 sub-agents / 4.000 bước (+200% agents, +167% steps).
Kỹ năng không đồng nhất chạy song song: 1 agent phân tích flame graph, 1 agent rewrite hot path, 1 agent benchmark — tất cả đồng thời, cùng 1 lần chạy.
Claw Groups (research preview): người + agent từ bất kỳ thiết bị, bất kỳ model nào cùng chia sẻ công việc. Dev có thể nhảy vào sửa một subtask giữa chừng mà không giết cả pipeline — giải quyết điểm yếu cốt lõi của autonomous agents trước giờ: không course-correct được nếu không kill job.

Vì sao điều này quan trọng

Hầu hết model agentic hiện nay chỉ "deeper reasoning" — chuỗi suy luận dài hơn trên 1 luồng. K2.6 đi hướng ngược lại: scale horizontally. Với 300 agent chuyên biệt chạy song song, đầu ra không còn là một đoạn chat, mà là deliverable trọn gói: website có authentication, slide đẹp, spreadsheet nhiều sheet, research paper dài. Đây là bước dịch chuyển từ "AI trợ lý trả lời" sang "AI đồng nghiệp giao deliverable".

Bên cạnh đó, việc K2.6 open-weight trên HuggingFace ở mức chất lượng gần sát GPT-5.4 và Claude Opus 4.6 trên benchmark coding — trong cùng tuần với Qwen3.6-Max-Preview — xác nhận: khoảng cách giữa open và closed trên production coding đã gần như đóng lại.

Technical facts

Kiến trúc dùng chung với K2.5 nhưng được post-train mạnh hơn cho long-horizon agentic:

Spec	Giá trị
Total params	1T (MoE)
Activated params/token	32B
Layers	61 (1 dense)
Experts	384 total, 8 selected + 1 shared/token
Attention	MLA, 64 heads, hidden dim 7.168
Activation	SwiGLU
Context	256K tokens
Vocab	160K
Vision encoder	MoonViT, 400M params (native)
Quantization	Native INT4

Điểm benchmark đáng chú ý nhất:

HLE-Full w/ tools: 54.0 — dẫn đầu toàn bộ frontier (GPT-5.4 52.1 · Claude Opus 4.6 53.0 · Gemini 3.1 Pro 51.4).
SWE-Bench Pro: 58.6% — cao nhất trong open-weight, vượt GPT-5.4 (57.7) và Claude Opus 4.6 (53.4).
DeepSearchQA F1: 92.5 — chênh lệch lớn (GPT-5.4 78.6).
BrowseComp ở chế độ Agent Swarm: 86.3 (vs 78.4 cho K2.5).
LiveCodeBench v6: 89.6 · Terminal-Bench 2.0: 66.7 · SWE-Bench Verified: 80.2.

So sánh K2.5 → K2.6

Metric	K2.5	K2.6	Δ
Swarm size	100	300	+200%
Coordinated steps	1.500	4.000	+167%
SWE-Bench Pro	50.7%	58.6%	+7.9pp
HLE w/ Tools	50.2	54.0	+3.8
BrowseComp	74.9	83.2	+8.3
Claw Eval pass@3	75.4%	80.9%	+5.5pp

Lead trên SWE-Bench Pro vs GPT-5.4 mỏng (0.9pp — trong ngưỡng noise), nhưng khoảng cách vs Claude Opus 4.6 (5.2pp) là durable. Trên HLE w/ tools và DeepSearchQA, K2.6 lead cả đội frontier.

Use cases thực tế

Refactor 13 giờ một matching engine tài chính. Moonshot cho K2.6 tự overhaul exchange-core — dự án 8 năm tuổi. Trong 13 giờ liên tục, model đi qua 12 chiến lược tối ưu, hơn 1.000 tool call, chỉnh hơn 4.000 dòng code. Nó đọc flame graph CPU + allocation, tìm bottleneck ẩn, reconfigure thread topology (4ME+2RE → 2ME+1RE). Kết quả: +185% median throughput (0.43 → 1.24 triệu giao dịch/giây), +133% peak throughput (1.23 → 2.86 MT/s).

Code Zig trên Mac trong 12 giờ. K2.6 tự download Qwen3.5-0.8B về Mac, implement inference bằng Zig (ngôn ngữ cực niche — out-of-distribution), qua 14 iteration và 4.000+ tool call. Throughput đi từ ~15 → ~193 tokens/sec, ~20% nhanh hơn LM Studio.

Swarm ra deliverable thật trong 1 lần chạy:

1 bài paper astrophysics → Skill tái sử dụng → 40 trang / 7.000 từ research paper + dataset 20.000 dòng + 14 chart chuẩn astronomy.
1 CV → 100 sub-agents → 100 role California phù hợp + 100 CV tuỳ biến.
30 cửa hàng retail LA không có website (quét từ Google Maps) → 30 landing page high-converting.

24/7 proactive agent 5 ngày. Team RL infra nội bộ của Moonshot chạy 1 agent K2.6 liên tục 5 ngày: monitoring, incident response, vận hành hệ thống — full cycle từ alert đến resolution, không can thiệp người.

Limitations & pricing

Hardware wall: tự host 1T MoE cần multi-node vLLM + cluster A100/H100. Với phần lớn team, thực tế là dùng API.
Reasoning thuần: vẫn thua top closed trên HLE-Full no-tools, AIME 2026, GPQA-Diamond.
Context 256K: trên DeepSearchQA, task vượt 256K bị tính fail nếu không quản lý context.
License Modified MIT: free cho hầu hết, trừ sản phẩm thương mại có >100 triệu MAU hoặc >$20 triệu doanh thu/tháng — phải hiển thị credit "Kimi K2.6" trong UI (cùng điều khoản K2.5 từng gây ma sát với Cursor).
Pricing: chưa công bố giá API cụ thể trong tech blog; early testers mô tả "SOTA ở một phần giá closed frontier".
Deployment: vLLM / SGLang / KTransformers · transformers >= 4.57.1, < 5.0.0 · OpenAI & Anthropic SDK compatible · Native INT4.

What's next

Gap K2.5 → K2.6 chỉ 2 tháng. Nếu Moonshot giữ nhịp, bảng xếp hạng tháng 6/2026 có thể khác hoàn toàn. Claw Groups vẫn đang research preview — hướng phát triển là mở hơn nữa cho agent đa thiết bị/đa model. Trong cùng tuần, Alibaba cũng drop Qwen3.6-Max-Preview, xác nhận cuộc đua open-weight agentic coding giờ là multi-sided race.

Muốn thử ngay: kimi.com/agent-swarm. Tải weights: huggingface.co/moonshotai/Kimi-K2.6.

Nguồn: Kimi Tech Blog, MarkTechPost, The Decoder, HuggingFace.

Kimi K2.6 Agent Swarm: 300 sub-agents × 4,000 steps, và output là file thật chứ không phải chat

TL;DR

Có gì mới so với K2.5?

Vì sao điều này quan trọng

Technical facts

So sánh K2.5 → K2.6

Use cases thực tế

Limitations & pricing

What's next

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

AI Agent pops a root shell on Ubuntu 26.04 — on day one

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face

OpenClaw v2026.4.24: Google Meet agents, full-agent voice, and DeepSeek V4 land in one release