- Kimi K2.6 của Moonshot AI hỗ trợ 300 sub-agent song song với 4.000 bước phối hợp - gấp 3 lần phiên bản trước.
- Mô hình chạy tự động liên tục 12-13 giờ, tăng throughput từ 15 lên 193 token/giây trong một lần chạy.
- Chi phí API chỉ $0.60/triệu token đầu vào, rẻ hơn 8 lần so với Claude Opus 4.6.
- Open-source theo Modified MIT License.
TL;DR
Moonshot AI (Trung Quốc, định giá $4.8 tỷ) ra mắt Kimi K2.6 ngày 20/04/2026 - mô hình open-weight Mixture-of-Experts 1 nghìn tỷ tham số, 32B active mỗi token. Điểm khác biệt chính không phải benchmark mà là kiến trúc Agent Swarm: 300 sub-agent chạy song song, 4.000 bước phối hợp, tự chạy liên tục 12-13 giờ mà không cần người can thiệp. Giá API $0.60/triệu token - rẻ hơn Claude Opus 4.6 khoảng 8 lần. Weights public trên Hugging Face.
Kimi K2.6 là gì?
Kimi K2.6 không phải chatbot thông thường. Đây là mô hình được thiết kế đặc biệt cho long-horizon agentic execution - tức là thực thi các tác vụ dài hạn với nhiều bước phức tạp mà không cần con người liên tục giám sát.
Kiến trúc MoE (Mixture-of-Experts) gồm 1 nghìn tỷ tham số tổng nhưng chỉ 32B active mỗi token - cách này tăng hiệu quả tính toán đáng kể mà không mất độ sâu kiến thức. Vision encoder MoonViT (400M params) xử lý text, ảnh, video native. Context window 262.144 token.
Tính năng mới nổi bật nhất là Claw Groups (research preview): con người và agent bên thứ ba từ bất kỳ thiết bị nào đều có thể tham gia swarm với tư cách cộng tác viên, K2.6 đóng vai điều phối.
Con số đáng chú ý
Từ K2.5 sang K2.6, Moonshot tăng quy mô swarm đáng kể:
| Chỉ số | K2.5 | K2.6 |
|---|---|---|
| Sub-agents tối đa | 100 | 300 (+3x) |
| Bước phối hợp | 1.500 | 4.000 (+2.7x) |
| SWE-Bench Pro | 50.7% | 58.6% |
| Code accuracy | baseline | +12% |
| Long-context stability | baseline | +18% |
Benchmark nổi bật: HLE with tools 54.0% (dẫn đầu, cao hơn Claude Opus 4.6 ở 53.0% và GPT-5.4 ở 52.1%), SWE-Bench Pro 58.6% (Claude Opus 4.6: 53.4%, GPT-5.4: 57.7%), DeepSearchQA 92.5 F1 (GPT-5.4 chỉ 78.6).
Swarm trong thực tế
Các con số ấn tượng nhất không phải từ benchmark lab mà từ các tác vụ thực:
- Tối ưu Zig inference: K2.6 chạy 12 giờ liên tục, thực hiện 4.000+ tool calls, 14 vòng lặp iteration - throughput tăng từ 15 lên 193 token/giây (tức tăng hơn 12 lần).
- Financial engine overhaul: 13 giờ, 1.000+ tool calls, chỉnh sửa 4.000+ dòng code, thử 12 chiến lược tối ưu - throughput trung bình tăng 185%.
- RL infra team của Moonshot đã chạy một agent tự động suốt 5 ngày liên tục.
- Research tổng hợp: Một lần chạy tạo ra 104-page literature review, hoặc báo cáo thiên văn học 40 trang kèm dataset 20.000 entry và 14 biểu đồ.
- Business automation: Tìm 30 cửa hàng địa phương thiếu website qua Google Maps, tạo landing page và email outreach cho từng cửa hàng - trong một single prompt.
Điểm then chốt không phải là model mạnh hơn, mà là cách viết prompt. Một câu lệnh mơ hồ gửi đến 300 agent chỉ cho ra slop phân tán. Một markdown spec chi tiết - sources được phép, fields bắt buộc, conflict rules, output format, điều kiện dừng - mới là thứ khai thác hết sức mạnh của swarm.
So sánh với Claude và GPT-5.4
| Tiêu chí | Kimi K2.6 | Claude Opus 4.6 | GPT-5.4 |
|---|---|---|---|
| SWE-Bench Pro | 58.6% | 53.4% | 57.7% |
| HLE with tools | 54.0% | 53.0% | 52.1% |
| DeepSearchQA (F1) | 92.5 | - | 78.6 |
| AIME 2026 | 96.4% | - | 99.2% |
| Context window | 262K | 200K | 1M |
| API input ($/1M) | $0.60 | $5.00 | ~$5.00 |
| Agent swarm | 300 agents | Không | Không |
| Open-source | Có | Không | Không |
Kimi K2.6 thua ở lý luận thuần túy (AIME 2026: 96.4% so với GPT-5.4's 99.2%), GUI automation, và các tác vụ cần context cực lớn (>262K token). Claude vẫn vượt trội ở code review tinh tế, viết lách chất lượng cao, và các tác vụ sequential cần độ chính xác cao.
Giá cả và cách dùng
Chi phí là lợi thế cạnh tranh lớn nhất của K2.6:
- API: $0.60/triệu token input, $2.80/triệu token output
- Cached input: $0.15/triệu (giảm 75% tự động, không cần config)
- Ước tính: Cùng mức sử dụng 100M input + 10M output/tháng - K2.6 ~$85, Claude Opus 4.6 ~$2.550 (tức rẻ hơn 30 lần)
- Free tier: kimi.com với usage cap
Có thể dùng qua: kimi.com, Kimi Code CLI, Moonshot API (OpenAI-compatible tại api.moonshot.ai/v1), Hugging Face weights (moonshotai/Kimi-K2.6) tự host với vLLM/SGLang, hoặc Cloudflare Workers AI miễn phí (@cf/moonshotai/kimi-k2.6 - đối tác Day 0). INT4 quantization hỗ trợ inference nhanh hơn 2x trên consumer hardware.
Lưu ý license Modified MIT: dùng thương mại tự do trừ khi MAU >100M hoặc doanh thu >$20M/tháng (cần credit "Kimi K2.6" hiển thị trong UI).
Ai nên dùng và tiếp theo
K2.6 phù hợp nhất cho:
- Startup và dev team chạy workload agentic nặng - tiết kiệm ~$29.580/năm so với Claude Opus 4.6 cùng mức dùng
- Researcher và analyst cần tổng hợp tài liệu lớn, output trực tiếp ra file có thể dùng ngay
- Doanh nghiệp cần replicable templates - tính năng "Skills" chuyển đổi tài liệu nội bộ thành skill tái dùng được, giữ nguyên style DNA
Không phù hợp: tác vụ lý luận toán học phức tạp, GUI automation, hoặc cần context >262K token (codebase toàn bộ trong một prompt).
Roadmap tiếp theo của Moonshot tập trung vào hoàn thiện Claw Groups (human-agent hybrid orchestration hiện đang ở research preview) và giảm lỗi compound trong swarm dài hạn. Chưa có thông báo về K2.7 hay K3.
Nguồn: MarkTechPost, The Decoder, VentureBeat, Cloudflare.


