TL;DR

Moonshot AI (Trung Quốc) ra mắt Kimi K2.6 ngày 20/04/2026 - mô hình Mixture-of-Experts 1 nghìn tỷ tham số, 32B active mỗi token, Modified MIT License. Điểm khác biệt cốt lõi: kiến trúc Agent Swarm 300 sub-agent chạy song song, 4.000 bước phối hợp, tự chạy liên tục 12-13 giờ không cần người can thiệp. Giá API $0.60/triệu token - rẻ hơn Claude Opus 4.6 khoảng 8 lần. Weights public trên Hugging Face, có sẵn trên Cloudflare Workers AI.

Không phải chatbot - đây là project manager

Cách dễ hiểu nhất về Kimi K2.6: thay vì một nhân viên thông minh xử lý từng task một, bạn có một điều phối viên có thể giao việc cho 300 nhân viên chuyên biệt cùng lúc.

Khi nhận một yêu cầu phức tạp, main agent phân tích tác vụ, chia nhỏ thành các phần độc lập, tạo sub-agent chuyên biệt cho từng phần, thu thập kết quả, và tổng hợp output cuối cùng. Kết quả xuất trực tiếp ra file - Word, PDF, Excel, PowerPoint - không bị kẹt trong chat window.

Tính năng Claw Groups (hiện ở research preview) mở rộng mô hình này ra bên ngoài: con người và agent của bên thứ ba từ bất kỳ thiết bị nào đều có thể tham gia swarm, K2.6 đóng vai điều phối.

Thực tế - swarm làm được gì

Các con số ấn tượng nhất không phải từ benchmark lab:

  • Tối ưu inference Zig trên M3 Max: K2.6 chạy 12 giờ liên tục, 4.000+ tool calls, 14 vòng lặp - throughput từ 15 lên 193 token/giây (tăng 12 lần, vượt baseline LM Studio 20%).
  • Financial engine overhaul: 13 giờ, 1.000+ tool calls, chỉnh 4.000+ dòng code, thử 12 chiến lược - throughput trung bình tăng 185%.
  • Moonshot RL team đã chạy một agent tự động liên tục 5 ngày cho infrastructure operations.
  • Research tổng hợp: Literature review 104 trang, hoặc báo cáo thiên văn 40 trang kèm dataset 20.000 entry.
  • Business automation: Tìm 30 cửa hàng địa phương thiếu website qua Google Maps, tạo landing page và email outreach cho từng cửa hàng - trong một single prompt.

LLM inference optimization chart - từ 15 lên 193 token/giây sau 12 giờ

Điều kiện để swarm hoạt động hiệu quả: prompt phải là một spec chi tiết, không phải câu lệnh mơ hồ. Nguồn được phép, fields bắt buộc, conflict rules, output format, điều kiện dừng - mỗi thứ cần rõ ràng. Một câu vague gửi đến 300 agent chỉ ra slop phân tán.

So sánh kỹ thuật

Tiêu chíKimi K2.6Claude Opus 4.6GPT-5.4
SWE-Bench Pro58.6%53.4%57.7%
HLE with tools54.0%53.0%52.1%
DeepSearchQA (F1)92.5-78.6
AIME 202696.4%-99.2%
Context window262K200K1M
API input ($/1M)$0.60$5.00~$5.00
Agent swarm300 agentsKhongKhong
Output speed34 t/s61 t/s88 t/s

Kimi Code Bench - K2.6 dat 68.2 so voi K2.5 la 57.4

K2.6 dẫn đầu trên các benchmark agentic và coding, nhưng thua về tốc độ (34 t/s so với median 57.4 t/s của peer models), context window (262K vs 1M của GPT-5.4), và các tác vụ lý luận toán học thuần túy. Một điểm cần lưu ý: K2.6 có xu hướng verbose - sinh ra 170M token trên eval trong khi median là 42M, có nghĩa cost thực tế có thể cao hơn tính trên paper.

Agent swarm benchmark

Kimi Claw Bench - K2.6 dat 65.5 so voi K2.5 la 59.6

Kimi Claw Bench - benchmark đặc thù cho autonomous agent operations - K2.6 đạt 65.5 so với K2.5's 59.6 (+9.8%). Đây là loại benchmark phản ánh khả năng thực chiến của swarm tốt hơn các benchmark chatbot thông thường.

Giá cả và cách truy cập

  • API Moonshot: $0.60/1M input, $2.80/1M output, $0.15/1M cached (giảm 75% tự động)
  • So sánh thực tế: Cùng usage 100M input + 10M output/tháng - K2.6 khoảng $85, Claude Opus 4.6 khoảng $2.550
  • Cloudflare Workers AI: Dùng miễn phí trong daily free allowance của Cloudflare Workers plan (@cf/moonshotai/kimi-k2.6) - đây là cách nhanh nhất để dùng thử
  • OpenCode: CLI tool cho phép kết nối K2.6 qua Cloudflare, tương tự workflow của Claude Code
  • Self-host: Weights trên Hugging Face (moonshotai/Kimi-K2.6), chạy với vLLM/SGLang/KTransformers

License Modified MIT cho phép dùng thương mại tự do, trừ trường hợp MAU >100M hoặc doanh thu >$20M/tháng - khi đó cần credit "Kimi K2.6" hiển thị trong UI.

Nên dùng khi nào

Kimi K2.6 phù hợp: tác vụ có thể parallel hóa được (research tổng hợp, data scraping có cấu trúc, code audit đa module, content generation theo template), workload chạy qua đêm, hoặc bất kỳ khi nào bạn cần nhiều output đồng thời mà không muốn trả giá Claude/GPT.

Claude vẫn là lựa chọn tốt hơn: code review cần judgment tinh tế, viết lách chất lượng cao, tác vụ sequential cần một luồng suy nghĩ nhất quán, hoặc bất kỳ task nào cần một người làm cẩn thận thay vì một phòng đầy người làm nhanh.

Moonshot đang đặt cược lớn rằng frontier tiếp theo của AI không phải chatbot thông minh hơn mà là orchestration - khả năng điều phối hàng trăm agent qua hàng nghìn bước, duy trì coherence suốt nhiều giờ hoặc nhiều ngày. K2.6 là bằng chứng thuyết phục nhất cho hướng đi đó tính đến thời điểm này.

Nguon: MarkTechPost, The Decoder, VentureBeat, Cloudflare.