- Moonshot AI vừa release Kimi K2.6 — 1T-param MoE chạy phiên coding autonomous 12 giờ, điều phối 300 sub-agent.
- Venice vừa add model này với zero data retention, sẵn sàng cho coding agent và agentic workflow.
TL;DR
Moonshot AI chính thức release Kimi K2.6 ngày 21/04/2026 — model open-weight 1 nghìn tỷ tham số (MoE, 32B active) match hoặc vượt frontier closed models ở agentic coding. Ngay sau đó, Venice (nền tảng AI privacy-first) add K2.6 vào roster với zero data retention. Highlight: 58.6 SWE-Bench Pro (cao hơn GPT-5.4 và Claude Opus 4.6), 54.0 HLE-Full w/ tools (dẫn đầu tất cả), phiên autonomous 12 giờ, swarm 300 sub-agent chạy 4,000 bước phối hợp. Weights mở trên Hugging Face theo Modified MIT.

What's new
- Lên Venice ngay hôm nay. Venice khai báo K2.6 giờ là model option, dùng qua Claws, coding agent, agentic workflow — không lưu data user, không train ngược.
- Preview → GA chỉ 8 ngày. K2.6 Code Preview ra 13/04, GA ra 21/04 — nhanh nhất trong lịch sử dòng K2.
- Agent swarm 3× to hơn. 300 sub-agent × 4,000 step, so với K2.5 là 100 × 1,500.
- Context 262,144 token (tăng nhẹ từ K2.5), output reasoning lên tới 98,304 token.
- Native vision qua MoonViT encoder 400M params — input ảnh và video thẳng vào model, không phải adapter bolt-on.
Why it matters
Trước K2.6, "agentic coding" phần lớn là demo: model viết 1 file rồi bỏ cuộc, hoặc chuỗi tool call 50 bước là gãy. K2.6 đẩy thực nghiệm lên 4,000+ tool call trong 1 session không drift — nghĩa là bạn có thể giao cho nó refactor cả monorepo qua đêm và sáng ra coi kết quả. Với developer làm coding agent (Cline, OpenClaw, Claude Code clone), đây là lần đầu tiên một open model có reliability ngang closed frontier mà không phải trả token Anthropic/OpenAI.
Technical facts
| Thông số | Giá trị |
|---|---|
| Total params | 1T (MoE) |
| Active params / token | 32B |
| Experts | 384 (8 routed + 1 shared) |
| Attention | MLA (Multi-head Latent Attention) |
| Context window | 262,144 token |
| Max output (reasoning) | 98,304 token |
| Vision encoder | MoonViT 400M |
| Agent swarm | 300 sub-agent × 4,000 step |
| License | Modified MIT (open-weight) |
| Tool invocation success | 96.60% (CodeBuddy eval) |

Comparison vs frontier closed models
| Benchmark | Kimi K2.6 | GPT-5.4 (xhigh) | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-Bench Pro | 58.6 | 57.7 | 53.4 | 54.2 |
| SWE-Bench Verified | 80.2 | — | 80.8 | 80.6 |
| HLE-Full w/ tools | 54.0 | 52.1 | 53.0 | 51.4 |
| Terminal-Bench 2.0 | 66.7 | 65.4 | 65.4 | 68.5 |
| LiveCodeBench v6 | 89.6 | — | 88.8 | 91.7 |
| AIME 2026 | 96.4 | 99.2 | 96.7 | 98.3 |
K2.6 dẫn đầu ở SWE-Bench Pro và HLE-Full w/ tools — hai benchmark đo khả năng fix bug thật và dùng tool tự chủ. So với bản K2.5 trước đó: +7.9 SWE-Bench Pro, +15.9 Terminal-Bench 2.0, +20.5 Claw Eval.
Use cases thật — không phải demo
Refactor codebase 8 năm tuổi trong 13 giờ. K2.6 autonomous overhaul exchange-core — một Java financial matching engine. 1,000+ tool call, 4,000+ dòng code thay đổi, 12 chiến lược optimization, cuối cùng tăng 185% median throughput (0.43 → 1.24 MT/s). Model tự đọc CPU flame graph và reconfig thread topology từ 4ME+2RE xuống 2ME+1RE.

Port model sang Zig trong 12 giờ. K2.6 download Qwen3.5-0.8B về Mac, rewrite inference bằng Zig (ngôn ngữ niche), đạt 193 tokens/sec — nhanh hơn LM Studio ~20%.
Agent swarm 100-agent. Upload 1 CV, K2.6 spawn 100 sub-agent match 100 role ở California, trả về 100 resume custom. Hoặc: scan Google Maps tìm 30 shop ở LA chưa có website, gen landing page cho từng shop.
Proactive agent 5 ngày. Đội RL infra của Moonshot chạy K2.6-agent 5 ngày liên tục — monitor, incident response, cross-app orchestration, không cần người can thiệp.
Limitations & pricing
- Creative = cần prompt chặt. K2.6 có xu hướng improvise; giao task mơ hồ là nó vẽ luôn thứ khác. Instruction càng explicit càng ổn định.
- Chạy local cần GPU khủng. Full 1T MoE đòi multi-GPU H100. Community có build 4-bit / 3-bit GGUF (ubergarm, unsloth) chạy được trên hardware nhỏ hơn với quality loss nhẹ.
- Budget per session, không per request. Phiên 12 giờ tốn token đáng kể. Plan theo session, không theo call.
- API: OpenAI-compatible tại
https://api.moonshot.ai/v1, model IDkimi-k2.6vàkimi-k2.6-thinking. Giá tier: xem kimi.com/membership/pricing. - Có ở đâu: Venice, Kimi.com, Kimi App, Kimi Code CLI, Hugging Face, Kilo Gateway, Apidog.
What's next
Moonshot duy trì cadence 2-3 tháng/release: K2 (07/2025), K2.5 (01/2026), giờ là K2.6 (04/2026). Rò rỉ Reddit nhắc tới Kimi K3 target 3-4T params — match scale frontier Mỹ. Phân tích từ Latent Space cho rằng phiên 12 giờ và swarm 300 agent của K2.6 chính là "runway" infra built sẵn để host K3 khi nó rơi xuống.
Nói ngắn: nếu bạn đang build coding agent hoặc multi-agent system, K2.6 là lựa chọn open-weight mạnh nhất hiện tại. Lên Venice thử luôn — privacy-first, zero data retention, chạy ngay không cần config lại prompt.
Ai nên quan tâm? Dev team xây long-running coding agent (4,000-step run không còn là marketing, nó là architecture). Team triển khai multi-agent system — Agent Swarm và Claw Groups cho bạn điều phối 300 agent mà không phải tự viết supervisor. Team cần open-weight production: model sovereignty, fine-tune custom, hoặc compliance buộc không gửi data ra closed API. Và team làm high-throughput API work: inference MoE rẻ hơn hẳn closed model, endpoint OpenAI-compatible drop thẳng vào code cũ không sửa.
Điều cần cân nhắc: K2.6 không phải endpoint. Nó là harness đang được build sẵn để host K3 — và K3 có thể tới sớm hơn bạn nghĩ.
Nguồn: Moonshot AI blog, MarkTechPost, kimi-k2.org, @AskVenice.


