TL;DR

Moonshot AI chính thức release Kimi K2.6 ngày 21/04/2026 — model open-weight 1 nghìn tỷ tham số (MoE, 32B active) match hoặc vượt frontier closed models ở agentic coding. Ngay sau đó, Venice (nền tảng AI privacy-first) add K2.6 vào roster với zero data retention. Highlight: 58.6 SWE-Bench Pro (cao hơn GPT-5.4 và Claude Opus 4.6), 54.0 HLE-Full w/ tools (dẫn đầu tất cả), phiên autonomous 12 giờ, swarm 300 sub-agent chạy 4,000 bước phối hợp. Weights mở trên Hugging Face theo Modified MIT.

Kimi K2.6 hero visual

What's new

  • Lên Venice ngay hôm nay. Venice khai báo K2.6 giờ là model option, dùng qua Claws, coding agent, agentic workflow — không lưu data user, không train ngược.
  • Preview → GA chỉ 8 ngày. K2.6 Code Preview ra 13/04, GA ra 21/04 — nhanh nhất trong lịch sử dòng K2.
  • Agent swarm 3× to hơn. 300 sub-agent × 4,000 step, so với K2.5 là 100 × 1,500.
  • Context 262,144 token (tăng nhẹ từ K2.5), output reasoning lên tới 98,304 token.
  • Native vision qua MoonViT encoder 400M params — input ảnh và video thẳng vào model, không phải adapter bolt-on.

Why it matters

Trước K2.6, "agentic coding" phần lớn là demo: model viết 1 file rồi bỏ cuộc, hoặc chuỗi tool call 50 bước là gãy. K2.6 đẩy thực nghiệm lên 4,000+ tool call trong 1 session không drift — nghĩa là bạn có thể giao cho nó refactor cả monorepo qua đêm và sáng ra coi kết quả. Với developer làm coding agent (Cline, OpenClaw, Claude Code clone), đây là lần đầu tiên một open model có reliability ngang closed frontier mà không phải trả token Anthropic/OpenAI.

Technical facts

Thông sốGiá trị
Total params1T (MoE)
Active params / token32B
Experts384 (8 routed + 1 shared)
AttentionMLA (Multi-head Latent Attention)
Context window262,144 token
Max output (reasoning)98,304 token
Vision encoderMoonViT 400M
Agent swarm300 sub-agent × 4,000 step
LicenseModified MIT (open-weight)
Tool invocation success96.60% (CodeBuddy eval)

Kimi Code Bench: K2.5 (57.4) vs K2.6 (68.2)

Comparison vs frontier closed models

BenchmarkKimi K2.6GPT-5.4 (xhigh)Claude Opus 4.6Gemini 3.1 Pro
SWE-Bench Pro58.657.753.454.2
SWE-Bench Verified80.280.880.6
HLE-Full w/ tools54.052.153.051.4
Terminal-Bench 2.066.765.465.468.5
LiveCodeBench v689.688.891.7
AIME 202696.499.296.798.3

K2.6 dẫn đầu ở SWE-Bench Pro và HLE-Full w/ tools — hai benchmark đo khả năng fix bug thật và dùng tool tự chủ. So với bản K2.5 trước đó: +7.9 SWE-Bench Pro, +15.9 Terminal-Bench 2.0, +20.5 Claw Eval.

Use cases thật — không phải demo

Refactor codebase 8 năm tuổi trong 13 giờ. K2.6 autonomous overhaul exchange-core — một Java financial matching engine. 1,000+ tool call, 4,000+ dòng code thay đổi, 12 chiến lược optimization, cuối cùng tăng 185% median throughput (0.43 → 1.24 MT/s). Model tự đọc CPU flame graph và reconfig thread topology từ 4ME+2RE xuống 2ME+1RE.

Biểu đồ tối ưu hóa exchange-core: baseline 1.23 → 2.86 MT/s

Port model sang Zig trong 12 giờ. K2.6 download Qwen3.5-0.8B về Mac, rewrite inference bằng Zig (ngôn ngữ niche), đạt 193 tokens/sec — nhanh hơn LM Studio ~20%.

Agent swarm 100-agent. Upload 1 CV, K2.6 spawn 100 sub-agent match 100 role ở California, trả về 100 resume custom. Hoặc: scan Google Maps tìm 30 shop ở LA chưa có website, gen landing page cho từng shop.

Proactive agent 5 ngày. Đội RL infra của Moonshot chạy K2.6-agent 5 ngày liên tục — monitor, incident response, cross-app orchestration, không cần người can thiệp.

Limitations & pricing

  • Creative = cần prompt chặt. K2.6 có xu hướng improvise; giao task mơ hồ là nó vẽ luôn thứ khác. Instruction càng explicit càng ổn định.
  • Chạy local cần GPU khủng. Full 1T MoE đòi multi-GPU H100. Community có build 4-bit / 3-bit GGUF (ubergarm, unsloth) chạy được trên hardware nhỏ hơn với quality loss nhẹ.
  • Budget per session, không per request. Phiên 12 giờ tốn token đáng kể. Plan theo session, không theo call.
  • API: OpenAI-compatible tại https://api.moonshot.ai/v1, model ID kimi-k2.6kimi-k2.6-thinking. Giá tier: xem kimi.com/membership/pricing.
  • Có ở đâu: Venice, Kimi.com, Kimi App, Kimi Code CLI, Hugging Face, Kilo Gateway, Apidog.

What's next

Moonshot duy trì cadence 2-3 tháng/release: K2 (07/2025), K2.5 (01/2026), giờ là K2.6 (04/2026). Rò rỉ Reddit nhắc tới Kimi K3 target 3-4T params — match scale frontier Mỹ. Phân tích từ Latent Space cho rằng phiên 12 giờ và swarm 300 agent của K2.6 chính là "runway" infra built sẵn để host K3 khi nó rơi xuống.

Nói ngắn: nếu bạn đang build coding agent hoặc multi-agent system, K2.6 là lựa chọn open-weight mạnh nhất hiện tại. Lên Venice thử luôn — privacy-first, zero data retention, chạy ngay không cần config lại prompt.

Ai nên quan tâm? Dev team xây long-running coding agent (4,000-step run không còn là marketing, nó là architecture). Team triển khai multi-agent system — Agent Swarm và Claw Groups cho bạn điều phối 300 agent mà không phải tự viết supervisor. Team cần open-weight production: model sovereignty, fine-tune custom, hoặc compliance buộc không gửi data ra closed API. Và team làm high-throughput API work: inference MoE rẻ hơn hẳn closed model, endpoint OpenAI-compatible drop thẳng vào code cũ không sửa.

Điều cần cân nhắc: K2.6 không phải endpoint. Nó là harness đang được build sẵn để host K3 — và K3 có thể tới sớm hơn bạn nghĩ.

Nguồn: Moonshot AI blog, MarkTechPost, kimi-k2.org, @AskVenice.