Kimi K2.6 lên Venice: model open-source đánh bại GPT-5.4 trên SWE-Bench Pro

TL;DR

Moonshot AI chính thức release Kimi K2.6 ngày 21/04/2026 — model open-weight 1 nghìn tỷ tham số (MoE, 32B active) match hoặc vượt frontier closed models ở agentic coding. Ngay sau đó, Venice (nền tảng AI privacy-first) add K2.6 vào roster với zero data retention. Highlight: 58.6 SWE-Bench Pro (cao hơn GPT-5.4 và Claude Opus 4.6), 54.0 HLE-Full w/ tools (dẫn đầu tất cả), phiên autonomous 12 giờ, swarm 300 sub-agent chạy 4,000 bước phối hợp. Weights mở trên Hugging Face theo Modified MIT.

Kimi K2.6 hero visual

What's new

Lên Venice ngay hôm nay. Venice khai báo K2.6 giờ là model option, dùng qua Claws, coding agent, agentic workflow — không lưu data user, không train ngược.
Preview → GA chỉ 8 ngày. K2.6 Code Preview ra 13/04, GA ra 21/04 — nhanh nhất trong lịch sử dòng K2.
Agent swarm 3× to hơn. 300 sub-agent × 4,000 step, so với K2.5 là 100 × 1,500.
Context 262,144 token (tăng nhẹ từ K2.5), output reasoning lên tới 98,304 token.
Native vision qua MoonViT encoder 400M params — input ảnh và video thẳng vào model, không phải adapter bolt-on.

Why it matters

Trước K2.6, "agentic coding" phần lớn là demo: model viết 1 file rồi bỏ cuộc, hoặc chuỗi tool call 50 bước là gãy. K2.6 đẩy thực nghiệm lên 4,000+ tool call trong 1 session không drift — nghĩa là bạn có thể giao cho nó refactor cả monorepo qua đêm và sáng ra coi kết quả. Với developer làm coding agent (Cline, OpenClaw, Claude Code clone), đây là lần đầu tiên một open model có reliability ngang closed frontier mà không phải trả token Anthropic/OpenAI.

Technical facts

Thông số	Giá trị
Total params	1T (MoE)
Active params / token	32B
Experts	384 (8 routed + 1 shared)
Attention	MLA (Multi-head Latent Attention)
Context window	262,144 token
Max output (reasoning)	98,304 token
Vision encoder	MoonViT 400M
Agent swarm	300 sub-agent × 4,000 step
License	Modified MIT (open-weight)
Tool invocation success	96.60% (CodeBuddy eval)

Kimi Code Bench: K2.5 (57.4) vs K2.6 (68.2)

Comparison vs frontier closed models

Benchmark	Kimi K2.6	GPT-5.4 (xhigh)	Claude Opus 4.6	Gemini 3.1 Pro
SWE-Bench Pro	58.6	57.7	53.4	54.2
SWE-Bench Verified	80.2	—	80.8	80.6
HLE-Full w/ tools	54.0	52.1	53.0	51.4
Terminal-Bench 2.0	66.7	65.4	65.4	68.5
LiveCodeBench v6	89.6	—	88.8	91.7
AIME 2026	96.4	99.2	96.7	98.3

K2.6 dẫn đầu ở SWE-Bench Pro và HLE-Full w/ tools — hai benchmark đo khả năng fix bug thật và dùng tool tự chủ. So với bản K2.5 trước đó: +7.9 SWE-Bench Pro, +15.9 Terminal-Bench 2.0, +20.5 Claw Eval.

Use cases thật — không phải demo

Refactor codebase 8 năm tuổi trong 13 giờ. K2.6 autonomous overhaul exchange-core — một Java financial matching engine. 1,000+ tool call, 4,000+ dòng code thay đổi, 12 chiến lược optimization, cuối cùng tăng 185% median throughput (0.43 → 1.24 MT/s). Model tự đọc CPU flame graph và reconfig thread topology từ 4ME+2RE xuống 2ME+1RE.

Biểu đồ tối ưu hóa exchange-core: baseline 1.23 → 2.86 MT/s

Port model sang Zig trong 12 giờ. K2.6 download Qwen3.5-0.8B về Mac, rewrite inference bằng Zig (ngôn ngữ niche), đạt 193 tokens/sec — nhanh hơn LM Studio ~20%.

Agent swarm 100-agent. Upload 1 CV, K2.6 spawn 100 sub-agent match 100 role ở California, trả về 100 resume custom. Hoặc: scan Google Maps tìm 30 shop ở LA chưa có website, gen landing page cho từng shop.

Proactive agent 5 ngày. Đội RL infra của Moonshot chạy K2.6-agent 5 ngày liên tục — monitor, incident response, cross-app orchestration, không cần người can thiệp.

Limitations & pricing

Creative = cần prompt chặt. K2.6 có xu hướng improvise; giao task mơ hồ là nó vẽ luôn thứ khác. Instruction càng explicit càng ổn định.
Chạy local cần GPU khủng. Full 1T MoE đòi multi-GPU H100. Community có build 4-bit / 3-bit GGUF (ubergarm, unsloth) chạy được trên hardware nhỏ hơn với quality loss nhẹ.
Budget per session, không per request. Phiên 12 giờ tốn token đáng kể. Plan theo session, không theo call.
API: OpenAI-compatible tại https://api.moonshot.ai/v1, model ID kimi-k2.6 và kimi-k2.6-thinking. Giá tier: xem kimi.com/membership/pricing.
Có ở đâu: Venice, Kimi.com, Kimi App, Kimi Code CLI, Hugging Face, Kilo Gateway, Apidog.

What's next

Moonshot duy trì cadence 2-3 tháng/release: K2 (07/2025), K2.5 (01/2026), giờ là K2.6 (04/2026). Rò rỉ Reddit nhắc tới Kimi K3 target 3-4T params — match scale frontier Mỹ. Phân tích từ Latent Space cho rằng phiên 12 giờ và swarm 300 agent của K2.6 chính là "runway" infra built sẵn để host K3 khi nó rơi xuống.

Nói ngắn: nếu bạn đang build coding agent hoặc multi-agent system, K2.6 là lựa chọn open-weight mạnh nhất hiện tại. Lên Venice thử luôn — privacy-first, zero data retention, chạy ngay không cần config lại prompt.

Ai nên quan tâm? Dev team xây long-running coding agent (4,000-step run không còn là marketing, nó là architecture). Team triển khai multi-agent system — Agent Swarm và Claw Groups cho bạn điều phối 300 agent mà không phải tự viết supervisor. Team cần open-weight production: model sovereignty, fine-tune custom, hoặc compliance buộc không gửi data ra closed API. Và team làm high-throughput API work: inference MoE rẻ hơn hẳn closed model, endpoint OpenAI-compatible drop thẳng vào code cũ không sửa.

Điều cần cân nhắc: K2.6 không phải endpoint. Nó là harness đang được build sẵn để host K3 — và K3 có thể tới sớm hơn bạn nghĩ.

Nguồn: Moonshot AI blog, MarkTechPost, kimi-k2.org, @AskVenice.

Kimi K2.6 lên Venice: model open-source đánh bại GPT-5.4 trên SWE-Bench Pro

TL;DR

What's new

Why it matters

Technical facts

Comparison vs frontier closed models

Use cases thật — không phải demo

Limitations & pricing

What's next

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding

DeepSeek V4 Pro tự hack 3 challenge PortSwigger và 1 app Android — review bởi Claude Opus 4.7