TL;DR

Moonshot AI phát hành Kimi K2.6 (GA 21/04/2026) — model open-weight 1T tham số (32B active/token) hướng thẳng vào long-horizon autonomous coding. Case study đáng chú ý nhất: K2.6 tự một mình đại tu exchange-core — một matching engine tài chính Java 8 năm tuổi, vốn đã được tối ưu sát trần — trong một phiên chạy liên tục 13 giờ, thực hiện 1,000+ tool call, sửa 4,000+ dòng code, thử 12 chiến lược tối ưu, và đổi thread topology lõi từ 4ME+2RE sang 2ME+1RE. Kết quả: throughput trung vị tăng +185% (0.43 → 1.24 MT/s), peak tăng +133% (1.23 → 2.86 MT/s). Đây là bằng chứng thực nghiệm cho "AI senior engineer" chứ không phải trình diễn benchmark.

Biểu đồ Multi-Objective Performance Optimization của K2.6 trên exchange-core: baseline (1.23, 0.43) dịch lên V2 Empty-Set Short-Circuit (2.86, 1.24), +133% Perf, +185% Medium

Có gì mới trong K2.6

K2.6 không phải là bước nhảy kiến trúc. Nó giữ nguyên backbone 1T MoE của series K2 (1T tổng / 32B active, 384 experts, 8 active + 1 shared per token, MLA attention, SwiGLU, MuonClip). Điểm mới nằm ở lớp thực thi (execution layer) bao quanh model — đúng thứ cần để agent chạy 12 giờ không tự bung:

  • Context 262,144 tokens, đủ chứa một mid-sized monorepo + test output + scratchpad của agent.
  • Automatic context compression: model tự tóm tắt/lược bỏ lịch sử khi sắp tràn — phiên 12 giờ không bị drift ở giờ thứ 9.
  • Agent Swarm v2: spawning/scheduling/reconciling tối đa 300 sub-agents trên 4,000 bước phối hợp — gấp 3 lần K2.5 (100 agents / 1,500 bước).
  • Proactive autonomy: tuned để chạy 24/7 theo task queue, biết nhận ra "tao đang kẹt" và replan thay vì ảo tưởng đã xong.

Vì sao exchange-core là bằng chứng thuyết phục

exchange-core là open-source Java, 8 năm tuổi, đã qua nhiều vòng tay con người tối ưu. "Vụng tay" là không được phép: nếu matching invariants vỡ thì toàn bộ logic khớp lệnh sai, không chỉ chậm. Đây chính là workload mà hầu hết model trước đó thất bại âm thầm — chúng sinh ra diff trông hợp lý nhưng regress correctness.

Cái khác của K2.6 là cách tiếp cận: nó đọc CPU flame graphallocation flame graph để tìm bottleneck ẩn, rồi dám tái cấu hình thread topology lõi — một quyết định kiến trúc, không chỉ micro-optimization. Trên một engine đã sát trần hiệu năng, vẫn moi thêm được +185% throughput trung vị chỉ bằng một phiên chạy một mình qua đêm.

Chi tiết kỹ thuật quan trọng

  • Thời lượng phiên: 13 giờ liên tục, không can thiệp người.
  • Tool calls: 1,000+ lần gọi công cụ.
  • Code modified: 4,000+ dòng trong codebase Java lớn.
  • Iterations: 12 chiến lược tối ưu được thử, so sánh, loại bỏ, chồng lớp.
  • Thread topology: 4ME+2RE2ME+1RE (Matching Engine / Risk Engine).
  • Throughput trung vị (Medium): 0.43 → 1.24 MT/s (+185%).
  • Throughput peak (Perf): 1.23 → 2.86 MT/s (+133%).

Bên cạnh đó, Moonshot cũng công bố hai case study khác: tối ưu inference Qwen3.5-0.8B trên Mac bằng Zig (12+ giờ, ~193 tok/s, nhanh hơn LM Studio ~20%), và một RL infra agent chạy autonomous 5 ngày liên tục quản lý monitoring/incident của chính đội Moonshot.

So với GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro

Kimi Code Bench: K2.5 đạt 57.4, K2.6 đạt 68.2

BenchmarkK2.6GPT-5.4 (xhigh)Claude Opus 4.6Gemini 3.1 ProK2.5
SWE-Bench Pro58.657.753.454.250.7
SWE-Bench Verified80.280.880.676.8
Terminal-Bench 2.066.765.465.468.550.8
LiveCodeBench v689.688.891.785.0
HLE-Full w/ tools54.052.153.051.450.2
DeepSearchQA (F1)92.578.691.381.989.0

K2.6 dẫn trên SWE-Bench Pro (bài test hard-cut GitHub issues thật), HLE-Full w/ tools (tool-augmented reasoning) và DeepSearchQA. Gemini 3.1 Pro vẫn dẫn Terminal-Bench và LiveCodeBench; GPT-5.4 dẫn pure reasoning (AIME, GPQA). Điểm khác biệt lớn: K2.6 là option open-weight duy nhất ở dải này.

Ai nên dùng, dùng vào đâu

  • Fintech & systems architects: refactor legacy Java/C++ nặng, tối ưu hiệu năng mà không làm vỡ invariant — đúng kịch bản exchange-core.
  • DevOps / SRE: giao agent chạy 24/7 quản lý alert, incident response, full-cycle từ cảnh báo đến khắc phục (Moonshot đã chạy 5 ngày liên tục trên infra thật của họ).
  • Full-stack dev: design-to-code Next.js App Router + auth + DB; Vercel báo >50% cải thiện trên internal bench so với K2.5.
  • Agent swarm knowledge work: 100 sub-agents đọc 1 CV → 100 resume tuỳ biến theo 100 job; scan Google Maps tìm store thiếu website → sinh landing page hàng loạt.
  • Low-level systems & niche languages: Zig/Rust — K2.6 generalize out-of-distribution tốt trên ngôn ngữ ít dữ liệu huấn luyện.

Giới hạn & pricing

  • Open-weight, không open-source: weights trên Hugging Face (moonshotai/Kimi-K2.6) dưới Modified MIT License, nhưng training data + training code không công khai.
  • API: OpenAI-compatible tại https://api.moonshot.ai/v1, model IDs kimi-k2.6kimi-k2.6-thinking. Drop-in được cho workflow Claude Code hiện có (Anthropic-format cũng hỗ trợ).
  • Access: Kimi.com, Kimi App, API, Kimi Code CLI, Kilo Gateway (VS Code/JetBrains), free tier qua Cloudflare Workers AI.
  • Pricing: MoE inference rẻ hơn frontier đóng đáng kể. Phiên autonomous tốn token — Moonshot khuyến cáo budget theo session, không theo request.
  • Self-host: 1T full cần multi-GPU H100-class; bản quantize 3-bit/4-bit chạy được trên hardware nhỏ hơn nhưng giảm chất lượng.
  • Điểm yếu: Agent Swarm latency tính bằng phút, không phù hợp chat sub-second. Kém Claude 4.6 về nuanced refusal/safety. Model "rất sáng tạo" — thiếu prompt rõ ràng sẽ tự bay.

Chặng kế: K3 đang chờ chạy trên "runway" này

Moonshot đi từ K2.6 Code Preview (13/04/2026) đến GA (21/04/2026) chỉ trong 8 ngày — rất nhanh so với nhịp 2-3 tháng/major update họ duy trì gần một năm. Giới quan sát đọc K2.6 như runway infrastructure cho Kimi K3: 12h execution envelope + 300-agent swarm + context compressor là những capability chỉ hợp lý khi có một base model lớn hơn sắp landing. Leak Reddit trước đó nhắc đến K3 với 3-4T tham số để đuổi sát frontier Mỹ. Nếu nhịp preview-to-GA tiếp tục nén, K3 có thể đến sớm hơn người ta tưởng.

Nguồn: Moonshot AI official blog, MarkTechPost, Kilo Blog, @Kimi_Moonshot trên X.