Kimi K2.6 tự tay refactor engine tài chính 8 năm tuổi: +185% throughput sau 13 giờ chạy một mình

TL;DR

Moonshot AI phát hành Kimi K2.6 (GA 21/04/2026) — model open-weight 1T tham số (32B active/token) hướng thẳng vào long-horizon autonomous coding. Case study đáng chú ý nhất: K2.6 tự một mình đại tu exchange-core — một matching engine tài chính Java 8 năm tuổi, vốn đã được tối ưu sát trần — trong một phiên chạy liên tục 13 giờ, thực hiện 1,000+ tool call, sửa 4,000+ dòng code, thử 12 chiến lược tối ưu, và đổi thread topology lõi từ 4ME+2RE sang 2ME+1RE. Kết quả: throughput trung vị tăng +185% (0.43 → 1.24 MT/s), peak tăng +133% (1.23 → 2.86 MT/s). Đây là bằng chứng thực nghiệm cho "AI senior engineer" chứ không phải trình diễn benchmark.

Biểu đồ Multi-Objective Performance Optimization của K2.6 trên exchange-core: baseline (1.23, 0.43) dịch lên V2 Empty-Set Short-Circuit (2.86, 1.24), +133% Perf, +185% Medium

Có gì mới trong K2.6

K2.6 không phải là bước nhảy kiến trúc. Nó giữ nguyên backbone 1T MoE của series K2 (1T tổng / 32B active, 384 experts, 8 active + 1 shared per token, MLA attention, SwiGLU, MuonClip). Điểm mới nằm ở lớp thực thi (execution layer) bao quanh model — đúng thứ cần để agent chạy 12 giờ không tự bung:

Context 262,144 tokens, đủ chứa một mid-sized monorepo + test output + scratchpad của agent.
Automatic context compression: model tự tóm tắt/lược bỏ lịch sử khi sắp tràn — phiên 12 giờ không bị drift ở giờ thứ 9.
Agent Swarm v2: spawning/scheduling/reconciling tối đa 300 sub-agents trên 4,000 bước phối hợp — gấp 3 lần K2.5 (100 agents / 1,500 bước).
Proactive autonomy: tuned để chạy 24/7 theo task queue, biết nhận ra "tao đang kẹt" và replan thay vì ảo tưởng đã xong.

Vì sao exchange-core là bằng chứng thuyết phục

exchange-core là open-source Java, 8 năm tuổi, đã qua nhiều vòng tay con người tối ưu. "Vụng tay" là không được phép: nếu matching invariants vỡ thì toàn bộ logic khớp lệnh sai, không chỉ chậm. Đây chính là workload mà hầu hết model trước đó thất bại âm thầm — chúng sinh ra diff trông hợp lý nhưng regress correctness.

Cái khác của K2.6 là cách tiếp cận: nó đọc CPU flame graph và allocation flame graph để tìm bottleneck ẩn, rồi dám tái cấu hình thread topology lõi — một quyết định kiến trúc, không chỉ micro-optimization. Trên một engine đã sát trần hiệu năng, vẫn moi thêm được +185% throughput trung vị chỉ bằng một phiên chạy một mình qua đêm.

Chi tiết kỹ thuật quan trọng

Thời lượng phiên: 13 giờ liên tục, không can thiệp người.
Tool calls: 1,000+ lần gọi công cụ.
Code modified: 4,000+ dòng trong codebase Java lớn.
Iterations: 12 chiến lược tối ưu được thử, so sánh, loại bỏ, chồng lớp.
Thread topology: 4ME+2RE → 2ME+1RE (Matching Engine / Risk Engine).
Throughput trung vị (Medium): 0.43 → 1.24 MT/s (+185%).
Throughput peak (Perf): 1.23 → 2.86 MT/s (+133%).

Bên cạnh đó, Moonshot cũng công bố hai case study khác: tối ưu inference Qwen3.5-0.8B trên Mac bằng Zig (12+ giờ, ~193 tok/s, nhanh hơn LM Studio ~20%), và một RL infra agent chạy autonomous 5 ngày liên tục quản lý monitoring/incident của chính đội Moonshot.

So với GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro

Kimi Code Bench: K2.5 đạt 57.4, K2.6 đạt 68.2

Benchmark	K2.6	GPT-5.4 (xhigh)	Claude Opus 4.6	Gemini 3.1 Pro	K2.5
SWE-Bench Pro	58.6	57.7	53.4	54.2	50.7
SWE-Bench Verified	80.2	—	80.8	80.6	76.8
Terminal-Bench 2.0	66.7	65.4	65.4	68.5	50.8
LiveCodeBench v6	89.6	—	88.8	91.7	85.0
HLE-Full w/ tools	54.0	52.1	53.0	51.4	50.2
DeepSearchQA (F1)	92.5	78.6	91.3	81.9	89.0

K2.6 dẫn trên SWE-Bench Pro (bài test hard-cut GitHub issues thật), HLE-Full w/ tools (tool-augmented reasoning) và DeepSearchQA. Gemini 3.1 Pro vẫn dẫn Terminal-Bench và LiveCodeBench; GPT-5.4 dẫn pure reasoning (AIME, GPQA). Điểm khác biệt lớn: K2.6 là option open-weight duy nhất ở dải này.

Ai nên dùng, dùng vào đâu

Fintech & systems architects: refactor legacy Java/C++ nặng, tối ưu hiệu năng mà không làm vỡ invariant — đúng kịch bản exchange-core.
DevOps / SRE: giao agent chạy 24/7 quản lý alert, incident response, full-cycle từ cảnh báo đến khắc phục (Moonshot đã chạy 5 ngày liên tục trên infra thật của họ).
Full-stack dev: design-to-code Next.js App Router + auth + DB; Vercel báo >50% cải thiện trên internal bench so với K2.5.
Agent swarm knowledge work: 100 sub-agents đọc 1 CV → 100 resume tuỳ biến theo 100 job; scan Google Maps tìm store thiếu website → sinh landing page hàng loạt.
Low-level systems & niche languages: Zig/Rust — K2.6 generalize out-of-distribution tốt trên ngôn ngữ ít dữ liệu huấn luyện.

Giới hạn & pricing

Open-weight, không open-source: weights trên Hugging Face (moonshotai/Kimi-K2.6) dưới Modified MIT License, nhưng training data + training code không công khai.
API: OpenAI-compatible tại https://api.moonshot.ai/v1, model IDs kimi-k2.6 và kimi-k2.6-thinking. Drop-in được cho workflow Claude Code hiện có (Anthropic-format cũng hỗ trợ).
Access: Kimi.com, Kimi App, API, Kimi Code CLI, Kilo Gateway (VS Code/JetBrains), free tier qua Cloudflare Workers AI.
Pricing: MoE inference rẻ hơn frontier đóng đáng kể. Phiên autonomous tốn token — Moonshot khuyến cáo budget theo session, không theo request.
Self-host: 1T full cần multi-GPU H100-class; bản quantize 3-bit/4-bit chạy được trên hardware nhỏ hơn nhưng giảm chất lượng.
Điểm yếu: Agent Swarm latency tính bằng phút, không phù hợp chat sub-second. Kém Claude 4.6 về nuanced refusal/safety. Model "rất sáng tạo" — thiếu prompt rõ ràng sẽ tự bay.

Chặng kế: K3 đang chờ chạy trên "runway" này

Moonshot đi từ K2.6 Code Preview (13/04/2026) đến GA (21/04/2026) chỉ trong 8 ngày — rất nhanh so với nhịp 2-3 tháng/major update họ duy trì gần một năm. Giới quan sát đọc K2.6 như runway infrastructure cho Kimi K3: 12h execution envelope + 300-agent swarm + context compressor là những capability chỉ hợp lý khi có một base model lớn hơn sắp landing. Leak Reddit trước đó nhắc đến K3 với 3-4T tham số để đuổi sát frontier Mỹ. Nếu nhịp preview-to-GA tiếp tục nén, K3 có thể đến sớm hơn người ta tưởng.

Nguồn: Moonshot AI official blog, MarkTechPost, Kilo Blog, @Kimi_Moonshot trên X.

Kimi K2.6 tự tay refactor engine tài chính 8 năm tuổi: +185% throughput sau 13 giờ chạy một mình

TL;DR

Có gì mới trong K2.6

Vì sao exchange-core là bằng chứng thuyết phục

Chi tiết kỹ thuật quan trọng

So với GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro

Ai nên dùng, dùng vào đâu

Giới hạn & pricing

Chặng kế: K3 đang chờ chạy trên "runway" này

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding

DeepSeek V4 Pro tự hack 3 challenge PortSwigger và 1 app Android — review bởi Claude Opus 4.7