TL;DR

Trong launch blog ngày 20/04/2026, Moonshot AI công bố một case study gây xôn xao: Kimi K2.6 tự viết một inference engine bằng Zig để chạy model Qwen3.5-0.8B trên Mac, và sau 12+ giờ chạy liên tục, 4000+ tool call, 14 vòng thử, engine đó đạt throughput ~193 tok/s — cao hơn LM Studio cùng máy cùng model khoảng 20%. Câu chuyện bắt đầu từ 1 tweet của @nrehiew_ và được Moonshot dùng làm bằng chứng cho cái họ gọi là "long-horizon engineering".

What's new

Kimi K2.6 ra mắt ngày 20/04/2026, chỉ hơn 2 tháng sau K2.5. Model giữ kiến trúc MoE ~1T params (32B active), nâng context lên 262,144 tokens, mở trọng số (open-weight). Điểm bán khác biệt lần này không phải benchmark một phát, mà là khả năng kéo dài một task kỹ thuật trong nhiều giờ — và ví dụ flagship chính là anecdote Zig.

Moonshot mô tả quá trình đúng chất engineering: "read, change, measure, reject, and try again". Không một phát chạy đúng. K2.6 viết code, đo tok/s, thấy chậm, backtrack, sửa, đo lại — 14 lần. Throughput đầu ~15 tok/s, cuối ~193 tok/s, tăng gần 13× so với chính nó.

Why it matters

Đây là 3 lý do việc này đáng chú ý kể cả khi bạn không dùng Kimi:

  • Zig là ngôn ngữ rất niche. Hệ sinh thái ML trong Zig gần như bằng 0 — không có tensor lib, không BLAS wrapper phổ biến, không có llama.cpp fork trưởng thành. Việc LLM viết được inference engine chạy thật trong môi trường nghèo context là một phép thử khác với "viết PyTorch code".
  • Long-horizon là khe hở còn lại của agent. Các coding agent hiện tại mạnh trong 10–30 phút. Một task 12 giờ với 4000 tool call đòi hỏi context management, error recovery, và khả năng nhận ra "hướng đi này sai, quay lại" — những thứ trước giờ agent thường fail.
  • Beat LM Studio là mốc cụ thể, không phải bench tự chọn. LM Studio là baseline phổ biến, có team engineer thật phía sau. +20% trên cùng máy cùng model là một con số cụ thể, dù chưa được 3rd-party reproduce.

Technical facts

PropertyGiá trị
Model chạy inferenceQwen3.5-0.8B
Ngôn ngữ engineZig
HardwareMac (macOS)
Throughput baseline (attempt 1)~15 tok/s
Throughput cuối (attempt 14)~193 tok/s
So với LM Studio+~20% tok/s
Thời lượng>12 giờ
Tool calls>4,000
Iterations14

Lưu ý nhỏ: tweet gốc ghi Qwen3.5 0.5B, nhưng blog Moonshot và các bài tổng hợp đều ghi 0.8B. Bài này dùng 0.8B theo nguồn chính thống.

Comparison — K2.6 trên các bench khác

Ngoài anecdote Zig, K2.6 đạt một loạt điểm cạnh tranh với top model Mỹ:

BenchmarkKimi K2.6Đối thủ gần nhất
SWE-Bench Pro58.6GPT-5.4: 57.7 · Claude Opus 4.6: 53.4
Terminal-Bench 2.066.7
DeepSearchQA92.5Claude Opus 4.6: 91.3
HLE (with tools)54.0GPT-5.4: 52.1
Toolathlon50.0Claude Opus 4.6: 47.2
SWE-Bench Multilingual76.7tie Gemini 3.1 Pro

Use cases

  • Prototype runtime low-level: muốn port model nhỏ sang runtime tự viết (Rust, Zig, C) nhưng không có bandwidth? Đây là hướng dùng agent hợp lý hơn là một-phát-đúng.
  • Refactor codebase cũ: Moonshot cũng cho K2.6 refactor một matching engine tài chính 8 tuổi → +185% throughput, 4000+ dòng sửa. Cùng công thức long-horizon.
  • Local inference tuning: không thay thế llama.cpp/MLX, nhưng có thể dùng như người review giả định, đọc profile, đề xuất fix.

Limitations & pricing

  • Đây là Moonshot's own claim. Chưa có 3rd-party reproduce độc lập. Trilogy AI viết rõ điều này trong review của họ.
  • Engine chạy throughput cao trên 1 model 0.8B không suy ra scale được lên 7B/70B — chưa test.
  • Bench không nói gì về chất lượng output, streaming correctness, quantization parity, batching. Đây là micro-benchmark tok/s thuần.
  • Pricing API K2.6: Moonshot chưa công bố rõ trong launch blog, trỏ sang platform.moonshot.ai.
  • Available: Kimi.com, Kimi App, API, Kimi Code. Open-weight tải được.

What's next

Cái thú vị sẽ là những reproduce độc lập trong vài tuần tới: liệu artificialanalysis.ai, Baseten, hay 1 researcher ngẫu nhiên có re-run được kịch bản Zig đó với cùng setup và ra cùng con số? Nếu có, câu chuyện này vượt khỏi marketing. Nếu không, nó vẫn giữ giá trị demo nhưng sẽ bị đối xử như các benchmark internal khác — quan sát, chưa dùng để ra quyết định kỹ thuật.

Cá nhân, điểm đáng theo dõi nhất không phải con số 20% mà là mô hình hoá được task 12 giờ không tuột context. Nếu đúng, đó là dấu hiệu agentic coding bước qua 1 ngưỡng mới.

Nguồn: Moonshot AI blog, Trilogy AI, OfficeChai, @nrehiew_ tweet.