Kimi K2.6 tự viết inference engine bằng Zig cho Qwen3.5, đánh bại LM Studio 20%

TL;DR

Trong launch blog ngày 20/04/2026, Moonshot AI công bố một case study gây xôn xao: Kimi K2.6 tự viết một inference engine bằng Zig để chạy model Qwen3.5-0.8B trên Mac, và sau 12+ giờ chạy liên tục, 4000+ tool call, 14 vòng thử, engine đó đạt throughput ~193 tok/s — cao hơn LM Studio cùng máy cùng model khoảng 20%. Câu chuyện bắt đầu từ 1 tweet của @nrehiew_ và được Moonshot dùng làm bằng chứng cho cái họ gọi là "long-horizon engineering".

What's new

Kimi K2.6 ra mắt ngày 20/04/2026, chỉ hơn 2 tháng sau K2.5. Model giữ kiến trúc MoE ~1T params (32B active), nâng context lên 262,144 tokens, mở trọng số (open-weight). Điểm bán khác biệt lần này không phải benchmark một phát, mà là khả năng kéo dài một task kỹ thuật trong nhiều giờ — và ví dụ flagship chính là anecdote Zig.

Moonshot mô tả quá trình đúng chất engineering: "read, change, measure, reject, and try again". Không một phát chạy đúng. K2.6 viết code, đo tok/s, thấy chậm, backtrack, sửa, đo lại — 14 lần. Throughput đầu ~15 tok/s, cuối ~193 tok/s, tăng gần 13× so với chính nó.

Why it matters

Đây là 3 lý do việc này đáng chú ý kể cả khi bạn không dùng Kimi:

Zig là ngôn ngữ rất niche. Hệ sinh thái ML trong Zig gần như bằng 0 — không có tensor lib, không BLAS wrapper phổ biến, không có llama.cpp fork trưởng thành. Việc LLM viết được inference engine chạy thật trong môi trường nghèo context là một phép thử khác với "viết PyTorch code".
Long-horizon là khe hở còn lại của agent. Các coding agent hiện tại mạnh trong 10–30 phút. Một task 12 giờ với 4000 tool call đòi hỏi context management, error recovery, và khả năng nhận ra "hướng đi này sai, quay lại" — những thứ trước giờ agent thường fail.
Beat LM Studio là mốc cụ thể, không phải bench tự chọn. LM Studio là baseline phổ biến, có team engineer thật phía sau. +20% trên cùng máy cùng model là một con số cụ thể, dù chưa được 3rd-party reproduce.

Technical facts

Property	Giá trị
Model chạy inference	Qwen3.5-0.8B
Ngôn ngữ engine	Zig
Hardware	Mac (macOS)
Throughput baseline (attempt 1)	~15 tok/s
Throughput cuối (attempt 14)	~193 tok/s
So với LM Studio	+~20% tok/s
Thời lượng	>12 giờ
Tool calls	>4,000
Iterations	14

Lưu ý nhỏ: tweet gốc ghi Qwen3.5 0.5B, nhưng blog Moonshot và các bài tổng hợp đều ghi 0.8B. Bài này dùng 0.8B theo nguồn chính thống.

Comparison — K2.6 trên các bench khác

Ngoài anecdote Zig, K2.6 đạt một loạt điểm cạnh tranh với top model Mỹ:

Benchmark	Kimi K2.6	Đối thủ gần nhất
SWE-Bench Pro	58.6	GPT-5.4: 57.7 · Claude Opus 4.6: 53.4
Terminal-Bench 2.0	66.7	—
DeepSearchQA	92.5	Claude Opus 4.6: 91.3
HLE (with tools)	54.0	GPT-5.4: 52.1
Toolathlon	50.0	Claude Opus 4.6: 47.2
SWE-Bench Multilingual	76.7	tie Gemini 3.1 Pro

Use cases

Prototype runtime low-level: muốn port model nhỏ sang runtime tự viết (Rust, Zig, C) nhưng không có bandwidth? Đây là hướng dùng agent hợp lý hơn là một-phát-đúng.
Refactor codebase cũ: Moonshot cũng cho K2.6 refactor một matching engine tài chính 8 tuổi → +185% throughput, 4000+ dòng sửa. Cùng công thức long-horizon.
Local inference tuning: không thay thế llama.cpp/MLX, nhưng có thể dùng như người review giả định, đọc profile, đề xuất fix.

Limitations & pricing

Đây là Moonshot's own claim. Chưa có 3rd-party reproduce độc lập. Trilogy AI viết rõ điều này trong review của họ.
Engine chạy throughput cao trên 1 model 0.8B không suy ra scale được lên 7B/70B — chưa test.
Bench không nói gì về chất lượng output, streaming correctness, quantization parity, batching. Đây là micro-benchmark tok/s thuần.
Pricing API K2.6: Moonshot chưa công bố rõ trong launch blog, trỏ sang platform.moonshot.ai.
Available: Kimi.com, Kimi App, API, Kimi Code. Open-weight tải được.

What's next

Cái thú vị sẽ là những reproduce độc lập trong vài tuần tới: liệu artificialanalysis.ai, Baseten, hay 1 researcher ngẫu nhiên có re-run được kịch bản Zig đó với cùng setup và ra cùng con số? Nếu có, câu chuyện này vượt khỏi marketing. Nếu không, nó vẫn giữ giá trị demo nhưng sẽ bị đối xử như các benchmark internal khác — quan sát, chưa dùng để ra quyết định kỹ thuật.

Cá nhân, điểm đáng theo dõi nhất không phải con số 20% mà là mô hình hoá được task 12 giờ không tuột context. Nếu đúng, đó là dấu hiệu agentic coding bước qua 1 ngưỡng mới.

Nguồn: Moonshot AI blog, Trilogy AI, OfficeChai, @nrehiew_ tweet.

Kimi K2.6 tự viết inference engine bằng Zig cho Qwen3.5, đánh bại LM Studio 20%

TL;DR

What's new

Why it matters

Technical facts

Comparison — K2.6 trên các bench khác

Use cases

Limitations & pricing

What's next

Tiếp tục lướt

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding

Qwen 3.6 nghĩ quá lâu — cú hack grammar cắt 22× token think mà không mất accuracy

Muon không phải optimizer của Kimi: Sự thật về cha đẻ thật sự

DeepSeek V4 lộ diện: 1.6 nghìn tỷ tham số, context 1M token, rẻ hơn GPT-5.5 gấp 7 lần

Perplexity dùng GPT-5.5 giảm 56% token và build nội bộ dưới 1 giờ: bằng chứng thực tế đầu tiên của thế hệ Codex mới