TL;DR

Ngày 20–21/04/2026, Moonshot AI chính thức đưa Kimi K2.6 từ Code Preview lên GA. Đây là bản nâng cấp tập trung vào long-horizon coding — khả năng chạy tự động liên tục nhiều giờ mà không "serial collapse". Showcase đáng chú ý: K2.6 tự tải và triển khai model Qwen3.5-0.8B local trên Mac, rồi tự viết + tối ưu inference bằng Zig — một ngôn ngữ hệ thống rất niche. Qua 4,000+ tool call, 12+ giờ chạy liên tục, 14 vòng lặp, nó đẩy throughput từ ~15 lên ~193 tok/sec, nhanh hơn LM Studio tham chiếu ~20% trên cùng phần cứng.

Cái gì mới

K2.6 giữ nguyên backbone MoE 1T tham số (32B active, 384 experts, 8 kích hoạt mỗi token, MLA attention, SwiGLU) từ dòng K2. Lớp thực thi xung quanh mới là phần đáng tiền:

  • Context 262,144 token với nén context tự động — bài tự tóm tắt lịch sử khi gần tràn, giữ coherence trong session 12 giờ.
  • Agent Swarm native: spawn, schedule, reconcile tới 300 sub-agent trên 4,000 bước phối hợp — gấp 3 lần K2.5 (100/1,500).
  • Proactive autonomy: tune để chạy 24/7 trên task queue, biết nhận diện "bị kẹt" và replan thay vì hallucinate progress.
  • Claw Groups (research preview): bring-your-own-agent — K2.6 điều phối bầy agent dị chủng (Claude, Qwen local, người) trong không gian làm việc chung.
  • Native multimodal: text + ảnh 4K + video 2K qua MoonViT 400M.

Vì sao quan trọng

Điểm thay đổi không phải "viết code giỏi hơn", mà là stamina. Model trước thường collapse sau vài trăm bước: mất context, lặp lại, đốt token vào lỗi cũ. K2.6 được thiết kế để hành xử như một "operations manager": chia task thành nhánh song song, giao cho agent chuyên biệt, theo dõi agent nào stall, tự phân công lại. Cộng với giá API $0.95/M input, $4.00/M output (thấp hơn Opus 4.6 và GPT-5.4 nhiều), nó làm cho các vòng lặp agent dài nghìn tool call trở thành khả thi về mặt tài chính — điều mà chạy trên Claude sẽ "tự sát ngân sách".

Số liệu kỹ thuật

Case study Zig gốc từ blog kỹ thuật Moonshot:

MetricGiá trị
Tool call4,000+
Thời gian chạy liên tục12+ giờ
Iteration14
Throughput đầu~15 tok/sec
Throughput cuối~193 tok/sec
So với LM Studionhanh hơn ~20%

Case thứ hai — overhaul exchange-core, một matching engine tài chính 8 năm tuổi — còn ấn tượng hơn: 13 giờ chạy, 1,000+ tool call, 4,000+ dòng code sửa, 12 chiến lược tối ưu, reconfigure thread topology từ 4ME+2RE sang 2ME+1RE. Kết quả: +185% median throughput (0.43 → 1.24 MT/s) và +133% peak throughput (1.23 → 2.86 MT/s). Kilo Code CEO Scott Breitenother xác nhận đã verify trong giai đoạn preview.

So với Opus 4.6, GPT-5.4, Gemini 3.1 Pro

BenchmarkK2.6GPT-5.4Opus 4.6Gemini 3.1 ProK2.5
SWE-Bench Pro58.657.753.454.250.7
SWE-Bench Verified80.280.880.676.8
Terminal-Bench 2.066.765.465.468.550.8
LiveCodeBench v689.688.891.785.0
HLE-Full w/ tools54.052.153.051.450.2
DeepSearchQA (f1)92.578.691.381.989.0
Toolathlon50.054.647.248.827.8
AIME 202696.499.296.798.395.8

K2.6 dẫn đầu bảng ở những bench agentic, tool-augmented — SWE-Bench Pro, HLE w/ tools, DeepSearchQA. Nó thua GPT-5.4 và Gemini ở pure reasoning (AIME, GPQA) và raw vision. Partner deltas so với K2.5: CodeBuddy báo +12% code-gen / +18% long-context, Vercel >50% trên Next.js bench, Factory.ai +15%.

Use case thực tế

  • Systems engineering & refactor dài hạn: viết runtime low-level trong ngôn ngữ niche (Zig), tune matching engine phức tạp qua flame graph.
  • Full-stack motion-rich frontend: K2.6 sinh UI hoàn chỉnh với WebGL shader, Three.js, scroll-triggered animation, wire sẵn auth + database — Vercel ghi nhận >50% cải thiện trên bench Next.js nội bộ.
  • Agent swarm song song: 1 CV → 100 resume tailored cho 100 role; 30 cửa hàng retail LA không có website → 30 landing page custom; 1 paper astrophysics → paper 40 trang + dataset 20,000 entry + 14 chart.
  • Skills: biến PDF/slide/sheet chất lượng cao thành capability có thể gọi lại.
  • Proactive 24/7 agent: team RL infra của Moonshot chạy K2.6 autonomous 5 ngày liên tục xử lý monitoring + incident response.

Giới hạn & giá

K2.6 vẫn thua GPT-5.4 và Gemini 3.1 Pro ở pure single-shot reasoning (AIME 2026, GPQA Diamond) và raw vision. Thinking mode có hạn chế về tool calling. Về trust — NIST CAISI đánh giá K2 Thinking có mức kiểm duyệt tiếng Trung cao; Anthropic cáo buộc Moonshot dùng 24,000 tài khoản giả để distil 3.4 triệu exchange agentic-reasoning từ Claude (cáo buộc từ đối thủ, cần xử lý thận trọng).

Giá API chính thức: $0.95/M input, $4.00/M output, $0.16/M cache-hit. Kimi Code CLI: $15–$159/tháng.

License: Modified MIT — free commercial trừ các công ty có >100M MAU hoặc >$20M doanh thu/tháng phải hiển thị credit "Kimi K2.6" trong UI.

Availability: Kimi.com, Kimi App, API chính thức (OpenAI + Anthropic compatible), Kimi Code CLI, weights trên Hugging Face (self-host qua vLLM / SGLang / KTransformers), và third-party như Kilo Code Gateway, OpenClaw, Hermes, ofox.

Điều gì tiếp theo

K2.6 đi từ Code Preview lên GA chỉ trong 8 ngày — nhanh nhất lịch sử dòng K2. Rò rỉ Reddit trước đó nhắc đến Kimi K3 nhắm 3–4 nghìn tỷ tham số. Phân tích viên coi K2.6 như "runway" được dựng sẵn cho K3: context compressor 262K, envelope 12 giờ, orchestration 300 agent đều scale sạch lên model base lớn hơn. Nếu cadence 8 ngày giữ được, K3 có thể đến sớm hơn nhiều người dự đoán.

Nguồn: blog kỹ thuật Moonshot, MarkTechPost, OfficeChai, Implicator.ai, Kingy AI.