- Nous Research vừa mở cửa miễn phí 24 giờ cho Kimi K2.6 — model open-weight 1T tham số của Moonshot AI, vừa đánh bại GPT-5.4 và Claude Opus 4.6 trên SWE-Bench Pro.
- Truy cập qua Hermes Agent, chạy trên hạ tầng Vercel AI Gateway.
TL;DR
Nous Research đang mở cửa miễn phí Kimi K2.6 trên Nous Portal trong 24 giờ, powered by Vercel AI Gateway và Moonshot AI. Đây là model open-weight mới nhất — 1T tham số, 256K context, và là model đầu tiên vượt mặt GPT-5.4 cùng Claude Opus 4.6 trên SWE-Bench Pro (58.6 vs 57.7 vs 53.4). Chạy ngay bằng 3 lệnh: hermes update → hermes model → chọn Kimi K2.6.
Chuyện gì đang xảy ra
Ngày 20/4/2026, Moonshot AI open-source Kimi K2.6 dưới Modified MIT license. Đến ngày 23/4, Nous Research thông báo trên X rằng toàn bộ người dùng Hermes Agent có thể gọi K2.6 hoàn toàn miễn phí trong 24h qua Nous Portal. Lưu lượng được định tuyến qua Vercel AI Gateway — lớp gateway thống nhất nhiều nhà cung cấp AI với observability, fallback, và zero data retention.
Để bật K2.6 trong Hermes:
hermes update
hermes model
# chọn Kimi K2.6Hermes v0.8.0 ra mắt cùng tháng đã có native Kimi/Moonshot provider support, nên không cần cấu hình thêm.
Tại sao chuyện này đáng chú ý
Kimi K2.6 không phải là một bản release nhỏ. Đây là model open-weight đầu tiên được thiết kế xoay quanh một khái niệm Moonshot gọi là stamina — khả năng duy trì tool calling liên tục hàng giờ không degrade. Case study chính thức: K2.6 tự chạy 13 giờ liên tục, gọi hơn 1,000 tool calls, sửa hơn 4,000 dòng code trên dự án exchange-core (financial matching engine 8 năm tuổi), đạt +185% median throughput (0.43 → 1.24 MT/s).
Kết hợp với promo free 24h, đây là cơ hội để indie devs và team nhỏ thử workload mà thường chỉ các team lớn mới dám đốt budget chạy: agent loop hàng nghìn steps, refactor codebase quy mô production, deploy workflows tự động end-to-end.
Thông số kỹ thuật
| Spec | Kimi K2.6 |
|---|---|
| Architecture | MoE — 384 experts (8 routed + 1 shared), 61 layers |
| Params | 1T total / 32B active per token |
| Context window | 256K tokens |
| Attention | Multi-head Latent Attention (MLA) |
| Vision | MoonViT 400M — image + video native |
| Training | 15.5T tokens, cutoff ~Apr 2025 |
| License | Modified MIT (credit nếu 100M+ MAU hoặc $20M+ MRR) |
Model giữ nguyên kiến trúc K2.5 nên existing deployment configs (vLLM, SGLang, KTransformers) reuse được ngay. Nó hỗ trợ cả thinking và instant mode.
Benchmark nổi bật
| Benchmark | K2.6 | GPT-5.4 | Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-Bench Pro | 58.6 | 57.7 | 53.4 | 54.2 |
| SWE-Bench Verified | 80.2 | — | 80.8 | — |
| HLE-Full w/ tools | 54.0 | 52.1 | 53.0 | 51.4 |
| Terminal-Bench 2.0 | 66.7 | 65.4 | 65.4 | 68.5 |
| LiveCodeBench v6 | 89.6 | — | 88.8 | — |
| DeepSearchQA | 92.5 | 78.6 | 91.3 | — |
| Toolathlon | 50.0 | — | 47.2 | 48.8 |
| AIME 2026 | 96.4 | 99.2 | 96.7 | — |
Tóm gọn: K2.6 dẫn đầu trên mọi benchmark agentic coding có tool use. Nó vẫn sau GPT-5.4 trên pure-reasoning math (AIME, GPQA Diamond) và sau Gemini 3.1 Pro trên raw vision.
Agent Swarm & Claw Groups
K2.6 nâng Agent Swarm từ 100 sub-agents × 1,500 steps (K2.5) lên 300 sub-agents × 4,000 coordinated steps — 3x cả về chiều rộng lẫn chiều sâu. Demo chính thức: 1 prompt duy nhất sinh ra 100 CV tuỳ biến cho 100 role khác nhau; 1 prompt khác tìm 30 cửa hàng bán lẻ ở Los Angeles thiếu website rồi build landing page cho từng cửa hàng.
Claw Groups (research preview) mở swarm ra cho agent heterogeneous: bạn có thể mix một Claude instance, một local Qwen, một K2.6 agent, và một human reviewer vào cùng không gian làm việc. K2.6 đóng vai adaptive coordinator, route task theo skill profile của từng agent, phát hiện failure và reassign tự động.
Use case khi bạn có 24h miễn phí
- Refactor codebase lớn — đẩy K2.6 vào repo legacy, để nó tự profile hotspots và optimize
- Build agentic workflow — kết nối Hermes + K2.6 để generate reusable deployment skills (ví dụ: Next.js → AWS ECS)
- Motion-rich frontend — sinh WebGL shaders, Three.js scenes, Framer Motion animations từ prompt text
- Convert tài liệu thành agent skill — đưa PDF/SOP/slides của công ty, K2.6 học DNA và biến thành callable skill
- Batch task quy mô lớn — 300 sub-agents làm research/scraping/content generation song song
Limitations & pricing sau promo
Sau khi promo 24h kết thúc, K2.6 vẫn rẻ một cách khó tin: $0.60–$0.95 / triệu input tokens và $3.00–$4.00 / triệu output trên Moonshot API. Cache hit chỉ $0.10–$0.16 / M (tiết kiệm 75–83%). So sánh: rẻ hơn GPT-5.4 tới 4–17x, rẻ hơn Opus 4.6 5–6x.
Self-host được qua Hugging Face (Modified MIT license) nhưng full 1T model cần nhiều A100/H100. Hạn chế thực tế: thinking mode mất 10–30s cho task phức tạp, và model khá "sáng tạo" nên cần prompt rõ ràng.
Lời khuyên
Nếu bạn đang định thử một agent framework mới hoặc đang cân nhắc migrate khỏi Claude/GPT cho workload coding — đây là cửa sổ 24h không tốn xu nào. Cài Hermes, chạy 3 lệnh, ném cho nó một task đủ khó để đo stamina thực sự (refactor, optimize, hoặc build end-to-end).
Với chu kỳ release mỗi 2–3 tháng của Moonshot (K2 → K2.5 → K2.6 trong 9 tháng) và việc mỗi phiên bản đều open-weight, câu hỏi không còn là "open-source có đuổi kịp closed-source không" — mà là bao giờ closed labs phản đòn.
Nguồn: Nous Research, MarkTechPost, Kingy AI, Kilo Blog.

