Kimi K2.6 đang FREE trên Nous Portal trong 24 giờ — Vercel AI Gateway mở cửa con quái vật 1T tham số

TL;DR

Nous Research đang mở cửa miễn phí Kimi K2.6 trên Nous Portal trong 24 giờ, powered by Vercel AI Gateway và Moonshot AI. Đây là model open-weight mới nhất — 1T tham số, 256K context, và là model đầu tiên vượt mặt GPT-5.4 cùng Claude Opus 4.6 trên SWE-Bench Pro (58.6 vs 57.7 vs 53.4). Chạy ngay bằng 3 lệnh: hermes update → hermes model → chọn Kimi K2.6.

Chuyện gì đang xảy ra

Ngày 20/4/2026, Moonshot AI open-source Kimi K2.6 dưới Modified MIT license. Đến ngày 23/4, Nous Research thông báo trên X rằng toàn bộ người dùng Hermes Agent có thể gọi K2.6 hoàn toàn miễn phí trong 24h qua Nous Portal. Lưu lượng được định tuyến qua Vercel AI Gateway — lớp gateway thống nhất nhiều nhà cung cấp AI với observability, fallback, và zero data retention.

Để bật K2.6 trong Hermes:

hermes update
hermes model
# chọn Kimi K2.6

Hermes v0.8.0 ra mắt cùng tháng đã có native Kimi/Moonshot provider support, nên không cần cấu hình thêm.

Tại sao chuyện này đáng chú ý

Kimi K2.6 không phải là một bản release nhỏ. Đây là model open-weight đầu tiên được thiết kế xoay quanh một khái niệm Moonshot gọi là stamina — khả năng duy trì tool calling liên tục hàng giờ không degrade. Case study chính thức: K2.6 tự chạy 13 giờ liên tục, gọi hơn 1,000 tool calls, sửa hơn 4,000 dòng code trên dự án exchange-core (financial matching engine 8 năm tuổi), đạt +185% median throughput (0.43 → 1.24 MT/s).

Kết hợp với promo free 24h, đây là cơ hội để indie devs và team nhỏ thử workload mà thường chỉ các team lớn mới dám đốt budget chạy: agent loop hàng nghìn steps, refactor codebase quy mô production, deploy workflows tự động end-to-end.

Thông số kỹ thuật

Spec	Kimi K2.6
Architecture	MoE — 384 experts (8 routed + 1 shared), 61 layers
Params	1T total / 32B active per token
Context window	256K tokens
Attention	Multi-head Latent Attention (MLA)
Vision	MoonViT 400M — image + video native
Training	15.5T tokens, cutoff ~Apr 2025
License	Modified MIT (credit nếu 100M+ MAU hoặc $20M+ MRR)

Model giữ nguyên kiến trúc K2.5 nên existing deployment configs (vLLM, SGLang, KTransformers) reuse được ngay. Nó hỗ trợ cả thinking và instant mode.

Benchmark nổi bật

Benchmark	K2.6	GPT-5.4	Opus 4.6	Gemini 3.1 Pro
SWE-Bench Pro	58.6	57.7	53.4	54.2
SWE-Bench Verified	80.2	—	80.8	—
HLE-Full w/ tools	54.0	52.1	53.0	51.4
Terminal-Bench 2.0	66.7	65.4	65.4	68.5
LiveCodeBench v6	89.6	—	88.8	—
DeepSearchQA	92.5	78.6	91.3	—
Toolathlon	50.0	—	47.2	48.8
AIME 2026	96.4	99.2	96.7	—

Tóm gọn: K2.6 dẫn đầu trên mọi benchmark agentic coding có tool use. Nó vẫn sau GPT-5.4 trên pure-reasoning math (AIME, GPQA Diamond) và sau Gemini 3.1 Pro trên raw vision.

Agent Swarm & Claw Groups

K2.6 nâng Agent Swarm từ 100 sub-agents × 1,500 steps (K2.5) lên 300 sub-agents × 4,000 coordinated steps — 3x cả về chiều rộng lẫn chiều sâu. Demo chính thức: 1 prompt duy nhất sinh ra 100 CV tuỳ biến cho 100 role khác nhau; 1 prompt khác tìm 30 cửa hàng bán lẻ ở Los Angeles thiếu website rồi build landing page cho từng cửa hàng.

Claw Groups (research preview) mở swarm ra cho agent heterogeneous: bạn có thể mix một Claude instance, một local Qwen, một K2.6 agent, và một human reviewer vào cùng không gian làm việc. K2.6 đóng vai adaptive coordinator, route task theo skill profile của từng agent, phát hiện failure và reassign tự động.

Use case khi bạn có 24h miễn phí

Refactor codebase lớn — đẩy K2.6 vào repo legacy, để nó tự profile hotspots và optimize
Build agentic workflow — kết nối Hermes + K2.6 để generate reusable deployment skills (ví dụ: Next.js → AWS ECS)
Motion-rich frontend — sinh WebGL shaders, Three.js scenes, Framer Motion animations từ prompt text
Convert tài liệu thành agent skill — đưa PDF/SOP/slides của công ty, K2.6 học DNA và biến thành callable skill
Batch task quy mô lớn — 300 sub-agents làm research/scraping/content generation song song

Limitations & pricing sau promo

Sau khi promo 24h kết thúc, K2.6 vẫn rẻ một cách khó tin: $0.60–$0.95 / triệu input tokens và $3.00–$4.00 / triệu output trên Moonshot API. Cache hit chỉ $0.10–$0.16 / M (tiết kiệm 75–83%). So sánh: rẻ hơn GPT-5.4 tới 4–17x, rẻ hơn Opus 4.6 5–6x.

Self-host được qua Hugging Face (Modified MIT license) nhưng full 1T model cần nhiều A100/H100. Hạn chế thực tế: thinking mode mất 10–30s cho task phức tạp, và model khá "sáng tạo" nên cần prompt rõ ràng.

Lời khuyên

Nếu bạn đang định thử một agent framework mới hoặc đang cân nhắc migrate khỏi Claude/GPT cho workload coding — đây là cửa sổ 24h không tốn xu nào. Cài Hermes, chạy 3 lệnh, ném cho nó một task đủ khó để đo stamina thực sự (refactor, optimize, hoặc build end-to-end).

Với chu kỳ release mỗi 2–3 tháng của Moonshot (K2 → K2.5 → K2.6 trong 9 tháng) và việc mỗi phiên bản đều open-weight, câu hỏi không còn là "open-source có đuổi kịp closed-source không" — mà là bao giờ closed labs phản đòn.

Nguồn: Nous Research, MarkTechPost, Kingy AI, Kilo Blog.

Kimi K2.6 đang FREE trên Nous Portal trong 24 giờ — Vercel AI Gateway mở cửa con quái vật 1T tham số

TL;DR

Chuyện gì đang xảy ra

Tại sao chuyện này đáng chú ý

Thông số kỹ thuật

Benchmark nổi bật

Agent Swarm & Claw Groups

Use case khi bạn có 24h miễn phí

Limitations & pricing sau promo

Lời khuyên

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding

DeepSeek V4 Pro tự hack 3 challenge PortSwigger và 1 app Android — review bởi Claude Opus 4.7