- Moonshot AI mở rộng Kimi K2.6 sang Canopy Wave với mức giá $0.95/$4.00 per 1M token — rẻ gấp 4 lần frontier, chạy 300 agent song song qua 4.000 tool call, coding 12+ giờ không sập context.
TL;DR
Canopy Wave — nền tảng inference GPU chạy trên NVIDIA GB200 NVL72 — vừa công bố hỗ trợ Kimi K2.6, mô hình agentic mã nguồn mở mới nhất của Moonshot AI phát hành ngày 20/4/2026. Giá $0.95 input / $4.00 output / $0.16 cache per 1M token, bằng đúng bảng giá chính thức của Moonshot và Cloudflare Workers AI, nhưng với throughput enterprise (K2.5 từng đạt 756 tok/s trên Canopy Wave). K2.6 dẫn đầu SWE-Bench Pro (58.6), HLE-Full w/ tools (54.0), DeepSearchQA (92.5), chạy 300 agent song song × 4.000 step, và đã được team Moonshot dùng để refactor một financial matching engine 8 năm tuổi trong 13 tiếng tự động.

Canopy Wave x K2.6: có gì đáng chú ý
Canopy Wave định vị mình là "The World's Best Inference Platform For Open Models", chạy trên cụm GB200 NVL72, HGX B200/H200/H100. Họ từng host K2.5 với TTFT P50 ~3.77s và output speed đạt 756 tok/s. Với K2.6, Canopy Wave giữ nguyên mức giá niêm yết của Moonshot: $0.95/$4.00/$0.16 per 1M token — kèm Canopy Wave Chat free trial để test trước khi tích hợp API.
Điểm đáng giá không phải là giá rẻ đơn thuần, mà là giá rẻ trên throughput cao — cực kỳ quan trọng khi bạn chạy agent swarm 300 con song song, mỗi con sinh hàng ngàn tool call trong một session. Trên frontier model đóng, chi phí loại workload này gần như không khả thi về kinh tế.
Tại sao phát hành này quan trọng
Cuộc đua LLM đã chuyển từ "model vs model" sang "manager vs manager". Single-shot reasoning vẫn thuộc về GPT-5.4 và Gemini 3.1 Pro. Nhưng với các task dài 12+ giờ, nhiều ngàn tool call, nhiều agent phối hợp — K2.6 đang là open-source reference.
Giá chỉ bằng ~1/4 Claude Opus 4.6 hoặc GPT-5.4, cộng trọng số mở theo giấy phép Modified MIT, nghĩa là: team nào cần chạy agent workflow dài hơi, tự host hoặc serverless qua Canopy Wave/Cloudflare đều có đường đi. Với team Việt Nam đang làm sản phẩm SaaS, đây là lần đầu tiên bài toán "agent chạy 10 giờ tự động xử lý backlog" có mức giá hợp lý.
Thông số kỹ thuật quan trọng
- Kiến trúc: MoE 1T tổng tham số, 32B active/token, 384 expert (8 routed + 1 shared), 61 layer, MLA attention, SwiGLU, vocab 160K.
- Context window: 262.144 token input, output tối đa 98.304 token cho task reasoning.
- Vision: native MoonViT encoder ~400M param, input ảnh + video.
- Training: 15,5T token, optimizer MuonClip, knowledge cutoff ~4/2025.
- Agent Swarm 2.0: 300 sub-agent song song × 4.000 step phối hợp (gấp 3 lần K2.5).
- Autonomous runs đã chứng minh: refactor exchange-core (+185% throughput, 13 giờ), tối ưu Qwen3.5-0.8B inference bằng Zig (15 → 193 tok/s, 12+ giờ), incident response RL infra 5 ngày liên tục.
So sánh với frontier đóng
Benchmark key (K2.6 / GPT-5.4 xhigh / Claude Opus 4.6 / Gemini 3.1 Pro / K2.5):
| Benchmark | K2.6 | GPT-5.4 | Opus 4.6 | Gemini 3.1 Pro | K2.5 |
|---|---|---|---|---|---|
| HLE-Full (w/ tools) | 54.0 | 52.1 | 53.0 | 51.4 | 50.2 |
| SWE-Bench Pro | 58.6 | 57.7 | 53.4 | 54.2 | 50.7 |
| SWE-Bench Verified | 80.2 | — | 80.8 | 80.6 | 76.8 |
| DeepSearchQA (f1) | 92.5 | 78.6 | 91.3 | 81.9 | 89.0 |
| BrowseComp (swarm) | 86.3 | — | — | — | 78.4 |
| Terminal-Bench 2.0 | 66.7 | 65.4 | 65.4 | 68.5 | 50.8 |
K2.6 dẫn đầu các benchmark cần tool use + long horizon, bám sát frontier ở coding thuần, và trail ở pure reasoning (AIME, GPQA Diamond).
So sánh giá per 1M token:
| Provider | Input | Output | Cache |
|---|---|---|---|
| Moonshot / Canopy Wave / Cloudflare | $0.95 | $4.00 | $0.16 |
| OpenRouter base | $0.60 | $2.80 | $0.20 |
| Claude Opus 4.6 (tham chiếu) | ~$3.00 | ~$15.00 | — |
Use case thực tế
- Long-horizon coding: refactor codebase lớn, tối ưu performance ở ngôn ngữ niche (Zig, Rust), không sụp context sau 1.000+ tool call.
- Agent swarm song song: 100 agent tùy biến CV, sinh 30 landing page từ Google Maps, viết paper 40 trang + 14 chart, chạy quant strategy trên 100 cổ phiếu semiconductor.
- Coding-driven UI: prompt → WebGL shader, Three.js 3D, GSAP scroll animation, full-stack với auth/DB. Team Vercel AI báo cáo cải thiện 50%+ trên Next.js benchmark so với K2.5.
- Claw Groups (research preview): phối hợp heterogeneous — K2.6 làm coordinator cho Claude + Qwen local + fine-tune custom.
- Proactive 24/7 agent: OpenClaw, Hermes — agent chạy nền xử lý incident, lịch, cross-platform orchestration.
Giới hạn & lưu ý
- Pure single-shot reasoning (AIME 2026: 96.4 vs GPT-5.4 99.2) vẫn thua frontier đóng.
- Agent swarm chạy minutes-to-hours, không hợp use case chat realtime dưới giây.
- Self-host 1T MoE cần multi-GPU H100-class; GGUF quantized có đánh đổi chất lượng.
- Trust/provenance: NIST CAISI từng flag censorship tiếng Trung cao trên K2 Thinking; Anthropic cáo buộc Moonshot tạo 3.4M exchange gian lận qua distillation (2/2026). Enterprise cần cân nhắc cho workload nhạy cảm.
- Benchmark chưa verify độc lập đầy đủ — K2.6 chưa lên public SWE-Bench leaderboard.
Bước tiếp theo
Moonshot giữ cadence release major mỗi 2–3 tháng — nhanh hơn mọi closed frontier lab hiện tại. Claw Groups sắp rời research preview. Opus 4.7 theo tin đồn sẽ cạnh tranh lại ở coding. Dữ liệu OpenRouter cho thấy các open-source model Trung Quốc duy trì được production usage vượt spike tuần mới ra mắt — tín hiệu là K2.6 sẽ được dùng thật, không chỉ hype.
Với developer Việt Nam, điểm action rõ: thử K2.6 trên Canopy Wave Chat (free), benchmark trên workflow agent dài hơi của bạn, so sánh tổng chi phí với Claude/OpenAI. Khoảng cách 4× thường đủ để đảo quyết định build-vs-buy.
Nguồn: kimi.com, MarkTechPost, Canopy Wave, @CanopyWave_AI, Cloudflare Workers AI.

