Router architecture và 30-day plan để cắt 80% hóa đơn AI coding - kinh nghiệm thực tế

TL;DR

Thay đổi lớn nhất bạn có thể làm: ngừng dùng một model cho mọi thứ. Setup router tự động chọn đúng model cho đúng task, với Kimi K2.6 làm workhorse cho 90% công việc coding thực chiến. Kết hợp với prompt caching, context discipline, và SKILL.md pattern - bill giảm 80% trong 30 ngày mà không mất tốc độ ship.

Router architecture - thay đổi cấu trúc lớn nhất

Hầu hết vibe coder dùng một model cho tất cả. Hoặc all-in premium (Opus mọi task, đắt), hoặc budget (Haiku mọi task, quality drop). Middle ground Sonnet-cho-mọi-thứ là tệ nhất cả hai hướng: vừa trả 6x đắt hơn cần thiết, vừa vẫn bị rate limit vào những ngày nặng.

Router thông minh chọn đúng model theo task type, với Kimi K2.6 làm phần lớn công việc thực chiến.

Decision tree:

Planning / architecture / quyết định phức tạp? → Premium tier (Opus 4.6 hoặc GPT-5). 10% quyết định có ảnh hưởng compound. Đáng chi tiền.
Implementation, code review, refactoring, debugging? → Kimi K2.6. Workhorse hàng ngày. Ngang Sonnet về chất lượng output, giá 6x rẻ hơn, không có rate limit headache.
Vòng lặp agentic dài nhiều iteration? → Kimi K2.6. Lợi thế giá compound theo mỗi iteration. Vòng lặp 30 bước: $18-24 với Opus → $1.40 với Kimi K2.6.
Lint, format, single-line edit, fix typo? → Utility tier (Haiku 4.5). Hoặc IDE autocomplete.
Boilerplate, autocomplete, stub generation? → Local tier (Qwen 3 via Ollama). Miễn phí.

Kimi K2.6 - model cho 90% công việc coding thực chiến

Kimi K2.6 - đánh giá thực chất

Kimi K2.6 (Moonshot AI, ra mắt tháng 4/2026) là model MoE 1 nghìn tỷ tham số, 32B active parameters/token, 256K context window. Giá: $0.60/MTok input, $4/MTok output.

Benchmarks:

SWE-Bench Pro: 58.6% (so với Claude Opus 4.7: 64.3%, GPT-5.5: tied)
KimiCodeBench: 68.2 (K2.5 trước đó: 57.4)
AIME 2026: 96.4%
Tool invocation success rate: 96.6%

Thực tế coding:

Task	Opus 4.6	Sonnet 4.6	Kimi K2.6	Quality gap
Refactor 500 dòng	$0.42	$0.12	$0.04	Kimi ngang Sonnet
Build CRUD endpoint	$0.18	$0.06	$0.02	Bằng nhau
Debug stack trace	$0.08	$0.03	$0.01	Kimi +0.1 điểm
Architecture plan	$0.65	$0.22	$0.08	Opus rõ ràng hơn

Kimi K2.6 match hoặc beat Sonnet 4.6 về quality trên tất cả coding task, với chi phí thấp hơn 3-4x. Chỉ thua rõ ràng ở: multi-agent orchestration phức tạp, formal verification, và security-critical review.

Với developer dùng 15M tokens/tháng: Kimi K2.6 ~$24/tháng vs Opus 4.6 ~$495/tháng.

7 kỹ thuật cụ thể để cắt giảm

1 - Bật prompt caching ở mọi nơi có thể

Anthropic, OpenAI, Moonshot đều hỗ trợ prompt caching. Cache read chỉ tốn 10% giá input thường (90% tiết kiệm). Cache write 5 phút: 1.25x giá thường; cache write 1 giờ: 2x. Hòa vốn sau chỉ 1-2 lần đọc cache.

Claude Code: caching tự động cho system prompt và CLAUDE.md
Cursor: Settings → Models → "use prompt caching"
Aider: truyền flag --cache-prompts

Tiết kiệm: 60-90% trên stable input tokens.

2 - Grep trước khi fetch

Thay vì include file "just in case", grep symbol hoặc pattern trước. Chỉ include file thực sự có reference. 90% lần "tôi cần cả file" là sai - 30 dòng là đủ.

rg "useUserAuth" --type ts -l         # tìm file
rg "useUserAuth" --type ts -B 5 -A 20  # tìm usage với context

3 - Profile tool calls của bạn

Log token count input/output của mỗi tool call trong một tuần. Bạn sẽ thấy loop xoắn ốc và tool re-fetch cùng data 10 lần. Hầu hết developer cắt 30-50% bill chỉ bằng cách fix top 3 tool loop tệ nhất.

4 - Graduated Skill Pattern

Một khi workflow hoạt động, lưu thành SKILL.md. Agent tiếp theo load skill và bỏ qua phase discovery. Ví dụ: workflow "deploy to staging" từng tốn $4/lần vì agent re-figure out môi trường mỗi lần. Viết thành SKILL.md, chuyển runner sang Kimi K2.6 - giờ tốn $0.18/lần, output giống nhau.

5 - Local model cho boilerplate và autocomplete

Qwen 3 / Llama 3 chạy trên Ollama = $0/token, chạy trên laptop. Dùng cho: autocomplete, typing, completion đơn giản, syntax fix, stub generation.

brew install ollama
ollama pull qwen3:7b
ollama serve

Sau đó trỏ autocomplete của IDE về localhost:11434.

6 - Summarize aggressively trong session dài

Sau mỗi 10-15 turns, nhờ agent tóm tắt những gì đã làm và bước tiếp theo. Bỏ original conversation context. Session tiếp theo bắt đầu từ summary. Session 200K token compress thành summary 5K. Batch tiếp theo start fresh, tốn 5% so với tiếp tục session cũ.

7 - Batch các request nhỏ

Thay vì hỏi 10 câu nhỏ một lúc một câu (10 API call riêng biệt = 10 lần charge prefix riêng), batch vào một prompt: "Trả lời 10 câu này, đánh số 1-10..." Tiết kiệm 70-90% input tokens cho batched workflow, đặc biệt mạnh khi kết hợp với prompt caching.

Config YAML copy-paste

Đây là config router thực tế đang chạy (cần điều chỉnh theo tool của bạn):

# ~/.config/claude-router/config.yaml

# Kimi K2.6 là default cho hầu hết công việc thực chiến
default: kimi-2.6-instruct

routes:
  planning:
    model: claude-opus-4-6
    fallback: gpt-5
    triggers: ["plan", "architect", "design system", "security review"]

  implementation:
    model: kimi-2.6-instruct
    triggers: ["review", "debug", "implement", "build feature", "refactor"]

  cleanup:
    model: claude-haiku-4-5
    triggers: ["lint", "format", "fix typo", "rename variable"]

  boilerplate:
    model: ollama:qwen3:7b
    triggers: ["autocomplete", "stub", "generate boilerplate"]

caching:
  enabled: true
  prefix_cache: true

context:
  max_tokens: 50000
  auto_summarize_after: 15
  use_grep_first: true

Paste vào config Claude Code hoặc Cursor (check docs của tool cho path "custom routing" hoặc "model selection"). Trước config này: ~$4,200/tháng. Sau: ~$312/tháng (7.5% chi phí ban đầu).

30-day plan để cắt 80% bill

Tuần 1 - Chặn chảy máu: Bật prompt caching, tắt auto-context cho file ổn định, cài ripgrep và bắt đầu grep trước khi hỏi. Tiết kiệm dự kiến: 30-40%.

Tuần 2 - Đây là tuần then chốt: Chuyển default workhorse sang Kimi K2.6. Đây là move duy nhất thay đổi unit economics thật sự. Route lint/format về Haiku. Reserve Opus/GPT-5 chỉ cho planning tier. Tiết kiệm thêm: 40-55% (phần lớn reduction đến từ bước này).

Tuần 3 - Profile và fix tool loop: Bật verbose tool logging một tuần, tìm top 3 loop tốn kém nhất, replace bằng batched call hoặc deterministic helper. Tiết kiệm thêm: 10-20%.

Tuần 4 - SKILL.md và local model: Viết 3 workflow lặp lại thường xuyên thành SKILL.md, setup Ollama + Qwen 3 cho autocomplete và boilerplate. Tiết kiệm thêm: 5-10%.

Cộng dồn: giảm 70-85% trong 30 ngày - mà không mất tốc độ ship.

Khi nào nên chi nhiều hơn

Cắt giảm có giới hạn. Một số task thực sự cần premium model. Nguyên tắc: nếu chi phí của câu trả lời sai lớn hơn 100x khoảng cách giá model, dùng premium. Luôn dùng Opus / GPT-5 cho: quyết định system architecture, code review security-critical, refactor phức tạp cross-file, debug concurrency / race condition, formal verification. Với mọi thứ còn lại (implementation nghiêm túc, refactor, code review, debug thông thường), Kimi K2.6 là lựa chọn đúng.

Bức tranh lớn hơn

Mỗi đồng tiết kiệm được từ tokens là một đồng bạn có thể đầu tư vào ship thêm. Developer thắng vào năm 2027 sẽ không phải người có model tốt nhất - mà là người có context discipline tốt nhất và routing thông minh nhất.

via Kimi K2.6 Tech Blog - Moonshot AI & Kimi K2.6 API Benchmarks - DeepInfra