- Một benchmark thực chiến so sánh Qwen3.6 35B-A3B (MoE) và Qwen3.6 27B (dense thinking) chạy local trên MacBook Pro M5 Max 64GB RAM với KV-cache nén bằng Google TurboQuant.
- Kết quả hé lộ trade-off rõ ràng giữa throughput và chất lượng planning.
TL;DR
Trên cùng một máy MacBook Pro M5 Max 64GB RAM, với KV-cache nén bằng Google TurboQuant, Qwen3.6 35B-A3B chạy nhanh gần 3 lần so với 27B (65 tok/s vs 24 tok/s) khi cùng được yêu cầu vẽ sóng bằng HTML. Nhưng kết quả ngược lại: 27B cho output gọn gàng và có cấu trúc, còn 35B-A3B nhanh nhưng cẩu thả. Lý do nằm ở kiến trúc: 35B-A3B là MoE chỉ active 3B tham số mỗi token, tối ưu cho latency; 27B là dense thinking model, đốt thời gian cho reasoning trước khi output.
Benchmark vừa công bố
Benchmark được chia sẻ bởi @atomic_chat_hq trên X, chạy cùng điều kiện phần cứng và cùng prompt "draw waves using HTML":
| Model | Tokens | Thời gian | Throughput | Chất lượng output |
|---|---|---|---|---|
| Qwen3.6 35B-A3B | 6,672 | 2m 10s | ~65 tok/s | Yếu, lộn xộn |
| Qwen3.6 27B | 7,344 | 5m 22s | ~24 tok/s | Gọn, có cấu trúc |
Cả hai model đều chạy local trên MacBook Pro M5 Max 64GB với TurboQuant — bản nén KV-cache 3-bit của Google DeepMind vừa công bố tháng 3/2026.
Vì sao đáng chú ý
Đây là case hiếm thấy một người dùng cuối chạy được model 35B class trên laptop cá nhân, ở tốc độ thực dụng, nhờ kết hợp hai đột phá mới: MoE active-params thấp của Qwen và KV-cache compression cực mạnh của Google. Với cấu hình phần cứng dưới 3.000 USD, bạn có tùy chọn rõ ràng giữa một assistant nhanh-tay và một assistant nghĩ-kỹ — không cần cloud, không cần API key, không lo data rời máy.
Quan trọng hơn, benchmark này cho thấy một hiểu lầm phổ biến đang được đập tan: params to hơn không đồng nghĩa output tốt hơn. 35B-A3B có 35B tổng, nhưng chỉ route qua 3B mỗi token; trong khi 27B dense dồn toàn bộ 27B qua mỗi token kèm thinking budget. Cùng một prompt planning, 27B đầu tư nhiều compute hơn 9 lần per token (tính effective) — và kết quả thể hiện rõ trong chất lượng đầu ra.
Chi tiết kỹ thuật
Qwen3.6 35B-A3B
- MoE: 35B tổng, chỉ 3B tham số active mỗi token, 256 experts (8 routed + 1 shared)
- 40 layers, hidden dim 2,048, Gated DeltaNet + Gated Attention
- Context 262K tokens native, mở rộng được tới 1M
- SWE-bench Verified 73.4, MMLU-Pro 85.2, AIME26 92.7, GPQA-Diamond 86.0
- Phát hành 16/04/2026
Qwen3.6 27B (dense, thinking-first)
- 27B dense, 64 layers, hidden dim 5,120, FFN 17,408
- Mặc định xuất
<think>...</think>blocks trước khi trả lời — đây là lý do chính nó chậm hơn - Multi-Token Prediction bật sẵn cho speculative decoding
- SWE-bench Verified 77.2, MMLU-Pro 86.2, AIME 2026 94.1, LiveCodeBench v6 83.9
- Phát hành 22/04/2026
Google TurboQuant
- Nén KV-cache từ 16-bit xuống 3-bit mà gần như không mất accuracy
- Kết hợp random rotation + Quantized Johnson–Lindenstrauss (QJL) + PolarQuant; chỉ 1 bit dùng cho error correction
- Paper gốc: 6x giảm memory, tới 8x nhanh hơn inference trên H100
- Fork llama.cpp của AmesianX: 5.2x giảm KV memory, throughput ~parity với f16 trên Qwen3-14B (20.7 tok/s), nhanh hơn ~12% trên Qwen3.5-35B (58.3 tok/s)
- Sẽ present tại ICLR 2026
So sánh đối đầu
| Tiêu chí | 35B-A3B (MoE) | 27B (Dense thinking) |
|---|---|---|
| Active params / token | 3B | 27B |
| Mặc định | Instruct nhanh | Thinking-first |
| Tok/s trên M5 Max (user test) | ~65 | ~24 |
| Wall-clock (same prompt) | 2m 10s | 5m 22s |
| SWE-bench Verified | 73.4 | 77.2 |
| AIME 2026 | 92.7 | 94.1 |
| Best for | Chat, autocomplete, latency-critical | Planning, structured code, reasoning |
Khi nào dùng model nào
Chọn 35B-A3B khi: bạn cần phản hồi dưới 2 giây, chat nhiều turn, autocomplete trong IDE, agent gọi tool liên tục, hoặc khi retry rẻ hơn là chờ.
Chọn 27B khi: cần reasoning multi-step, thiết kế UI/UX có cấu trúc, giải bài toán phức tạp, hoặc output phải đúng ngay lần đầu (frontend generation, refactor kiến trúc, math/coding competition).
Bật TurboQuant khi: context dài (RAG, codebase-scale agent, long chat) hoặc bộ nhớ GPU/VRAM là nút thắt.
Giới hạn & lưu ý
- Implementation chính thức của TurboQuant chạy trên JAX + H100. Chạy được trên Apple Silicon có nghĩa là thông qua community port (nhiều khả năng là fork llama.cpp). Google Research chưa document Apple Silicon.
- 27B chậm hơn wall-clock vì phải sinh thinking tokens — đây là feature, không phải bug. Có thể tắt thinking mode nếu muốn so sánh công bằng về latency thuần.
- Benchmark này là single-run, single-prompt từ một user. Chưa có statistical significance — nên coi là data point định hướng, không phải leaderboard.
- Prompt "draw waves using HTML" thiên về tasks đòi hỏi planning; kết quả có thể khác trên tasks thuần text.
What's next
Qwen team đã xác nhận cả hai model đều có trên Hugging Face, ModelScope và Ollama. TurboQuant sẽ được present tại ICLR 2026 cùng với PolarQuant tại AISTATS 2026. Community ports đang lan nhanh — bản MLX cho Apple Silicon nhiều khả năng là bước tiếp theo khi official code hiện tại vẫn NVIDIA-only.
Nguồn: HuggingFace — Qwen3.6-35B-A3B, HuggingFace — Qwen3.6-27B, Google Research — TurboQuant, AmesianX/TurboQuant (llama.cpp), @atomic_chat_hq trên X.


