Qwen3.6 35B vs 27B trên MacBook M5 Max với TurboQuant: tốc độ hay chất lượng?

TL;DR

Trên cùng một máy MacBook Pro M5 Max 64GB RAM, với KV-cache nén bằng Google TurboQuant, Qwen3.6 35B-A3B chạy nhanh gần 3 lần so với 27B (65 tok/s vs 24 tok/s) khi cùng được yêu cầu vẽ sóng bằng HTML. Nhưng kết quả ngược lại: 27B cho output gọn gàng và có cấu trúc, còn 35B-A3B nhanh nhưng cẩu thả. Lý do nằm ở kiến trúc: 35B-A3B là MoE chỉ active 3B tham số mỗi token, tối ưu cho latency; 27B là dense thinking model, đốt thời gian cho reasoning trước khi output.

Benchmark vừa công bố

Benchmark được chia sẻ bởi @atomic_chat_hq trên X, chạy cùng điều kiện phần cứng và cùng prompt "draw waves using HTML":

Model	Tokens	Thời gian	Throughput	Chất lượng output
Qwen3.6 35B-A3B	6,672	2m 10s	~65 tok/s	Yếu, lộn xộn
Qwen3.6 27B	7,344	5m 22s	~24 tok/s	Gọn, có cấu trúc

Cả hai model đều chạy local trên MacBook Pro M5 Max 64GB với TurboQuant — bản nén KV-cache 3-bit của Google DeepMind vừa công bố tháng 3/2026.

Vì sao đáng chú ý

Đây là case hiếm thấy một người dùng cuối chạy được model 35B class trên laptop cá nhân, ở tốc độ thực dụng, nhờ kết hợp hai đột phá mới: MoE active-params thấp của Qwen và KV-cache compression cực mạnh của Google. Với cấu hình phần cứng dưới 3.000 USD, bạn có tùy chọn rõ ràng giữa một assistant nhanh-tay và một assistant nghĩ-kỹ — không cần cloud, không cần API key, không lo data rời máy.

Quan trọng hơn, benchmark này cho thấy một hiểu lầm phổ biến đang được đập tan: params to hơn không đồng nghĩa output tốt hơn. 35B-A3B có 35B tổng, nhưng chỉ route qua 3B mỗi token; trong khi 27B dense dồn toàn bộ 27B qua mỗi token kèm thinking budget. Cùng một prompt planning, 27B đầu tư nhiều compute hơn 9 lần per token (tính effective) — và kết quả thể hiện rõ trong chất lượng đầu ra.

Chi tiết kỹ thuật

Qwen3.6 35B-A3B

MoE: 35B tổng, chỉ 3B tham số active mỗi token, 256 experts (8 routed + 1 shared)
40 layers, hidden dim 2,048, Gated DeltaNet + Gated Attention
Context 262K tokens native, mở rộng được tới 1M
SWE-bench Verified 73.4, MMLU-Pro 85.2, AIME26 92.7, GPQA-Diamond 86.0
Phát hành 16/04/2026

Qwen3.6 27B (dense, thinking-first)

27B dense, 64 layers, hidden dim 5,120, FFN 17,408
Mặc định xuất <think>...</think> blocks trước khi trả lời — đây là lý do chính nó chậm hơn
Multi-Token Prediction bật sẵn cho speculative decoding
SWE-bench Verified 77.2, MMLU-Pro 86.2, AIME 2026 94.1, LiveCodeBench v6 83.9
Phát hành 22/04/2026

Google TurboQuant

Nén KV-cache từ 16-bit xuống 3-bit mà gần như không mất accuracy
Kết hợp random rotation + Quantized Johnson–Lindenstrauss (QJL) + PolarQuant; chỉ 1 bit dùng cho error correction
Paper gốc: 6x giảm memory, tới 8x nhanh hơn inference trên H100
Fork llama.cpp của AmesianX: 5.2x giảm KV memory, throughput ~parity với f16 trên Qwen3-14B (20.7 tok/s), nhanh hơn ~12% trên Qwen3.5-35B (58.3 tok/s)
Sẽ present tại ICLR 2026

So sánh đối đầu

Tiêu chí	35B-A3B (MoE)	27B (Dense thinking)
Active params / token	3B	27B
Mặc định	Instruct nhanh	Thinking-first
Tok/s trên M5 Max (user test)	~65	~24
Wall-clock (same prompt)	2m 10s	5m 22s
SWE-bench Verified	73.4	77.2
AIME 2026	92.7	94.1
Best for	Chat, autocomplete, latency-critical	Planning, structured code, reasoning

Khi nào dùng model nào

Chọn 35B-A3B khi: bạn cần phản hồi dưới 2 giây, chat nhiều turn, autocomplete trong IDE, agent gọi tool liên tục, hoặc khi retry rẻ hơn là chờ.

Chọn 27B khi: cần reasoning multi-step, thiết kế UI/UX có cấu trúc, giải bài toán phức tạp, hoặc output phải đúng ngay lần đầu (frontend generation, refactor kiến trúc, math/coding competition).

Bật TurboQuant khi: context dài (RAG, codebase-scale agent, long chat) hoặc bộ nhớ GPU/VRAM là nút thắt.

Giới hạn & lưu ý

Implementation chính thức của TurboQuant chạy trên JAX + H100. Chạy được trên Apple Silicon có nghĩa là thông qua community port (nhiều khả năng là fork llama.cpp). Google Research chưa document Apple Silicon.
27B chậm hơn wall-clock vì phải sinh thinking tokens — đây là feature, không phải bug. Có thể tắt thinking mode nếu muốn so sánh công bằng về latency thuần.
Benchmark này là single-run, single-prompt từ một user. Chưa có statistical significance — nên coi là data point định hướng, không phải leaderboard.
Prompt "draw waves using HTML" thiên về tasks đòi hỏi planning; kết quả có thể khác trên tasks thuần text.

What's next

Qwen team đã xác nhận cả hai model đều có trên Hugging Face, ModelScope và Ollama. TurboQuant sẽ được present tại ICLR 2026 cùng với PolarQuant tại AISTATS 2026. Community ports đang lan nhanh — bản MLX cho Apple Silicon nhiều khả năng là bước tiếp theo khi official code hiện tại vẫn NVIDIA-only.

Nguồn: HuggingFace — Qwen3.6-35B-A3B, HuggingFace — Qwen3.6-27B, Google Research — TurboQuant, AmesianX/TurboQuant (llama.cpp), @atomic_chat_hq trên X.

Qwen3.6 35B vs 27B trên MacBook M5 Max với TurboQuant: tốc độ hay chất lượng?

TL;DR

Benchmark vừa công bố

Vì sao đáng chú ý

Chi tiết kỹ thuật

Qwen3.6 35B-A3B

Qwen3.6 27B (dense, thinking-first)

Google TurboQuant

So sánh đối đầu

Khi nào dùng model nào

Giới hạn & lưu ý

What's next

Tiếp tục lướt

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding

Free CLI Agent: Pi + Ollama + Gemma 4 + Parallel Search MCP — $0, No API Keys

SmallClaw: AI agent framework local-first cho small models, chạy ngon trên laptop 8GB RAM