Qwen3.6-27B chạy local: benchmark 4 setup từ RTX 4090 đến DGX Spark

TL;DR

Qwen3.6-27B — dense model 27B vừa launch 22/04/2026, đánh bại Qwen3.5-397B MoE trên SWE-bench (77.2%) và Terminal-Bench (59.3%). Dev @stevibe chạy benchmark out-of-the-box trên 4 setup phổ biến: RTX 5090 đạt 51.83 tok/s, RTX 4090 đạt 45.59 tok/s, M2 Ultra 22.30 tok/s, DGX Spark 11.08 tok/s. Điểm bất ngờ: M2 Ultra có TTFT thấp nhất (216ms) còn DGX Spark 128GB unified RAM lại chậm nhất vì bandwidth chỉ 273 GB/s.

Qwen3.6-27B decode throughput bar chart across 4 hardware setups

Có gì mới

Qwen3.6-27B là dense 27B param (không phải MoE) dưới license Apache 2.0. Alibaba giảm từ 397B total param của Qwen3.5 xuống 27B nhưng vẫn giữ hiệu năng flagship trên coding benchmark — kích thước weight giảm từ 807GB còn 55.6GB BF16, và bản Q4_K_M GGUF chỉ 16.8GB, fit gọn 24GB VRAM của RTX 4090.

Vì weight đã nhẹ, cộng đồng chạy local được ngay trong ngày launch. Unsloth đẩy 2 quant song song: UD-Q4_K_XL (GGUF cho llama.cpp trên NVIDIA) và UD-MLX-4bit (cho Apple Silicon). Đây là lần đầu cộng đồng có data benchmark cross-platform trên cùng một model coding flagship ngay trong 24h đầu.

Tại sao quan trọng

Trước Qwen3.6, muốn chạy một model coding đạt chuẩn "flagship" local bạn phải load model 100B+ MoE — nghĩa là cần 128GB RAM unified hoặc multi-GPU. Với 27B dense Q4, bất kỳ RTX 4090 nào cũng chạy được với tốc độ đủ dùng cho interactive coding.

Nhưng benchmark này cũng cho câu trả lời thẳng thắn: bandwidth memory quyết định tất cả trong LLM decode. RTX 5090 có 1.8 TB/s GDDR7, nhanh 4.7× so với DGX Spark 273 GB/s LPDDR5x — và kết quả decode chênh đúng 4.7× (51.83 vs 11.08 tok/s). Bộ nhớ lớn không bù được bandwidth thấp khi model vẫn fit VRAM.

Con số benchmark

Tất cả số đo single-stream, out-of-the-box, không tuning:

Setup	Decode (tok/s)	TTFT (ms)	Engine	Quant
RTX 5090	51.83	752	llama.cpp	UD-Q4_K_XL
RTX 4090	45.59	525	llama.cpp	UD-Q4_K_XL
M2 Ultra	22.30	216	MLX	UD-MLX-4bit
DGX Spark	11.08	319	llama.cpp	UD-Q4_K_XL

Chú ý: quant khác nhau giữa NVIDIA (UD-Q4_K_XL GGUF) và Mac (UD-MLX-4bit) nên đây không phải apples-to-apples hoàn hảo — MLX 4bit thường nhẹ hơn một chút, nhưng chất lượng output khác. Dù vậy, tỉ lệ tương đối giữa hardware vẫn phản ánh đúng bandwidth gap.

TTFT kể một câu chuyện khác

Decode là cuộc chơi của 2 card NVIDIA, nhưng TTFT (time to first token) thì M2 Ultra đứng đầu với chỉ 216ms — nhanh hơn RTX 5090 (752ms) gấp 3.5 lần.

Time to first token comparison across setups

Lý do: unified memory của Apple Silicon không cần copy weight từ system RAM sang VRAM — model đã sẵn sàng ngay khi load. Với llama.cpp trên CUDA, prefill phase có thêm chi phí setup kernel, đặc biệt rõ trên 5090 Blackwell chưa tune hết.

Ngụ ý: nếu bạn xây coding agent interactive mà user quan tâm "model có phản hồi ngay không" hơn là "sinh nhanh cỡ nào", M2 Ultra lại là lựa chọn tốt bất ngờ.

Chọn setup nào?

RTX 4090 (24GB) — sweet spot giá/hiệu năng. 45 tok/s đủ cho coding agent, chat interactive. Q4 quant fit vừa đủ VRAM.
RTX 5090 (32GB) — chỉ hơn 4090 ~14% decode, không đáng nâng cấp nếu chỉ chạy 27B. Đáng giá khi lên Q6/Q8 hoặc model 70B dense.
M2 Ultra Mac Studio — TTFT thấp, tiết kiệm điện, im lặng. Phù hợp dev mobile/desktop creator single-user. 22 tok/s OK cho chat nhưng chậm với agent nặng.
DGX Spark — KHÔNG nên dùng cho model <32GB. Lợi thế duy nhất: 128GB unified để chạy model 100B-200B mà 5090 không fit. Developer kit để prototype workflow data-center, không phải inference machine.

Giới hạn & caveat

Benchmark chỉ là starting point, không phải endgame:

Single-stream, chưa batch — scale concurrent có thể 2-4× throughput trên NVIDIA.
Chưa bật speculative decoding — với draft model nhỏ, 4090/5090 có thể lên 80-100 tok/s.
FP8 trên Blackwell (5090) chưa tune — có khả năng nhanh thêm 20-30%.
MLX quant khác GGUF quant → không fair hoàn toàn giữa Apple và NVIDIA.

Về chi phí (tham khảo thị trường): RTX 4090 ~1.6-2k USD, RTX 5090 ~2-3k USD, Mac Studio M2 Ultra 64GB+ từ 4k USD, DGX Spark 3.999 USD.

Dự kiến 1-2 tuần tới cộng đồng sẽ push các con số optimized: batch throughput, speculative decoding numbers, FP8 trên 5090, và comparison với vLLM/SGLang thay vì llama.cpp. Qwen3.6-27B-FP8 đã có sẵn trên HuggingFace, chờ driver Blackwell tune xong là unlock thêm 20-30%.

Nguồn: @stevibe benchmark tweet, Simon Willison, MarkTechPost, LMSYS DGX Spark review.

Qwen3.6-27B chạy local: benchmark 4 setup từ RTX 4090 đến DGX Spark

TL;DR

Có gì mới

Tại sao quan trọng

Con số benchmark

TTFT kể một câu chuyện khác

Chọn setup nào?

Giới hạn & caveat

Tiếp theo

Tiếp tục lướt

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding

Free CLI Agent: Pi + Ollama + Gemma 4 + Parallel Search MCP — $0, No API Keys

SmallClaw: AI agent framework local-first cho small models, chạy ngon trên laptop 8GB RAM