Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

Summary post

huihui-ai vừa thả Huihui4-8B-A4B — bản MoE rút gọn của Gemma-4-26B-A4B-it: pruning 128 → 32 expert, SFT 10.900 step, perplexity 1.0035 (đánh bại base 1.5964). Fit gọn dưới 18GB VRAM FP16, 6–9GB INT4. Apache 2.0, chạy được Ollama một dòng.

6phút đọc

7mục nội dung

6chủ đề

TL;DR

huihui-ai/Huihui4-8B-A4B là phiên bản MoE rút gọn của google/gemma-4-26B-A4B-it. Team prune từ 128 expert xuống 32 expert rồi SFT 10.900 step trên dữ liệu code-preference. Kết quả: perplexity 1.0035 — thấp hơn cả base 1.5964. Tổng tham số ~9B, active 4B (8 expert/token). Chạy được dưới 18GB VRAM ở FP16 và 6–9GB ở INT4. Apache 2.0, có sẵn trên Ollama. Team nhấn mạnh: đây không phải bản ablation, mà là một hướng tối ưu chính thống.

Có gì mới

Gemma 4 family của Google DeepMind ra mắt tháng 4/2026, trong đó bản 26B-A4B là MoE 128 expert, kích hoạt 8 expert mỗi token (~4B active). Mô hình mạnh nhưng vẫn quá to cho phần lớn máy người dùng: cần ~52GB VRAM ở FP16.

huihui-ai chọn lối khác: cắt thẳng 96 expert, giữ lại 32 expert được đánh giá là quan trọng nhất, rồi bù lại bằng supervised fine-tuning (SFT) trên dataset hội thoại + code chất lượng cao. Sản phẩm cuối cùng — Huihui4-8B-A4B — gọn còn ~9B tổng tham số trong khi giữ nguyên scale active 4B (vẫn 8 expert/token).

Quan trọng: team viết rõ "This model is not an ablation variant" — họ định vị đây là một mô hình deployment-grade, không phải thí nghiệm cắt-thử-xem-sao.

Số liệu kỹ thuật

Thuộc tính	Giá trị
Base	google/gemma-4-26B-A4B-it
Tổng tham số	~9B
Expert MoE	32 (pruned từ 128)
Active expert/token	8 (≈4B active)
Tensor type	F32, BF16
Training data	500+ mẫu hội thoại + code preference
SFT steps	10.900
License	Apache 2.0

Bảng perplexity ở 3 mốc cho thấy SFT đã làm gì:

Checkpoint	Experts	Perplexity	Avg Loss
Base gemma-4-26B-A4B-it	128	1.5964	0.4678
Pruned (no SFT)	32	2.4826	0.9093
Pruned + SFT 10.9k	32	1.0035	0.0035

Pruning thuần làm perplexity tăng từ 1.59 lên 2.48 — đúng như dự đoán. Điểm thú vị là SFT không chỉ phục hồi mà vượt baseline 0.59 điểm. Lý do hợp lý nhất: dataset code-preference chất lượng cao đã "siết" 32 expert còn lại tập trung vào subset task quan trọng (code/dialogue) thay vì rải mỏng năng lực.

So sánh trong họ Gemma 4 và Huihui

Mô hình	Total	Experts	Active	FP16 VRAM	INT4 VRAM
Gemma-4 26B-A4B-it	~26B	128	~4B	~52GB	~13GB
Huihui4-48B-A4B-abliterated	~48B	256	~4B	~96GB	~24GB
Huihui4-8B-A4B	~9B	32	~4B	<18GB	6–9GB

Đáng chú ý: cùng team huihui-ai có hai hướng đối lập. Bản 48B thì concat hai bộ 128 expert (huihui abliterated + Claude-Opus-Distill từ TeichAI) thành 256 expert nhưng không SFT. Bản 8B thì prune xuống 32 expert nhưng SFT mạnh tay. Hai chiến lược, cùng giữ scale active 4B.

Use case

Code chat local — training data thiên về code-preference, fit nhất cho assistant lập trình chạy offline.
Task planning nhẹ trên consumer GPU (4090, 5080, hay thậm chí 12GB card với INT4).
Reference cho nghiên cứu MoE pruning — số liệu perplexity 3 mốc giúp người khác đo được "cắt bao nhiêu thì gãy, SFT bao nhiêu thì hồi".
Baseline merging — team mời cộng đồng fine-tune trên dataset riêng để sau này merge thành bản hợp nhất.

Hạn chế & giá

Miễn phí, Apache 2.0 — không có ràng buộc thương mại.

Đánh giá hiện tại chỉ qua perplexity — chưa có số MMLU, HumanEval, hay benchmark code chuẩn nào.
32 expert là mức prune khá quyết liệt; long-tail capability cho task ngoài code/dialogue có thể yếu hơn base 128-expert dù perplexity tổng đẹp hơn.
Không validate lại multimodal. Gemma-4 26B-A4B-it gốc vốn hỗ trợ image + text + video — bản 8B này được team frame là conversational/code, chưa rõ phần thị giác có còn hoạt động đúng không.
Bản sister 48B đang có issue mở: "infinite thinking loop trong roleplay". Đáng theo dõi xem 8B có dính lỗi tương tự không.
Đây là iteration đầu — team báo trước sẽ có bản update.

Tiếp theo là gì

Roadmap huihui-ai công bố:

Multi-domain SFT trên 4 dataset khác nhau (mở rộng khỏi code-only).
Validate hướng expert merging ngược: scale 32 → 128 expert bằng cách nhập các bản fine-tune cộng đồng.
Chứng minh viability của việc train MoE lớn trên consumer hardware.
Hợp nhất các bản fine-tune cộng đồng thành một release thống nhất.

Cài thử ngay với một dòng:

ollama run huihui_ai/huihui-4:8b

Hoặc tải về tự host qua vLLM, llama.cpp, hay HF Transformers.

Nguồn: model card trên Hugging Face, Welcome Gemma 4 — HF blog, trang tổ chức huihui-ai.

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

TL;DR

Có gì mới

Số liệu kỹ thuật

So sánh trong họ Gemma 4 và Huihui

Use case

Hạn chế & giá

Tiếp theo là gì

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

Carnice-V2-27b: a 27B open-source agent model built on Qwen3.6 lands on Hugging Face

Qwen3.6-27B chạy local trên MacBook Pro: model 27B đánh bại 397B trên benchmark coding