TL;DR
huihui-ai/Huihui4-8B-A4B là phiên bản MoE rút gọn của google/gemma-4-26B-A4B-it. Team prune từ 128 expert xuống 32 expert rồi SFT 10.900 step trên dữ liệu code-preference. Kết quả: perplexity 1.0035 — thấp hơn cả base 1.5964. Tổng tham số ~9B, active 4B (8 expert/token). Chạy được dưới 18GB VRAM ở FP16 và 6–9GB ở INT4. Apache 2.0, có sẵn trên Ollama. Team nhấn mạnh: đây không phải bản ablation, mà là một hướng tối ưu chính thống.
Có gì mới
Gemma 4 family của Google DeepMind ra mắt tháng 4/2026, trong đó bản 26B-A4B là MoE 128 expert, kích hoạt 8 expert mỗi token (~4B active). Mô hình mạnh nhưng vẫn quá to cho phần lớn máy người dùng: cần ~52GB VRAM ở FP16.
huihui-ai chọn lối khác: cắt thẳng 96 expert, giữ lại 32 expert được đánh giá là quan trọng nhất, rồi bù lại bằng supervised fine-tuning (SFT) trên dataset hội thoại + code chất lượng cao. Sản phẩm cuối cùng — Huihui4-8B-A4B — gọn còn ~9B tổng tham số trong khi giữ nguyên scale active 4B (vẫn 8 expert/token).
Quan trọng: team viết rõ "This model is not an ablation variant" — họ định vị đây là một mô hình deployment-grade, không phải thí nghiệm cắt-thử-xem-sao.
Số liệu kỹ thuật
| Thuộc tính | Giá trị |
|---|---|
| Base | google/gemma-4-26B-A4B-it |
| Tổng tham số | ~9B |
| Expert MoE | 32 (pruned từ 128) |
| Active expert/token | 8 (≈4B active) |
| Tensor type | F32, BF16 |
| Training data | 500+ mẫu hội thoại + code preference |
| SFT steps | 10.900 |
| License | Apache 2.0 |
Bảng perplexity ở 3 mốc cho thấy SFT đã làm gì:
| Checkpoint | Experts | Perplexity | Avg Loss |
|---|---|---|---|
| Base gemma-4-26B-A4B-it | 128 | 1.5964 | 0.4678 |
| Pruned (no SFT) | 32 | 2.4826 | 0.9093 |
| Pruned + SFT 10.9k | 32 | 1.0035 | 0.0035 |
Pruning thuần làm perplexity tăng từ 1.59 lên 2.48 — đúng như dự đoán. Điểm thú vị là SFT không chỉ phục hồi mà vượt baseline 0.59 điểm. Lý do hợp lý nhất: dataset code-preference chất lượng cao đã "siết" 32 expert còn lại tập trung vào subset task quan trọng (code/dialogue) thay vì rải mỏng năng lực.
So sánh trong họ Gemma 4 và Huihui
| Mô hình | Total | Experts | Active | FP16 VRAM | INT4 VRAM |
|---|---|---|---|---|---|
| Gemma-4 26B-A4B-it | ~26B | 128 | ~4B | ~52GB | ~13GB |
| Huihui4-48B-A4B-abliterated | ~48B | 256 | ~4B | ~96GB | ~24GB |
| Huihui4-8B-A4B | ~9B | 32 | ~4B | <18GB | 6–9GB |
Đáng chú ý: cùng team huihui-ai có hai hướng đối lập. Bản 48B thì concat hai bộ 128 expert (huihui abliterated + Claude-Opus-Distill từ TeichAI) thành 256 expert nhưng không SFT. Bản 8B thì prune xuống 32 expert nhưng SFT mạnh tay. Hai chiến lược, cùng giữ scale active 4B.
Use case
- Code chat local — training data thiên về code-preference, fit nhất cho assistant lập trình chạy offline.
- Task planning nhẹ trên consumer GPU (4090, 5080, hay thậm chí 12GB card với INT4).
- Reference cho nghiên cứu MoE pruning — số liệu perplexity 3 mốc giúp người khác đo được "cắt bao nhiêu thì gãy, SFT bao nhiêu thì hồi".
- Baseline merging — team mời cộng đồng fine-tune trên dataset riêng để sau này merge thành bản hợp nhất.
Hạn chế & giá
Miễn phí, Apache 2.0 — không có ràng buộc thương mại.
- Đánh giá hiện tại chỉ qua perplexity — chưa có số MMLU, HumanEval, hay benchmark code chuẩn nào.
- 32 expert là mức prune khá quyết liệt; long-tail capability cho task ngoài code/dialogue có thể yếu hơn base 128-expert dù perplexity tổng đẹp hơn.
- Không validate lại multimodal. Gemma-4 26B-A4B-it gốc vốn hỗ trợ image + text + video — bản 8B này được team frame là conversational/code, chưa rõ phần thị giác có còn hoạt động đúng không.
- Bản sister 48B đang có issue mở: "infinite thinking loop trong roleplay". Đáng theo dõi xem 8B có dính lỗi tương tự không.
- Đây là iteration đầu — team báo trước sẽ có bản update.
Tiếp theo là gì
Roadmap huihui-ai công bố:
- Multi-domain SFT trên 4 dataset khác nhau (mở rộng khỏi code-only).
- Validate hướng expert merging ngược: scale 32 → 128 expert bằng cách nhập các bản fine-tune cộng đồng.
- Chứng minh viability của việc train MoE lớn trên consumer hardware.
- Hợp nhất các bản fine-tune cộng đồng thành một release thống nhất.
Cài thử ngay với một dòng:
ollama run huihui_ai/huihui-4:8bHoặc tải về tự host qua vLLM, llama.cpp, hay HF Transformers.
Nguồn: model card trên Hugging Face, Welcome Gemma 4 — HF blog, trang tổ chức huihui-ai.

