TL;DR

huihui-ai/Huihui4-8B-A4B là phiên bản MoE rút gọn của google/gemma-4-26B-A4B-it. Team prune từ 128 expert xuống 32 expert rồi SFT 10.900 step trên dữ liệu code-preference. Kết quả: perplexity 1.0035 — thấp hơn cả base 1.5964. Tổng tham số ~9B, active 4B (8 expert/token). Chạy được dưới 18GB VRAM ở FP16 và 6–9GB ở INT4. Apache 2.0, có sẵn trên Ollama. Team nhấn mạnh: đây không phải bản ablation, mà là một hướng tối ưu chính thống.

Có gì mới

Gemma 4 family của Google DeepMind ra mắt tháng 4/2026, trong đó bản 26B-A4B là MoE 128 expert, kích hoạt 8 expert mỗi token (~4B active). Mô hình mạnh nhưng vẫn quá to cho phần lớn máy người dùng: cần ~52GB VRAM ở FP16.

huihui-ai chọn lối khác: cắt thẳng 96 expert, giữ lại 32 expert được đánh giá là quan trọng nhất, rồi bù lại bằng supervised fine-tuning (SFT) trên dataset hội thoại + code chất lượng cao. Sản phẩm cuối cùng — Huihui4-8B-A4B — gọn còn ~9B tổng tham số trong khi giữ nguyên scale active 4B (vẫn 8 expert/token).

Quan trọng: team viết rõ "This model is not an ablation variant" — họ định vị đây là một mô hình deployment-grade, không phải thí nghiệm cắt-thử-xem-sao.

Số liệu kỹ thuật

Thuộc tínhGiá trị
Basegoogle/gemma-4-26B-A4B-it
Tổng tham số~9B
Expert MoE32 (pruned từ 128)
Active expert/token8 (≈4B active)
Tensor typeF32, BF16
Training data500+ mẫu hội thoại + code preference
SFT steps10.900
LicenseApache 2.0

Bảng perplexity ở 3 mốc cho thấy SFT đã làm gì:

CheckpointExpertsPerplexityAvg Loss
Base gemma-4-26B-A4B-it1281.59640.4678
Pruned (no SFT)322.48260.9093
Pruned + SFT 10.9k321.00350.0035

Pruning thuần làm perplexity tăng từ 1.59 lên 2.48 — đúng như dự đoán. Điểm thú vị là SFT không chỉ phục hồi mà vượt baseline 0.59 điểm. Lý do hợp lý nhất: dataset code-preference chất lượng cao đã "siết" 32 expert còn lại tập trung vào subset task quan trọng (code/dialogue) thay vì rải mỏng năng lực.

So sánh trong họ Gemma 4 và Huihui

Mô hìnhTotalExpertsActiveFP16 VRAMINT4 VRAM
Gemma-4 26B-A4B-it~26B128~4B~52GB~13GB
Huihui4-48B-A4B-abliterated~48B256~4B~96GB~24GB
Huihui4-8B-A4B~9B32~4B<18GB6–9GB

Đáng chú ý: cùng team huihui-ai có hai hướng đối lập. Bản 48B thì concat hai bộ 128 expert (huihui abliterated + Claude-Opus-Distill từ TeichAI) thành 256 expert nhưng không SFT. Bản 8B thì prune xuống 32 expert nhưng SFT mạnh tay. Hai chiến lược, cùng giữ scale active 4B.

Use case

  • Code chat local — training data thiên về code-preference, fit nhất cho assistant lập trình chạy offline.
  • Task planning nhẹ trên consumer GPU (4090, 5080, hay thậm chí 12GB card với INT4).
  • Reference cho nghiên cứu MoE pruning — số liệu perplexity 3 mốc giúp người khác đo được "cắt bao nhiêu thì gãy, SFT bao nhiêu thì hồi".
  • Baseline merging — team mời cộng đồng fine-tune trên dataset riêng để sau này merge thành bản hợp nhất.

Hạn chế & giá

Miễn phí, Apache 2.0 — không có ràng buộc thương mại.

  • Đánh giá hiện tại chỉ qua perplexity — chưa có số MMLU, HumanEval, hay benchmark code chuẩn nào.
  • 32 expert là mức prune khá quyết liệt; long-tail capability cho task ngoài code/dialogue có thể yếu hơn base 128-expert dù perplexity tổng đẹp hơn.
  • Không validate lại multimodal. Gemma-4 26B-A4B-it gốc vốn hỗ trợ image + text + video — bản 8B này được team frame là conversational/code, chưa rõ phần thị giác có còn hoạt động đúng không.
  • Bản sister 48B đang có issue mở: "infinite thinking loop trong roleplay". Đáng theo dõi xem 8B có dính lỗi tương tự không.
  • Đây là iteration đầu — team báo trước sẽ có bản update.

Tiếp theo là gì

Roadmap huihui-ai công bố:

  1. Multi-domain SFT trên 4 dataset khác nhau (mở rộng khỏi code-only).
  2. Validate hướng expert merging ngược: scale 32 → 128 expert bằng cách nhập các bản fine-tune cộng đồng.
  3. Chứng minh viability của việc train MoE lớn trên consumer hardware.
  4. Hợp nhất các bản fine-tune cộng đồng thành một release thống nhất.

Cài thử ngay với một dòng:

ollama run huihui_ai/huihui-4:8b

Hoặc tải về tự host qua vLLM, llama.cpp, hay HF Transformers.

Nguồn: model card trên Hugging Face, Welcome Gemma 4 — HF blog, trang tổ chức huihui-ai.