TL;DR
Có 15 kỹ thuật fine-tuning LLM bạn nên nắm, chia thành 4 họ: PEFT (LoRA, QLoRA, Prefix/Prompt/Soft Prompts, Adapter, P-Tuning, BitFit), SFT (Instruction Tuning, Multi-Task), Alignment (RLHF, RLAIF, DPO, GRPO), và Distributed (Federated). Năm 2026, luồng chuẩn cho open-source LLM là SFT → DPO, và với reasoning model thì thêm một pass GRPO — chính là thuật toán đứng sau DeepSeek-R1.
Cảm hứng từ bài viết
Danh sách này lan truyền từ post của Akshay Pachaar trên X. Anh chọn GRPO làm kỹ thuật yêu thích để xây reasoning model — cùng lựa chọn với đội DeepSeek. Chúng ta sẽ đi qua từng kỹ thuật, kèm con số cụ thể và kịch bản dùng thực tế.
Vì sao cần biết 15 kỹ thuật này
Fine-tuning không còn là "một nút bấm". Mỗi kỹ thuật tối ưu một trade-off khác nhau: bộ nhớ (QLoRA, BitFit), số tham số trainable (Adapter, Soft Prompts), chất lượng alignment (DPO, RLHF), khả năng reasoning (GRPO), hay quyền riêng tư dữ liệu (Federated).
Chọn sai = hoặc đốt tiền, hoặc mô hình không đáp ứng yêu cầu sản phẩm. Chọn đúng = fine-tune 65B params trên 1 GPU 48GB, hoặc align một Llama base thành chatbot khách hàng chỉ với vài nghìn cặp preference.
Nhóm 1 — PEFT: tiết kiệm tham số, tiết kiệm GPU
PEFT (Parameter-Efficient Fine-Tuning) giữ >95% trọng số gốc đóng băng, chỉ train một phần nhỏ. 7 kỹ thuật trong nhóm này:
- LoRA — Chèn ma trận low-rank vào các layer attention. Train 0.1%–1% params, độ chính xác gần sát full fine-tune. Default cho domain adaptation.
- QLoRA — LoRA + lượng tử hóa base model xuống 4-bit. Giảm 33% GPU memory so với LoRA, đánh đổi ~39% thời gian train. Cho phép fine-tune 65B params trên 1 GPU 48GB.
- Prefix Tuning — Gắn vector prefix học được vào từng transformer layer. Tối ưu cho NLG.
- Adapter Tuning — Chèn bottleneck nhỏ giữa các block. Dễ swap adapter cho nhiều task khác nhau — phù hợp multi-tenant platform.
- P-Tuning — Prompt embedding học được qua một encoder nhỏ. Mạnh ở task NLU (phân loại, QA).
- BitFit — Chỉ train bias của từng layer. Footprint nhỏ nhất có thể. Chỉ cạnh tranh với model nhỏ.
- Soft Prompts — Vector liên tục được tối ưu, prepend vào input. Base model đóng băng hoàn toàn.
Nhóm 2 — SFT: dạy model theo chỉ thị
- Instruction Tuning — Train trên cặp (instruction, response) để base model biết "tuân lệnh". Bước đầu tiên biến một pre-trained model thành assistant.
- Multi-Task Fine-Tuning — Train đồng thời trên nhiều task với trọng số chia sẻ. Một model phục vụ nhiều downstream thay vì train riêng từng cái.
Nhóm 3 — Alignment: dạy model nói lời dễ nghe
Đây là nhóm sôi động nhất 2024–2026:
- RLHF — Kinh điển: train reward model từ nhãn người, rồi PPO tối ưu policy. Ổn định về safety (8% unsafe outputs trên adversarial prompts so với 10% của DPO) nhưng đắt đỏ và khó train.
- RLAIF — Thay labeler người bằng một AI judge. Chất lượng xấp xỉ RLHF, chi phí thấp hơn 63%. Nền tảng cho Constitutional AI.
- DPO — Bỏ hẳn reward model và RL. Biến preference learning thành classification: cặp (chosen, rejected) + binary loss. Tiết kiệm 40%–75% compute vs RLHF, train ổn định hơn rất nhiều. Default alignment method 2026 — Gartner dự báo 78% enterprise LLM sẽ theo luồng SFT → DPO/RLAIF.
- GRPO — Variant của PPO, bỏ value/critic model, thay bằng baseline = reward trung bình của một nhóm output cùng prompt. Tiết kiệm memory lớn. Là động cơ phía sau DeepSeek-R1 và các reasoning model open-source khác. Điều kiện: cần reward verifiable (math, code, format check).
Nhóm 4 — Federated: train không cần chuyển dữ liệu
Federated Fine-Tuning huấn luyện adapter (thường là LoRA) phân tán trên nhiều client, chỉ gradient/adapter được agregate về server — dữ liệu gốc không rời thiết bị. Dùng cho bệnh viện (dữ liệu bệnh nhân), ngân hàng (giao dịch), bàn phím di động (gõ cá nhân). Framework MIRA và FedDTPT là state-of-the-art 2025.
Bảng so sánh nhanh
| Họ | Kỹ thuật | Train cái gì | Khi nào dùng |
|---|---|---|---|
| PEFT | LoRA | Ma trận low-rank | Default adaptation |
| PEFT | QLoRA | LoRA + 4-bit base | Model 30B+ trên 1 GPU |
| PEFT | Adapter | Bottleneck layers | Multi-task, multi-tenant |
| PEFT | BitFit | Bias params | Footprint tối thiểu |
| PEFT | Soft/Prefix/P-Tuning | Vector prompt | NLU/NLG, base đóng băng |
| SFT | Instruction / Multi-Task | Full or LoRA weights | Dạy tuân lệnh, gộp task |
| Alignment | RLHF | Policy qua PPO + reward model | Safety cao, preference phức tạp |
| Alignment | RLAIF | Same, AI judge | Scale preference data |
| Alignment | DPO | Classification loss | Default 2026 |
| Alignment | GRPO | Policy với group-relative reward | Reasoning, verifiable reward |
| Distributed | Federated FT | Adapter cross-client | Dữ liệu nhạy cảm |
Khi nào chọn cái nào
- Chatbot domain-specific (legal, medical): QLoRA trên base 7B–13B, +DPO với 1k–5k cặp preference.
- SaaS multi-tenant với tùy biến per-customer: Adapter hoặc Soft Prompts — mỗi khách một adapter nhỏ thay vì một model.
- Agent giải toán / code: SFT → GRPO với reward dựa trên unit test hoặc checker. Đây chính là công thức DeepSeek-R1.
- Safety/policy alignment ở scale: RLAIF + audit người định kỳ (AI judge có bias).
- Dữ liệu không rời device: Federated LoRA.
Hạn chế & chi phí
- LoRA/QLoRA: chọn rank và target modules rất fiddly; QLoRA train chậm hơn ~39% so với LoRA.
- Prefix/Prompt tuning: yếu trên base <3B; khó tối ưu ổn định.
- BitFit: chỉ cạnh tranh được với model nhỏ; thua LoRA trên 7B+.
- RLHF: đắt, khó train, dễ mode collapse; cần quy trình label người chất lượng.
- DPO: phụ thuộc chất lượng cặp preference; không explore ngoài distribution; yếu hơn RLHF một chút ở adversarial safety.
- GRPO: đòi reward verifiable — khó áp cho writing mở, sáng tạo.
- Federated: communication cost lớn; client heterogeneity gây gradient drift.
Điều gì tiếp theo
2026 định hình xu hướng pipeline lai: SFT → DPO cho alignment chung → GRPO trên subset có reward verifiable (math, code, tool-use). Các variant của DPO như ORPO, KTO, SimPO đang chia sẻ thị phần. Bên cạnh đó, federated PEFT (MIRA, FedDTPT) đang trưởng thành cho scenario privacy-first, và agentic RL (GRPO + tool loop) là biên giới tiếp theo cho autonomous agents.
Nắm 15 kỹ thuật này bạn có đủ công cụ để chọn combo phù hợp — chứ không phải cứ thấy "fine-tune" là LoRA.
Nguồn: Akshay Pachaar on X, DeepSeekMath (GRPO), DeepSeek-R1, PEFT Survey, Turing Post — RLHF variations.