15 LLM Fine-Tuning Techniques Mọi Practitioner Nên Biết (LoRA, DPO, GRPO & Co.)

TL;DR

Có 15 kỹ thuật fine-tuning LLM bạn nên nắm, chia thành 4 họ: PEFT (LoRA, QLoRA, Prefix/Prompt/Soft Prompts, Adapter, P-Tuning, BitFit), SFT (Instruction Tuning, Multi-Task), Alignment (RLHF, RLAIF, DPO, GRPO), và Distributed (Federated). Năm 2026, luồng chuẩn cho open-source LLM là SFT → DPO, và với reasoning model thì thêm một pass GRPO — chính là thuật toán đứng sau DeepSeek-R1.

Cảm hứng từ bài viết

Danh sách này lan truyền từ post của Akshay Pachaar trên X. Anh chọn GRPO làm kỹ thuật yêu thích để xây reasoning model — cùng lựa chọn với đội DeepSeek. Chúng ta sẽ đi qua từng kỹ thuật, kèm con số cụ thể và kịch bản dùng thực tế.

Vì sao cần biết 15 kỹ thuật này

Fine-tuning không còn là "một nút bấm". Mỗi kỹ thuật tối ưu một trade-off khác nhau: bộ nhớ (QLoRA, BitFit), số tham số trainable (Adapter, Soft Prompts), chất lượng alignment (DPO, RLHF), khả năng reasoning (GRPO), hay quyền riêng tư dữ liệu (Federated).

Chọn sai = hoặc đốt tiền, hoặc mô hình không đáp ứng yêu cầu sản phẩm. Chọn đúng = fine-tune 65B params trên 1 GPU 48GB, hoặc align một Llama base thành chatbot khách hàng chỉ với vài nghìn cặp preference.

Nhóm 1 — PEFT: tiết kiệm tham số, tiết kiệm GPU

PEFT (Parameter-Efficient Fine-Tuning) giữ >95% trọng số gốc đóng băng, chỉ train một phần nhỏ. 7 kỹ thuật trong nhóm này:

LoRA — Chèn ma trận low-rank vào các layer attention. Train 0.1%–1% params, độ chính xác gần sát full fine-tune. Default cho domain adaptation.
QLoRA — LoRA + lượng tử hóa base model xuống 4-bit. Giảm 33% GPU memory so với LoRA, đánh đổi ~39% thời gian train. Cho phép fine-tune 65B params trên 1 GPU 48GB.
Prefix Tuning — Gắn vector prefix học được vào từng transformer layer. Tối ưu cho NLG.
Adapter Tuning — Chèn bottleneck nhỏ giữa các block. Dễ swap adapter cho nhiều task khác nhau — phù hợp multi-tenant platform.
P-Tuning — Prompt embedding học được qua một encoder nhỏ. Mạnh ở task NLU (phân loại, QA).
BitFit — Chỉ train bias của từng layer. Footprint nhỏ nhất có thể. Chỉ cạnh tranh với model nhỏ.
Soft Prompts — Vector liên tục được tối ưu, prepend vào input. Base model đóng băng hoàn toàn.

Nhóm 2 — SFT: dạy model theo chỉ thị

Instruction Tuning — Train trên cặp (instruction, response) để base model biết "tuân lệnh". Bước đầu tiên biến một pre-trained model thành assistant.
Multi-Task Fine-Tuning — Train đồng thời trên nhiều task với trọng số chia sẻ. Một model phục vụ nhiều downstream thay vì train riêng từng cái.

Nhóm 3 — Alignment: dạy model nói lời dễ nghe

Đây là nhóm sôi động nhất 2024–2026:

RLHF — Kinh điển: train reward model từ nhãn người, rồi PPO tối ưu policy. Ổn định về safety (8% unsafe outputs trên adversarial prompts so với 10% của DPO) nhưng đắt đỏ và khó train.
RLAIF — Thay labeler người bằng một AI judge. Chất lượng xấp xỉ RLHF, chi phí thấp hơn 63%. Nền tảng cho Constitutional AI.
DPO — Bỏ hẳn reward model và RL. Biến preference learning thành classification: cặp (chosen, rejected) + binary loss. Tiết kiệm 40%–75% compute vs RLHF, train ổn định hơn rất nhiều. Default alignment method 2026 — Gartner dự báo 78% enterprise LLM sẽ theo luồng SFT → DPO/RLAIF.
GRPO — Variant của PPO, bỏ value/critic model, thay bằng baseline = reward trung bình của một nhóm output cùng prompt. Tiết kiệm memory lớn. Là động cơ phía sau DeepSeek-R1 và các reasoning model open-source khác. Điều kiện: cần reward verifiable (math, code, format check).

Nhóm 4 — Federated: train không cần chuyển dữ liệu

Federated Fine-Tuning huấn luyện adapter (thường là LoRA) phân tán trên nhiều client, chỉ gradient/adapter được agregate về server — dữ liệu gốc không rời thiết bị. Dùng cho bệnh viện (dữ liệu bệnh nhân), ngân hàng (giao dịch), bàn phím di động (gõ cá nhân). Framework MIRA và FedDTPT là state-of-the-art 2025.

Bảng so sánh nhanh

Họ	Kỹ thuật	Train cái gì	Khi nào dùng
PEFT	LoRA	Ma trận low-rank	Default adaptation
PEFT	QLoRA	LoRA + 4-bit base	Model 30B+ trên 1 GPU
PEFT	Adapter	Bottleneck layers	Multi-task, multi-tenant
PEFT	BitFit	Bias params	Footprint tối thiểu
PEFT	Soft/Prefix/P-Tuning	Vector prompt	NLU/NLG, base đóng băng
SFT	Instruction / Multi-Task	Full or LoRA weights	Dạy tuân lệnh, gộp task
Alignment	RLHF	Policy qua PPO + reward model	Safety cao, preference phức tạp
Alignment	RLAIF	Same, AI judge	Scale preference data
Alignment	DPO	Classification loss	Default 2026
Alignment	GRPO	Policy với group-relative reward	Reasoning, verifiable reward
Distributed	Federated FT	Adapter cross-client	Dữ liệu nhạy cảm

Khi nào chọn cái nào

Chatbot domain-specific (legal, medical): QLoRA trên base 7B–13B, +DPO với 1k–5k cặp preference.
SaaS multi-tenant với tùy biến per-customer: Adapter hoặc Soft Prompts — mỗi khách một adapter nhỏ thay vì một model.
Agent giải toán / code: SFT → GRPO với reward dựa trên unit test hoặc checker. Đây chính là công thức DeepSeek-R1.
Safety/policy alignment ở scale: RLAIF + audit người định kỳ (AI judge có bias).
Dữ liệu không rời device: Federated LoRA.

Hạn chế & chi phí

LoRA/QLoRA: chọn rank và target modules rất fiddly; QLoRA train chậm hơn ~39% so với LoRA.
Prefix/Prompt tuning: yếu trên base <3B; khó tối ưu ổn định.
BitFit: chỉ cạnh tranh được với model nhỏ; thua LoRA trên 7B+.
RLHF: đắt, khó train, dễ mode collapse; cần quy trình label người chất lượng.
DPO: phụ thuộc chất lượng cặp preference; không explore ngoài distribution; yếu hơn RLHF một chút ở adversarial safety.
GRPO: đòi reward verifiable — khó áp cho writing mở, sáng tạo.
Federated: communication cost lớn; client heterogeneity gây gradient drift.

Điều gì tiếp theo

2026 định hình xu hướng pipeline lai: SFT → DPO cho alignment chung → GRPO trên subset có reward verifiable (math, code, tool-use). Các variant của DPO như ORPO, KTO, SimPO đang chia sẻ thị phần. Bên cạnh đó, federated PEFT (MIRA, FedDTPT) đang trưởng thành cho scenario privacy-first, và agentic RL (GRPO + tool loop) là biên giới tiếp theo cho autonomous agents.

Nắm 15 kỹ thuật này bạn có đủ công cụ để chọn combo phù hợp — chứ không phải cứ thấy "fine-tune" là LoRA.

Nguồn: Akshay Pachaar on X, DeepSeekMath (GRPO), DeepSeek-R1, PEFT Survey, Turing Post — RLHF variations.