- Perplexity công bố pipeline hậu-huấn luyện hai giai đoạn (SFT → GRPO) cho các mô hình search-augmented.
- Dựa trên Qwen3.5-397B-A17B, bản SFT-RL đạt 73.9% FRAMES ở ngân sách 4 tool call, vượt GPT-5.4 (67.8%) và Sonnet 4.6 (62.4%) với chi phí chỉ 2.0 cent/truy vấn — rẻ hơn 4× đến 7.5×.
TL;DR
Perplexity công bố nghiên cứu về pipeline hậu-huấn luyện (post-training) hai giai đoạn — SFT rồi on-policy RL — để biến các mô hình mở thành công cụ search-augmented chất lượng cao. Dựa trên Qwen3.5-397B-A17B (MoE, 17B tham số active), bản Qwen3.5-Large-SFT-RL đạt 73.9% trên FRAMES ở ngân sách 4 tool call, vượt GPT-5.4 (67.8%) và Sonnet 4.6 (62.4%). Giá ước tính chỉ 2.0 cent/truy vấn — rẻ hơn GPT-5.4 4× và Sonnet 4.6 7.5×.
Có gì mới
Thay vì tự huấn luyện mô hình nền từ đầu, Perplexity nhận một open-weight MoE của Qwen và "mài" nó qua hai giai đoạn chuyên biệt cho use case search agent:
- Stage 1 — SFT: khởi tạo các hành vi deployment-critical (guardrail, instruction following, language consistency) bằng hỗn hợp ví dụ preference-oriented về tone/format và các trajectory tool-use sản phẩm thật (1-turn, 2-turn, multi-turn).
- Stage 2 — RL: dùng Group Relative Policy Optimization (GRPO), ổn định bằng Token-level Importance Sampling để khử mismatch giữa training và inference. Mục tiêu: đẩy độ chính xác tìm kiếm và hiệu quả tool-use mà không phá các hành vi SFT đã cài.
Base models được dùng: Qwen3.5-122B-A10B (Medium) và Qwen3.5-397B-A17B (Large). Qwen3-30B-A3B-Instruct-2507 dùng để iterate nhanh trong validation.
Vì sao đáng chú ý
Trong các hệ RAG/agent, "cải thiện một chiều thường làm hỏng chiều khác": huấn luyện mạnh để trả lời đúng có thể giết instruction following; ép ngắn gọn có thể làm mất citation. Perplexity thiết kế hệ reward gated aggregation — điểm đúng là cổng bắt buộc, preference và efficiency chỉ được cộng khi đã đúng. Nhờ đó RL không thể "lấy điểm phong cách" để bù cho lỗi fact.
Kết quả thực tế đáng để các team RAG soi: một mô hình mở hậu-huấn luyện gọn có thể rẻ hơn GPT hàng đầu nhiều lần mà vẫn nhỉnh hơn trên benchmark factuality.
Số liệu kỹ thuật
Điểm cốt lõi của công thức:
- Data mixture: 90% verifiable search-agent QA + 10% rubric-based general chat.
- Verifiable QA: câu hỏi multi-hop 2–4 bước, tổng hợp bằng kỹ thuật name-free (thay thế entity đệ quy) và xác minh bởi nhiều solver độc lập. Có augmentation format-diversity ("Show a list of...") để ép tuân thủ định dạng.
- Rubric data: yêu cầu triển khai được chuyển thành tiêu chí atomic, objectively checkable (ví dụ: trả lời tiếng Anh, dùng "manpower" dạng một từ, không có ký tự informal như "u", "Plz", "&"). Lọc qua Pass@4 để loại query bão hòa.
- Reward stack: binary correctness (gate) → Bradley–Terry preference model (train bằng open-source data + user side-by-side + annotation, filter nhiễu bằng cross-model agreement) → penalty tool-call và length (group-relative, anchored, smooth exponential).
- Training dynamics: reward baseline tăng đều, tool-call frequency controlled, length penalty giảm đơn điệu, training-inference KL giữ ở thang
1e-3.
So sánh benchmark
Trên FRAMES ở ngân sách 4 tool call:
| Mô hình | FRAMES (b=4) | Chi phí/truy vấn | So với Qwen3.5-Large-SFT-RL |
|---|---|---|---|
| Qwen3.5-Large-SFT-RL | 73.9% | 2.0¢ | baseline |
| GPT-5.4 | 67.8% | 8.5¢ | −6.1 pts, 4× đắt hơn |
| Sonnet 4.6 | 62.4% | 15.3¢ | −11.5 pts, 7.5× đắt hơn |
Ở ngân sách tối thiểu b=1 (chỉ 1 tool call), Qwen3.5-SFT-RL vẫn đạt 57.3% FRAMES — hơn GPT-5.4 5.7 điểm, hơn Sonnet 4.6 4.7 điểm. Điểm sweet-spot nằm ở b=2–7; vượt b=7 các mô hình đều chạm diminishing returns. Bản SFT-RL cũng match hoặc vượt trên Facts Open và SimpleQA.
Trên bộ đánh giá nội bộ pplx-sbs-search, preference score đi từ 0.602 (base) lên 0.742 (SFT-RL), kèm cải thiện rõ về abstention (từ chối khi không đủ evidence), language consistency và tool schema compliance.
Ứng dụng
- Chạy trực tiếp trong answer engine của Perplexity — ~780 triệu truy vấn/tháng, 200 triệu query/ngày qua Search API.
- Bản thiết kế để team khác bắt chước: nhận open-weight MoE, huấn luyện lại theo SFT → RL với reward gated aggregation cho RAG/agentic search.
- Data recipe (verifiable multi-hop QA + rubric chat 90/10) có thể tái sử dụng cho mọi domain có ground truth factual + cần instruction following.
Giới hạn & chi phí
Perplexity thẳng thắn liệt kê điểm chưa xong:
- KL giữa training và inference có xu hướng drift lên khi train dài; Token-level Importance Sampling chưa chắc đủ ở scale lớn hơn.
- Pipeline hiện chỉ single-tool workflow. Multi-tool long-horizon chưa có credit assignment tốt.
- Số chi phí so sánh dùng list API pricing. Chi phí thực tế Perplexity còn thấp hơn nhờ KV cache reuse, prefix caching và quantized MoE serving (chỉ 17B active params).
Kế tiếp
Perplexity đề xuất ba hướng:
- Sequential training với on-policy distillation để tối ưu mục tiêu theo từng stage thay vì gộp.
- Model merging để tách biệt tối ưu task-specific khỏi general.
- Multi-tool long-horizon trajectories với credit assignment cải tiến.
Nguồn: Perplexity Research — Advancing Search-Augmented Language Models, @perplexity_ai trên X.
