Perplexity hậu-huấn luyện Qwen3.5 bằng SFT+RL: vượt GPT-5.4 trên FRAMES với chi phí rẻ hơn 4 lần

TL;DR

Perplexity công bố nghiên cứu về pipeline hậu-huấn luyện (post-training) hai giai đoạn — SFT rồi on-policy RL — để biến các mô hình mở thành công cụ search-augmented chất lượng cao. Dựa trên Qwen3.5-397B-A17B (MoE, 17B tham số active), bản Qwen3.5-Large-SFT-RL đạt 73.9% trên FRAMES ở ngân sách 4 tool call, vượt GPT-5.4 (67.8%) và Sonnet 4.6 (62.4%). Giá ước tính chỉ 2.0 cent/truy vấn — rẻ hơn GPT-5.4 4× và Sonnet 4.6 7.5×.

Có gì mới

Thay vì tự huấn luyện mô hình nền từ đầu, Perplexity nhận một open-weight MoE của Qwen và "mài" nó qua hai giai đoạn chuyên biệt cho use case search agent:

Stage 1 — SFT: khởi tạo các hành vi deployment-critical (guardrail, instruction following, language consistency) bằng hỗn hợp ví dụ preference-oriented về tone/format và các trajectory tool-use sản phẩm thật (1-turn, 2-turn, multi-turn).
Stage 2 — RL: dùng Group Relative Policy Optimization (GRPO), ổn định bằng Token-level Importance Sampling để khử mismatch giữa training và inference. Mục tiêu: đẩy độ chính xác tìm kiếm và hiệu quả tool-use mà không phá các hành vi SFT đã cài.

Base models được dùng: Qwen3.5-122B-A10B (Medium) và Qwen3.5-397B-A17B (Large). Qwen3-30B-A3B-Instruct-2507 dùng để iterate nhanh trong validation.

Vì sao đáng chú ý

Trong các hệ RAG/agent, "cải thiện một chiều thường làm hỏng chiều khác": huấn luyện mạnh để trả lời đúng có thể giết instruction following; ép ngắn gọn có thể làm mất citation. Perplexity thiết kế hệ reward gated aggregation — điểm đúng là cổng bắt buộc, preference và efficiency chỉ được cộng khi đã đúng. Nhờ đó RL không thể "lấy điểm phong cách" để bù cho lỗi fact.

Kết quả thực tế đáng để các team RAG soi: một mô hình mở hậu-huấn luyện gọn có thể rẻ hơn GPT hàng đầu nhiều lần mà vẫn nhỉnh hơn trên benchmark factuality.

Số liệu kỹ thuật

Điểm cốt lõi của công thức:

Data mixture: 90% verifiable search-agent QA + 10% rubric-based general chat.
Verifiable QA: câu hỏi multi-hop 2–4 bước, tổng hợp bằng kỹ thuật name-free (thay thế entity đệ quy) và xác minh bởi nhiều solver độc lập. Có augmentation format-diversity ("Show a list of...") để ép tuân thủ định dạng.
Rubric data: yêu cầu triển khai được chuyển thành tiêu chí atomic, objectively checkable (ví dụ: trả lời tiếng Anh, dùng "manpower" dạng một từ, không có ký tự informal như "u", "Plz", "&"). Lọc qua Pass@4 để loại query bão hòa.
Reward stack: binary correctness (gate) → Bradley–Terry preference model (train bằng open-source data + user side-by-side + annotation, filter nhiễu bằng cross-model agreement) → penalty tool-call và length (group-relative, anchored, smooth exponential).
Training dynamics: reward baseline tăng đều, tool-call frequency controlled, length penalty giảm đơn điệu, training-inference KL giữ ở thang 1e-3.

So sánh benchmark

Trên FRAMES ở ngân sách 4 tool call:

Mô hình	FRAMES (b=4)	Chi phí/truy vấn	So với Qwen3.5-Large-SFT-RL
Qwen3.5-Large-SFT-RL	73.9%	2.0¢	baseline
GPT-5.4	67.8%	8.5¢	−6.1 pts, 4× đắt hơn
Sonnet 4.6	62.4%	15.3¢	−11.5 pts, 7.5× đắt hơn

Ở ngân sách tối thiểu b=1 (chỉ 1 tool call), Qwen3.5-SFT-RL vẫn đạt 57.3% FRAMES — hơn GPT-5.4 5.7 điểm, hơn Sonnet 4.6 4.7 điểm. Điểm sweet-spot nằm ở b=2–7; vượt b=7 các mô hình đều chạm diminishing returns. Bản SFT-RL cũng match hoặc vượt trên Facts Open và SimpleQA.

Trên bộ đánh giá nội bộ pplx-sbs-search, preference score đi từ 0.602 (base) lên 0.742 (SFT-RL), kèm cải thiện rõ về abstention (từ chối khi không đủ evidence), language consistency và tool schema compliance.

Ứng dụng

Chạy trực tiếp trong answer engine của Perplexity — ~780 triệu truy vấn/tháng, 200 triệu query/ngày qua Search API.
Bản thiết kế để team khác bắt chước: nhận open-weight MoE, huấn luyện lại theo SFT → RL với reward gated aggregation cho RAG/agentic search.
Data recipe (verifiable multi-hop QA + rubric chat 90/10) có thể tái sử dụng cho mọi domain có ground truth factual + cần instruction following.

Giới hạn & chi phí

Perplexity thẳng thắn liệt kê điểm chưa xong:

KL giữa training và inference có xu hướng drift lên khi train dài; Token-level Importance Sampling chưa chắc đủ ở scale lớn hơn.
Pipeline hiện chỉ single-tool workflow. Multi-tool long-horizon chưa có credit assignment tốt.
Số chi phí so sánh dùng list API pricing. Chi phí thực tế Perplexity còn thấp hơn nhờ KV cache reuse, prefix caching và quantized MoE serving (chỉ 17B active params).

Kế tiếp

Perplexity đề xuất ba hướng:

Sequential training với on-policy distillation để tối ưu mục tiêu theo từng stage thay vì gộp.
Model merging để tách biệt tối ưu task-specific khỏi general.
Multi-tool long-horizon trajectories với credit assignment cải tiến.

Nguồn: Perplexity Research — Advancing Search-Augmented Language Models, @perplexity_ai trên X.

Perplexity hậu-huấn luyện Qwen3.5 bằng SFT+RL: vượt GPT-5.4 trên FRAMES với chi phí rẻ hơn 4 lần

TL;DR

Có gì mới

Vì sao đáng chú ý

Số liệu kỹ thuật

So sánh benchmark

Ứng dụng

Giới hạn & chi phí

Kế tiếp

Tiếp tục lướt

AVB drops a 50-minute GRPO + RLVR deep dive — and you watch logits move in real time

500+ AI tự nghiên cứu AI: 72 giờ điên rồ đầu tiên của Hugging Face ml-intern

Perplexity dùng GPT-5.5 giảm 56% token và build nội bộ dưới 1 giờ: bằng chứng thực tế đầu tiên của thế hệ Codex mới

Kimi K2.6 lên Perplexity Pro & Max: open-weight SOTA giờ chỉ cách bạn 1 toggle

Perplexity hé lộ công thức post-training: SFT giữ hành vi, on-policy RL đẩy độ chính xác