Perplexity hé lộ công thức post-training: SFT giữ hành vi, on-policy RL đẩy độ chính xác

TL;DR

Perplexity chia post-training thành hai lớp rõ ràng: SFT (supervised fine-tuning) lo hành vi — follow instruction, ở trong guardrails, ngôn ngữ nhất quán — còn on-policy RL lo năng lực — độ chính xác tìm kiếm và hiệu quả dùng tool. Phần hay nhất nằm ở chữ "while preserving those behaviors": RL giai đoạn hai được ràng buộc để không phá hành vi mà SFT vừa dựng.

What's new

Trong một post ngắn trên X, Perplexity mô tả công thức này bằng hai câu:

We first fine-tune the model to follow instructions, stay within guardrails, and keep language consistent. Then we run on-policy RL to improve search accuracy and tool efficiency while preserving those behaviors.

Ngắn, nhưng mở nắp đúng chỗ mà nhiều team search/agent đang đau đầu: làm sao dùng RL để model gọi tool gọn hơn, chọn nguồn chuẩn hơn, mà không trôi khỏi tính cách đã dạy trước đó.

Why it matters

Đa số bài viết về RL-cho-LLM năm 2025–2026 xoay quanh reasoning/toán. Perplexity đặt RL vào hai đòn bẩy rất search-native:

Search accuracy: model phải chọn truy vấn và nguồn đúng, cite chính xác, không bịa.
Tool efficiency: ít call thừa, ít round-trip, trả lời nhanh và rẻ hơn.

Và họ công khai mục tiêu số 3 — preservation. Đây mới là phần khó: on-policy RL nổi tiếng dễ reward-hack và kéo model ra khỏi vùng hành vi an toàn của SFT. Việc Perplexity nhấn mạnh đúng từ này cho thấy họ thiết kế reward + KL constraint cẩn thận quanh SFT policy, chứ không đơn thuần tối ưu reward thô.

Technical facts

Những gì có thể ghép từ các blog kỹ thuật khác của Perplexity và bối cảnh 2026:

Base model: dòng Sonar fine-tune trên Llama 3.x, tối ưu quanh hai trục factuality và readability — hai biến tương quan mạnh với sự hài lòng của user.
On-policy nghĩa là training rollout được sinh từ chính policy hiện tại, không phải dataset tĩnh. Mỗi cập nhật dùng sample tươi mà model vừa tạo ra, nên reward phản ánh đúng phân phối hành vi thực.
Thuật toán: các bài infra của Perplexity tập trung vào PPO và GRPO (Group Relative Policy Optimization). GRPO sample một nhóm rollout cho mỗi query và tính advantage theo nhóm, bỏ được value network riêng — nhẹ hơn PPO cổ điển.
Infra: GRPO chạy trên torchtune và NVIDIA Nemo với rollout qua vLLM. Nemo là đường ngắn hạn trong khi torchtune GRPO hoàn thiện.
Giữ guardrails: trick chuẩn là KL-regularization về phía SFT policy và reward shaping đa mục tiêu. Tweet xác nhận đây chính là design intent.
Factuality: benchmark độc lập đo Sonar ở mức ~92% factual accuracy cho truy vấn real-time.
Deep Research: changelog ngày 6/2/2026 cho thấy Perplexity Deep Research đạt SOTA trên Google DeepMind Deep Search QA và Scale AI Research Rubric.

Comparison: chatbot RLHF vs. search-model post-training

Chiều	Chatbot RLHF cổ điển	Perplexity search post-training
Mục tiêu RL	Helpful / harmless	Search accuracy + tool efficiency
Reward signal	Cặp so sánh do người đánh giá	Rollout on-policy với outcome search/tool
Thuật toán	PPO + value model	PPO / GRPO (group-relative, không value model)
Rủi ro chính	Sycophancy, toxic	Trôi khỏi hành vi SFT (instruction, guardrails)
Dữ liệu	Off-policy, preference data tĩnh	On-policy, rollout từ policy hiện tại

Use cases

Answer engine / search copilot: bất cứ sản phẩm nào mà model phải chọn nguồn, cite, và call tool trong một ngân sách hữu hạn đều áp được pattern hai tầng này.
Enterprise RAG: team xây trợ lý tìm kiếm nội bộ có thể tách SFT (áp style + policy công ty) và on-policy RL (sau khi hệ thống đủ traffic để sinh rollout chất lượng).
Agent framework: đây đúng là recipe đứng sau các deep-research agent GRPO-based trong literature 2025–2026 (Tree-GRPO, GiGPO).
Developer dùng Sonar API: hưởng gián tiếp — ít tool call thừa nghĩa là độ trễ thấp và chi phí token rẻ hơn cho cùng chất lượng trả lời.

Limitations & pricing

Preservation không tự đến. Nếu không có KL constraint và reward design cẩn thận, on-policy RL routine sẽ bào mòn instruction-following. Perplexity không công bố cụ thể β KL hay reward model.
Reward là phần khó nhất. "Search accuracy" và "tool efficiency" cần proxy — grounding check, citation precision, turn count, latency. Chất lượng proxy chặn trần của lift.
Compute đắt. On-policy sample-hungry; GRPO đỡ được value model so với PPO nhưng vẫn cao hơn SFT nhiều lần.
Không có SKU mới. Đây là post phương pháp, không phải launch sản phẩm. Sonar vẫn qua Perplexity Pro và Sonar API như cũ.

What's next

Hướng phát triển rõ nhất là step-level credit assignment — gán reward tới từng bước trong trajectory tool-call, thay vì chỉ reward cuối. Các biến thể mới như Tree-GRPO (ICLR 2026) và GiGPO (+12% trên ALFWorld, +9% trên WebShop so với GRPO gốc) đã chứng minh cách tiếp cận này đẩy mạnh chính cái đòn bẩy "tool efficiency" mà tweet của Perplexity nhắc tới. Đáng theo dõi: liệu Perplexity có công bố reward model hay đóng góp GRPO ngược lên torchtune không.

Nguồn: @perplexity_ai, Perplexity — RL Training for Math Reasoning, Meet New Sonar, Perplexity Changelog 06/02/2026, RL Foundations for Deep Research Systems (arXiv), Tree-GRPO (ICLR 2026).

Perplexity hé lộ công thức post-training: SFT giữ hành vi, on-policy RL đẩy độ chính xác

TL;DR

What's new

Why it matters

Technical facts

Comparison: chatbot RLHF vs. search-model post-training

Use cases

Limitations & pricing

What's next

Tiếp tục lướt

AVB drops a 50-minute GRPO + RLVR deep dive — and you watch logits move in real time

Stackelberg PPO: robot tự mọc tay để đẩy, mọc chân để đi — chỉ với 1 reward duy nhất

SimToolReal: Robot Stanford học dùng công cụ chưa từng thấy — không cần training riêng cho từng task

500+ AI tự nghiên cứu AI: 72 giờ điên rồ đầu tiên của Hugging Face ml-intern

Perplexity dùng GPT-5.5 giảm 56% token và build nội bộ dưới 1 giờ: bằng chứng thực tế đầu tiên của thế hệ Codex mới