- Perplexity vừa công khai pipeline hai giai đoạn đứng sau mô hình Sonar: fine-tune để giữ instruction-following và guardrails, rồi on-policy RL để cải thiện độ chính xác tìm kiếm và hiệu quả gọi tool — nhưng không làm hỏng những hành vi đã cài ở bước đầu.
TL;DR
Perplexity chia post-training thành hai lớp rõ ràng: SFT (supervised fine-tuning) lo hành vi — follow instruction, ở trong guardrails, ngôn ngữ nhất quán — còn on-policy RL lo năng lực — độ chính xác tìm kiếm và hiệu quả dùng tool. Phần hay nhất nằm ở chữ "while preserving those behaviors": RL giai đoạn hai được ràng buộc để không phá hành vi mà SFT vừa dựng.
What's new
Trong một post ngắn trên X, Perplexity mô tả công thức này bằng hai câu:
We first fine-tune the model to follow instructions, stay within guardrails, and keep language consistent. Then we run on-policy RL to improve search accuracy and tool efficiency while preserving those behaviors.
Ngắn, nhưng mở nắp đúng chỗ mà nhiều team search/agent đang đau đầu: làm sao dùng RL để model gọi tool gọn hơn, chọn nguồn chuẩn hơn, mà không trôi khỏi tính cách đã dạy trước đó.
Why it matters
Đa số bài viết về RL-cho-LLM năm 2025–2026 xoay quanh reasoning/toán. Perplexity đặt RL vào hai đòn bẩy rất search-native:
- Search accuracy: model phải chọn truy vấn và nguồn đúng, cite chính xác, không bịa.
- Tool efficiency: ít call thừa, ít round-trip, trả lời nhanh và rẻ hơn.
Và họ công khai mục tiêu số 3 — preservation. Đây mới là phần khó: on-policy RL nổi tiếng dễ reward-hack và kéo model ra khỏi vùng hành vi an toàn của SFT. Việc Perplexity nhấn mạnh đúng từ này cho thấy họ thiết kế reward + KL constraint cẩn thận quanh SFT policy, chứ không đơn thuần tối ưu reward thô.
Technical facts
Những gì có thể ghép từ các blog kỹ thuật khác của Perplexity và bối cảnh 2026:
- Base model: dòng Sonar fine-tune trên Llama 3.x, tối ưu quanh hai trục factuality và readability — hai biến tương quan mạnh với sự hài lòng của user.
- On-policy nghĩa là training rollout được sinh từ chính policy hiện tại, không phải dataset tĩnh. Mỗi cập nhật dùng sample tươi mà model vừa tạo ra, nên reward phản ánh đúng phân phối hành vi thực.
- Thuật toán: các bài infra của Perplexity tập trung vào PPO và GRPO (Group Relative Policy Optimization). GRPO sample một nhóm rollout cho mỗi query và tính advantage theo nhóm, bỏ được value network riêng — nhẹ hơn PPO cổ điển.
- Infra: GRPO chạy trên torchtune và NVIDIA Nemo với rollout qua vLLM. Nemo là đường ngắn hạn trong khi torchtune GRPO hoàn thiện.
- Giữ guardrails: trick chuẩn là KL-regularization về phía SFT policy và reward shaping đa mục tiêu. Tweet xác nhận đây chính là design intent.
- Factuality: benchmark độc lập đo Sonar ở mức ~92% factual accuracy cho truy vấn real-time.
- Deep Research: changelog ngày 6/2/2026 cho thấy Perplexity Deep Research đạt SOTA trên Google DeepMind Deep Search QA và Scale AI Research Rubric.
Comparison: chatbot RLHF vs. search-model post-training
| Chiều | Chatbot RLHF cổ điển | Perplexity search post-training |
|---|---|---|
| Mục tiêu RL | Helpful / harmless | Search accuracy + tool efficiency |
| Reward signal | Cặp so sánh do người đánh giá | Rollout on-policy với outcome search/tool |
| Thuật toán | PPO + value model | PPO / GRPO (group-relative, không value model) |
| Rủi ro chính | Sycophancy, toxic | Trôi khỏi hành vi SFT (instruction, guardrails) |
| Dữ liệu | Off-policy, preference data tĩnh | On-policy, rollout từ policy hiện tại |
Use cases
- Answer engine / search copilot: bất cứ sản phẩm nào mà model phải chọn nguồn, cite, và call tool trong một ngân sách hữu hạn đều áp được pattern hai tầng này.
- Enterprise RAG: team xây trợ lý tìm kiếm nội bộ có thể tách SFT (áp style + policy công ty) và on-policy RL (sau khi hệ thống đủ traffic để sinh rollout chất lượng).
- Agent framework: đây đúng là recipe đứng sau các deep-research agent GRPO-based trong literature 2025–2026 (Tree-GRPO, GiGPO).
- Developer dùng Sonar API: hưởng gián tiếp — ít tool call thừa nghĩa là độ trễ thấp và chi phí token rẻ hơn cho cùng chất lượng trả lời.
Limitations & pricing
- Preservation không tự đến. Nếu không có KL constraint và reward design cẩn thận, on-policy RL routine sẽ bào mòn instruction-following. Perplexity không công bố cụ thể β KL hay reward model.
- Reward là phần khó nhất. "Search accuracy" và "tool efficiency" cần proxy — grounding check, citation precision, turn count, latency. Chất lượng proxy chặn trần của lift.
- Compute đắt. On-policy sample-hungry; GRPO đỡ được value model so với PPO nhưng vẫn cao hơn SFT nhiều lần.
- Không có SKU mới. Đây là post phương pháp, không phải launch sản phẩm. Sonar vẫn qua Perplexity Pro và Sonar API như cũ.
What's next
Hướng phát triển rõ nhất là step-level credit assignment — gán reward tới từng bước trong trajectory tool-call, thay vì chỉ reward cuối. Các biến thể mới như Tree-GRPO (ICLR 2026) và GiGPO (+12% trên ALFWorld, +9% trên WebShop so với GRPO gốc) đã chứng minh cách tiếp cận này đẩy mạnh chính cái đòn bẩy "tool efficiency" mà tweet của Perplexity nhắc tới. Đáng theo dõi: liệu Perplexity có công bố reward model hay đóng góp GRPO ngược lên torchtune không.
Nguồn: @perplexity_ai, Perplexity — RL Training for Math Reasoning, Meet New Sonar, Perplexity Changelog 06/02/2026, RL Foundations for Deep Research Systems (arXiv), Tree-GRPO (ICLR 2026).

