TL;DR

Perplexity chia post-training thành hai lớp rõ ràng: SFT (supervised fine-tuning) lo hành vi — follow instruction, ở trong guardrails, ngôn ngữ nhất quán — còn on-policy RL lo năng lực — độ chính xác tìm kiếm và hiệu quả dùng tool. Phần hay nhất nằm ở chữ "while preserving those behaviors": RL giai đoạn hai được ràng buộc để không phá hành vi mà SFT vừa dựng.

What's new

Trong một post ngắn trên X, Perplexity mô tả công thức này bằng hai câu:

We first fine-tune the model to follow instructions, stay within guardrails, and keep language consistent. Then we run on-policy RL to improve search accuracy and tool efficiency while preserving those behaviors.

Ngắn, nhưng mở nắp đúng chỗ mà nhiều team search/agent đang đau đầu: làm sao dùng RL để model gọi tool gọn hơn, chọn nguồn chuẩn hơn, mà không trôi khỏi tính cách đã dạy trước đó.

Why it matters

Đa số bài viết về RL-cho-LLM năm 2025–2026 xoay quanh reasoning/toán. Perplexity đặt RL vào hai đòn bẩy rất search-native:

  • Search accuracy: model phải chọn truy vấn và nguồn đúng, cite chính xác, không bịa.
  • Tool efficiency: ít call thừa, ít round-trip, trả lời nhanh và rẻ hơn.

Và họ công khai mục tiêu số 3 — preservation. Đây mới là phần khó: on-policy RL nổi tiếng dễ reward-hack và kéo model ra khỏi vùng hành vi an toàn của SFT. Việc Perplexity nhấn mạnh đúng từ này cho thấy họ thiết kế reward + KL constraint cẩn thận quanh SFT policy, chứ không đơn thuần tối ưu reward thô.

Technical facts

Những gì có thể ghép từ các blog kỹ thuật khác của Perplexity và bối cảnh 2026:

  • Base model: dòng Sonar fine-tune trên Llama 3.x, tối ưu quanh hai trục factualityreadability — hai biến tương quan mạnh với sự hài lòng của user.
  • On-policy nghĩa là training rollout được sinh từ chính policy hiện tại, không phải dataset tĩnh. Mỗi cập nhật dùng sample tươi mà model vừa tạo ra, nên reward phản ánh đúng phân phối hành vi thực.
  • Thuật toán: các bài infra của Perplexity tập trung vào PPO và GRPO (Group Relative Policy Optimization). GRPO sample một nhóm rollout cho mỗi query và tính advantage theo nhóm, bỏ được value network riêng — nhẹ hơn PPO cổ điển.
  • Infra: GRPO chạy trên torchtune và NVIDIA Nemo với rollout qua vLLM. Nemo là đường ngắn hạn trong khi torchtune GRPO hoàn thiện.
  • Giữ guardrails: trick chuẩn là KL-regularization về phía SFT policy và reward shaping đa mục tiêu. Tweet xác nhận đây chính là design intent.
  • Factuality: benchmark độc lập đo Sonar ở mức ~92% factual accuracy cho truy vấn real-time.
  • Deep Research: changelog ngày 6/2/2026 cho thấy Perplexity Deep Research đạt SOTA trên Google DeepMind Deep Search QA và Scale AI Research Rubric.

Comparison: chatbot RLHF vs. search-model post-training

ChiềuChatbot RLHF cổ điểnPerplexity search post-training
Mục tiêu RLHelpful / harmlessSearch accuracy + tool efficiency
Reward signalCặp so sánh do người đánh giáRollout on-policy với outcome search/tool
Thuật toánPPO + value modelPPO / GRPO (group-relative, không value model)
Rủi ro chínhSycophancy, toxicTrôi khỏi hành vi SFT (instruction, guardrails)
Dữ liệuOff-policy, preference data tĩnhOn-policy, rollout từ policy hiện tại

Use cases

  • Answer engine / search copilot: bất cứ sản phẩm nào mà model phải chọn nguồn, cite, và call tool trong một ngân sách hữu hạn đều áp được pattern hai tầng này.
  • Enterprise RAG: team xây trợ lý tìm kiếm nội bộ có thể tách SFT (áp style + policy công ty) và on-policy RL (sau khi hệ thống đủ traffic để sinh rollout chất lượng).
  • Agent framework: đây đúng là recipe đứng sau các deep-research agent GRPO-based trong literature 2025–2026 (Tree-GRPO, GiGPO).
  • Developer dùng Sonar API: hưởng gián tiếp — ít tool call thừa nghĩa là độ trễ thấp và chi phí token rẻ hơn cho cùng chất lượng trả lời.

Limitations & pricing

  • Preservation không tự đến. Nếu không có KL constraint và reward design cẩn thận, on-policy RL routine sẽ bào mòn instruction-following. Perplexity không công bố cụ thể β KL hay reward model.
  • Reward là phần khó nhất. "Search accuracy" và "tool efficiency" cần proxy — grounding check, citation precision, turn count, latency. Chất lượng proxy chặn trần của lift.
  • Compute đắt. On-policy sample-hungry; GRPO đỡ được value model so với PPO nhưng vẫn cao hơn SFT nhiều lần.
  • Không có SKU mới. Đây là post phương pháp, không phải launch sản phẩm. Sonar vẫn qua Perplexity Pro và Sonar API như cũ.

What's next

Hướng phát triển rõ nhất là step-level credit assignment — gán reward tới từng bước trong trajectory tool-call, thay vì chỉ reward cuối. Các biến thể mới như Tree-GRPO (ICLR 2026) và GiGPO (+12% trên ALFWorld, +9% trên WebShop so với GRPO gốc) đã chứng minh cách tiếp cận này đẩy mạnh chính cái đòn bẩy "tool efficiency" mà tweet của Perplexity nhắc tới. Đáng theo dõi: liệu Perplexity có công bố reward model hay đóng góp GRPO ngược lên torchtune không.

Nguồn: @perplexity_ai, Perplexity — RL Training for Math Reasoning, Meet New Sonar, Perplexity Changelog 06/02/2026, RL Foundations for Deep Research Systems (arXiv), Tree-GRPO (ICLR 2026).