Sakana Fugu ra mắt beta: hệ thống multi-agent tự điều phối frontier model, đạt SOTA trên GPQA-D và SWE-Pro

TL;DR

Sakana AI vừa mở public beta cho Sakana Fugu — sản phẩm thương mại thứ hai của họ và là multi-agent orchestration system đầu tiên được đóng gói thành API. Thay vì bắt developer tự thiết kế graph agent, Fugu tự học cách phối hợp pool các frontier model (GPT, Claude, Gemini…), tự gán role và chia subtask. Endpoint OpenAI-compatible, nên plug thẳng vào workflow có sẵn. Hai bản: Fugu Mini (tối ưu latency) và Fugu Ultra (dùng full pool cho reasoning sâu). Benchmark: Ultra đạt SOTA 95.1 GPQA-D, 93.2 LCBv6, 54.2 SWE-Pro — vượt Gemini 3.1 và Opus 4.6.

Sakana Fugu beta hero illustration

Có gì mới

Fugu là bước nhảy từ nghiên cứu sang sản phẩm của Sakana. Hai paper ICLR 2026 đứng sau hệ thống: Trinity — An Evolved LLM Coordinator và Learning to Orchestrate Agents in Natural Language with the Conductor. Cả hai được đóng gói thành một runtime duy nhất, gọi qua giao thức OpenAI.

Điểm khác biệt với OpenAI Agents SDK, LangGraph hay CrewAI: developer không cần vẽ flow agent. Fugu tự động “thiết lập collaboration topology, assign role, dispatch subtask”. Khi bật chế độ gọi đệ quy, Fugu còn mở ra dạng test-time scaling mới — hệ thống tự nhận ra khi lời giải ban đầu chưa đủ tốt và điều chỉnh chiến lược phối hợp tại runtime.

Vì sao đáng chú ý

Trend 2026 đang rõ: không còn cuộc đua đơn model, mà là cuộc đua đội hình model. Sakana trước đó đã open-source AB-MCTS/TreeQuest để các LLM phối hợp qua Monte Carlo Tree Search. Fugu chuyển triết lý đó thành một endpoint trả phí, đối tượng cụ thể là đội engineering đang phải tự vá logic router giữa nhiều API key.

Với giao diện OpenAI-compatible, chi phí chuyển đổi gần như bằng 0: đổi base_url và api_key là xong. Đây là con bài Sakana dùng để len vào stack hiện hữu — thay vì bắt khách phải học framework mới.

Số liệu kỹ thuật

Bảng benchmark Sakana công bố trên trang beta (cao hơn là tốt hơn):

Benchmark	Gemini 3.1	GPT 5.4	Opus 4.6	Fugu Mini	Fugu Ultra
GPQA-D (PhD science)	94.4	90.9	92.7	92.4	95.1
LCBv6 (LiveCodeBench)	90.3	92.1	92.4	90.4	93.2
SWE-Pro (software eng.)	48.4	51.2	53.4	51.3	54.2

Tweet chính thức của Sakana AI cũng nhắc Fugu hit SOTA trên ALE-Bench (bộ benchmark algorithmic/engineering do Sakana tự dựng), tuy nhiên con số cụ thể không được in trên trang beta.

So sánh với model đơn lẻ

Trên cả ba benchmark, Fugu Ultra đánh bại từng model riêng lẻ — kể cả các flagship mới nhất. Biên vượt trội thấy rõ nhất ở SWE-Pro (+0.8 so với Opus 4.6) và LCBv6 (+0.8 so với Opus 4.6), còn GPQA-D hơn Gemini 3.1 là 0.7 điểm. Đây là tín hiệu quan trọng: ensembling được tổ chức tốt vẫn nhích thêm được so với single model, kể cả khi biên đã rất mỏng ở top.

Fugu Mini thú vị ở góc khác — với latency tối ưu, Mini vẫn ngang ngửa Opus 4.6 ở LCBv6 (90.4 vs 92.4) và đứng giữa pack ở GPQA-D, tức là một đội agent nhẹ vẫn mang lại lợi ích chứ không cần full orchestration.

Use case

Coding & SWE: tự route bug fix, code review, refactor sang model phù hợp theo độ khó — Ultra đứng đầu SWE-Pro.
Scientific reasoning: trả lời câu hỏi PhD-level, lit review, tạo hypothesis — Ultra đạt SOTA GPQA-D.
Competitive / algorithmic: mạnh ở LCBv6 + ALE-Bench, phù hợp đội xây autonomous coding agent.
Enterprise agent app: drop-in thay endpoint OpenAI, không phải rewrite framework agent.
Workflow đệ quy: khi cần deep reasoning, gọi Fugu tự gọi lại chính nó để tận dụng test-time scaling mới.

Giới hạn & pricing

Fugu chưa công bố giá công khai — beta theo danh sách chờ, cần điền Google Form. Các con số latency, context window, rate limit của hai tier đều chưa lộ. Vì Fugu thực chất route qua model của bên thứ ba (OpenAI, Anthropic, Google…), chính sách data handling và cách tính giá upstream sẽ phụ thuộc vào thoả thuận Sakana ký với các provider đó — điểm khách enterprise sẽ cần làm rõ trước khi commit.

Con số ALE-Bench được nhắc trong tweet nhưng không hiện trong bảng chính thức, nên nếu bạn đánh giá kỹ, nên đợi paper/report chi tiết.

Kế tiếp

Fugu là sản phẩm thương mại thứ hai của Sakana, sau Sakana Marlin (autonomous deep-research agent chạy tới 8 giờ). Marlin là một vertical agent, còn Fugu là platform primitive — dấu hiệu Sakana đang bước từ “bán giải pháp trọn gói” sang “bán layer hạ tầng” cho developer. Kỳ vọng sắp tới: công bố pricing, mở rộng model pool, và có thể thêm tier cho task multimodal.

Nguồn: sakana.ai/fugu-beta, @SakanaAILabs, Trinity paper, Conductor paper.

Sakana Fugu ra mắt beta: hệ thống multi-agent tự điều phối frontier model, đạt SOTA trên GPQA-D và SWE-Pro

TL;DR

Có gì mới

Vì sao đáng chú ý

Số liệu kỹ thuật

So sánh với model đơn lẻ

Use case

Giới hạn & pricing

Kế tiếp

Tiếp tục lướt

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

AI Agent pops a root shell on Ubuntu 26.04 — on day one

OpenClaw v2026.4.24: Google Meet agents, full-agent voice, and DeepSeek V4 land in one release

CubeSandbox: Tencent vừa open-source nền tảng chạy hàng nghìn AI agent isolation thật trong vài mili-giây

GitHub Copilot SDK gặp React Native: bài học từ IssueCrush