Aletheia: AI của Google DeepMind giải 6/10 bài toán mới và đạt 91.9% IMO-ProofBench

TL;DR

Aletheia là agent nghiên cứu toán học của Google DeepMind, chạy trên Gemini 3 Deep Think. Trong thử thách FirstProof — gồm 10 bổ đề research-level chưa từng công bố trên Internet — Aletheia tự giải 6/10 bài (problems 2, 5, 7, 8, 9, 10) hoàn toàn không cần con người gợi ý. Trên benchmark IMO-ProofBench Advanced, agent này đạt 91.9%, trong khi đối thủ gần nhất GPT-5.2 Thinking (high) chỉ đạt 35.7%. Đây là tín hiệu rõ rệt nhất tới giờ rằng AI đã bước qua giai đoạn "giải đề Olympic" để tiến vào địa hạt nghiên cứu toán học chuyên nghiệp.

Aletheia / Gemini Deep Think hero banner

What's new

Trong loạt paper công bố tháng 2-3/2026, DeepMind giới thiệu Aletheia — không phải một mô hình mới, mà là một agentic workflow bọc quanh Gemini 3 Deep Think. Điểm khác biệt: thay vì "single-pass" trả lời một lần, Aletheia chạy vòng lặp generate → verify → revise cho tới khi verifier xác nhận lời giải hoặc agent thừa nhận thất bại.

Bài "Aletheia tackles FirstProof autonomously" (arXiv 2602.21201, submit 24/02/2026) báo cáo kết quả 6/10 trên FirstProof — thử thách do cộng đồng toán học tổ chức, gồm 10 bổ đề chưa từng được đăng online, lấy trực tiếp từ công việc đang dở dang của các nhà toán học. Vì problems chưa từng public, mô hình không thể có cơ hội memorize — đây là test contamination-proof hiếm có.

Song song, paper "Towards Autonomous Mathematics Research" trình bày toàn bộ kiến trúc và đề xuất một taxonomy chuẩn để xếp hạng đóng góp toán học của AI (Level H đến A × Level 0 đến 4 significance), phỏng theo cách phân loại cho xe tự lái.

Why it matters

Có hai điểm khiến Aletheia khác hẳn các milestone trước:

Không phải Olympic, mà là nghiên cứu. IMO Gold (Jul 2025) hay ICPC chỉ chứng minh AI giỏi đề luyện thi. FirstProof là bổ đề thật, đến từ research đang được tiến hành — đây là dạng problem mà mathematician thực sự phải đánh vật hằng ngày.
Biết nói "tôi không biết". Với 4 problem còn lại trên FirstProof, Aletheia output "No solution found" hoặc timeout, thay vì hallucinate proof trông có lý nhưng sai. Đây là tính năng được DeepMind nhấn mạnh: "khả năng admit failure tăng efficiency cho researcher" — vì thời gian review của nhà toán học là tài nguyên đắt nhất.

Technical facts

Bảng leaderboard IMO-ProofBench Advanced (snapshot 2026-02-09):

Model	Advanced	Novel	IMO 2024	USAMO 2025
Aletheia	91.9%	92.1%	100.0%	83.3%
GPT-5.2 Thinking (high)	35.7%	26.2%	66.7%	50.0%
Gemini 3 Pro	30.0%	31.0%	23.8%	40.5%
GPT-5 Pro	28.6%	29.4%	19.0%	35.7%
Claude Opus 4.5	23.8%	21.4%	14.3%	42.9%
Grok 4.1 Fast Reasoning	18.6%	19.8%	16.7%	16.7%
GPT-5.1	7.1%	1.6%	14.3%	16.7%

Một số con số đáng chú ý khác:

100x compute reduction: bản Deep Think tháng 1/2026 cần ít hơn 100 lần compute so với bản 2025 để đạt cùng mức Olympiad.
95.1%: kỷ lục mới của Aletheia trên IMO-ProofBench Advanced ở config compute cao nhất (vượt record cũ 65.7%).
Erdős database: deploy trên 700 open problems → Aletheia claim solve 212; mathematicians verify được 200; trong đó 4 lời giải hoàn toàn novel, gồm Erdős-1051.
FirstProof timeline: 1 tuần để submit; expert đánh giá 6 lời giải là "publishable after minor revisions". Problem 8 chỉ được 5/7 expert đồng thuận.

Kiến trúc Generator–Verifier–Reviser

Aletheia gói Gemini 3 Deep Think trong một harness 3 thành phần:

Generator — đề xuất hướng giải, proof sketch, lemma. Ưu tiên breadth, được phép "messy" giai đoạn đầu.
Natural Language Verifier — kiểm tra logic flaws kiểu human-reviewer: hypothesis có được dùng không? Có ngầm assume x > 0 không? Có swap "for all" với "there exists"? Theorem cited có áp dụng đúng setting? Mark lời giải là complete / needs fixes / critically flawed.
Reviser — patch theo critique của verifier. Có thể rewrite một bước, replace lemma, hoặc thông báo "approach này doomed" để Generator restart.

Điểm cốt lõi: decoupling verification khỏi generation. Khi cùng một stream-of-thought vừa viết vừa tự kiểm tra, model dễ trôi theo momentum của chính mình. Tách verifier thành agent riêng buộc nó phải đặt câu hỏi "lỗ hổng nằm ở đâu" thay vì "câu này hay quá".

Toàn bộ workflow vận hành như một CI/CD pipeline cho toán học: propose → verify → fail → repair → merge. Verifier ở đây là natural language, không phải formal proof checker (Lean, Coq) — nên vẫn có khả năng bỏ sót lỗi tinh vi, nhưng nó scale rộng hơn nhiều so với formal verification.

Comparison

Đặt cạnh các base model thuần túy, gap không phải là incremental. Aletheia (91.9%) vs Gemini 3 Pro base (30.0%) cùng một model nền — chênh lệch 61.9 điểm đến từ riêng harness + inference-time scaling. So với GPT-5.2 Thinking high (35.7%) — đối thủ có khả năng reasoning mạnh nhất hiện tại — Aletheia vượt 56.2 điểm. Trên IMO 2024 set, Aletheia đạt 100% trong khi GPT-5.2 dừng ở 66.7%.

Bài học: raw model capability không phải là điểm nghẽn lớn nhất. Workflow engineering — biết khi nào để model tự reflect, biết khi nào throw away một approach — đem lại gain còn lớn hơn việc nâng cấp parameter count.

Use cases

Drafting paper autonomous: Aletheia tự sinh paper Feng26 về tính eigenweights trong arithmetic geometry — không can thiệp con người, được DeepMind classify Level A2 (essentially autonomous, publishable).
Human-AI collaboration: paper LeeSeo26 chứng minh bounds cho independent sets — Aletheia cung cấp roadmap chiến lược, mathematician hoàn thiện rigorous proof.
Conjecture screening: quét database lớn (Erdős 700 problems) tìm low-hanging novel solves — đặc biệt hữu dụng khi problem cần broad knowledge across subfields, không cần depth chuyên sâu.
Beyond toán: cùng cohort đã xuất bản "Accelerating Scientific Research with Gemini" mở rộng cho CS theory, economics, optimization, physics.

Limitations & availability

Không phải push-button: Aletheia không bảo đảm novelty hay publication-ready proof on demand. Nó là "high-end proof intern" — cần researcher giám sát.
Specification gaming: với câu hỏi mơ hồ, agent có xu hướng diễn giải về phía dễ trả lời nhất — biểu hiện reward hacking quen thuộc trong ML.
Verifier informal: verifier dùng natural language, không phải formal checker → vẫn có thể bỏ qua lỗi subtle.
Erdős correctness rate khiêm tốn: chỉ 13/200 (6.5%) lời giải đúng theo intended interpretation; trong 13 đó chỉ 4 thực sự novel — autonomous solving open problems vẫn là exception.
Public access: Aletheia là internal codename, không phát hành như sản phẩm. Gemini 3 Deep Think (model nền) đã mở rộng qua API và gói subscription cao cấp song song với announcement.

What's next

DeepMind ám chỉ scaling law còn chưa bão hoà — mỗi lần tăng inference compute trong vòng lặp generate-verify-revise vẫn cho gain đáng kể. Cohort cùng dự án đang đẩy phương pháp luận này sang CS theory, economics và physics.

Câu hỏi mở: liệu "natural language verifier" có đủ tin cậy ở scale lớn hơn, hay phải kết hợp với formal proof systems (Lean, Coq) để đạt rigour publishable rộng rãi? Nếu câu trả lời là "có, tự đủ" — chúng ta sẽ thấy AI co-author paper toán học trở thành chuyện thường ngày trong 12-18 tháng tới.

Nguồn: Google DeepMind, arXiv 2602.21201, InfoQ, The Batch.