Autoresearch: Phương Pháp Của Karpathy Để Tự Động Cải Thiện Claude Skills

TL;DR

Andrej Karpathy (đồng sáng lập OpenAI) phát hành autoresearch tháng 3/2026: AI agent tự chạy vòng lặp thử nghiệm - thay một thứ, đo kết quả, giữ nếu tốt hơn, undo nếu không. 700 thử nghiệm trong 2 ngày, không cần con người. Cộng đồng Claude Code đã áp dụng phương pháp này lên Skills: landing page copy skill tăng từ 56% lên 92% pass rate, zero công sức thủ công. Bài này hướng dẫn cách bạn chạy được điều tương tự.

AI agent tự động cải thiện Claude skill - biểu đồ 56% lên 92%

Karpathy Loop là gì

Ngày 7 tháng 3 năm 2026, Karpathy đẩy lên GitHub một repository tên autoresearch. Trong vòng 1 tháng: 66,000 stars và 9,600 forks.

Ý tưởng cực kỳ đơn giản:

Đọc file cần cải thiện
Đề xuất một thay đổi nhỏ
Chạy thử và đo kết quả
Giữ nếu tốt hơn, rollback nếu không
Lặp lại - không giới hạn

Karpathy dùng nó để tối ưu code huấn luyện model ML: chạy 700 thử nghiệm trong 2 ngày, phát hiện 20 cải tiến, kéo metric "Time to GPT-2" từ 2.02 giờ xuống 1.80 giờ (hiệu quả hơn 11%). Shopify CEO Tobi Lütke chạy nó trên templating engine: rendering nhanh hơn 53% từ 93 automated commits.

Nhưng phương pháp này không chỉ dành cho ML. Bất cứ thứ gì bạn có thể score đều có thể autoresearch.

Ba nguyên lý cốt lõi

Điều làm autoresearch hoạt động được trên mọi domain là 3 yếu tố bất biến:

Editable asset - một file duy nhất agent được phép sửa. Giới hạn search space, giữ kết quả interpretable.
Scalar metric - một con số quyết định thắng hay thua. Không cần human judgment mỗi vòng.
Time-boxed cycle - mỗi thử nghiệm chạy cùng thời gian cố định. So sánh công bằng mọi thay đổi.

Khi áp dụng vào Claude Skills: editable asset là skill prompt, scalar metric là pass rate của checklist, time-boxed cycle là một lần chạy skill + chấm điểm.

Checklist binary - chìa khóa của phương pháp

Đây là thứ duy nhất bạn phải làm: viết checklist đánh giá output.

Không phải "rate chất lượng từ 1-10" - cái đó chủ quan và thay đổi mỗi lần. Phải là câu hỏi yes/no rõ ràng:

Checklist binary yes/no để agent tự đánh giá output tự động

Ví dụ cho landing page copy skill:

Headline có chứa con số hoặc kết quả cụ thể không? (bắt "Transform Your Business" kiểu vague)
Copy có sạch không có buzzword "revolutionary", "cutting-edge", "synergy" không?
CTA có dùng verb phrase cụ thể không? (bắt "Learn More" hay "Click Here" yếu)
Dòng đầu có chỉ ra pain point cụ thể không? (bắt opener kiểu "In today's fast-paced world...")
Tổng copy có dưới 150 words không?

Sweet spot: 3-6 câu hỏi. Nhiều hơn thì skill bắt đầu "gian lận" checklist - giống học sinh memorize đáp án mà không hiểu bài.

Khi khởi động autoresearch, agent sẽ hỏi bạn những câu hỏi này là gì, giúp bạn chuyển "vibe" thành tiêu chí đo được, và nếu cần thì tự đọc style guide của bạn để generate câu hỏi.

Kết quả thực tế: 56% lên 92%

Landing page copy skill khởi điểm: 56% pass rate. Headline mơ hồ, đầy buzzword, CTA yếu. Hơn một nửa số check đang fail.

Sau 4 vòng autoresearch tự động (3 kept, 1 reverted), skill đạt 92% pass rate. Agent đã làm:

Thêm rule cụ thể cho failure phổ biến nhất: "Headline phải có con số hoặc kết quả. Không dùng promise mơ hồ như 'Transform Your Business'."
Thêm banned buzzwords list: revolutionary, cutting-edge, synergy, next-level, game-changing, leverage, unlock, transform.
Thêm một worked example về landing page section tốt với pain point opener và CTA được highlight.
Thử word count chặt hơn - nhưng undo vì copy bị quá mỏng và CTA yếu đi.

Output cuối cùng: skill cải thiện (saved riêng, bản gốc giữ nguyên), results log từng vòng, changelog giải thích mọi thay đổi đã thử và tại sao. Changelog đó là tài liệu quý nhất - khi model mạnh hơn ra đời, bạn đưa changelog này và agent mới tiếp tục từ chỗ agent cũ dừng lại.

Cách chạy

Download skill - drop vào skills folder trong Claude Code hoặc Cowork
Chọn skill cần cải thiện - nói "run autoresearch on my [skill name] skill"
Agent hỏi 3 thứ: skill nào, test input nào, checklist của bạn là gì
Xem starting score - đây là baseline. Landing page skill của tác giả: 56%
Mở live dashboard - score chart theo thời gian, pass/fail từng câu checklist, log mọi thay đổi. Auto-refresh 10 giây
Bước ra - agent tự chạy loop: phân tích failure, thay một thứ trong skill prompt, test lại, keep hoặc undo, lặp. Tự dừng khi đạt 95%+ ba lần liên tiếp

Áp dụng rộng hơn Skills

Phương pháp này hoạt động với bất cứ thứ gì bạn có thể score:

Page speed: 1100ms → 67ms trong 67 vòng
Cold outreach: Checklist "đề cập tên công ty? dưới 75 words? kết thúc bằng câu hỏi cụ thể?" - agent tự chạy 50 biến thể
Newsletter intro: "Opener có detail cá nhân không?" + "Tránh cliche?" - tự siết writing theo tiêu chí
Mọi prompt dùng lặp lại đều eligible

Nếu bạn có thể score nó, bạn có thể autoresearch nó.

Kết

Karpathy gọi 2026 là kỷ nguyên "agentic engineering" - con người không còn tự code mà orchestrate agent. Autoresearch là một minh chứng sớm: thay vì bạn ngồi manual-tune prompt qua nhiều lần, agent làm điều đó qua đêm với tốc độ và tính nhất quán mà con người không thể cạnh tranh.

Skill tệ nhất của bạn là cái nào? Khởi động autoresearch, xem baseline score, rồi bước ra.

via AI Solopreneur Newsletter · karpathy/autoresearch · Latent Space: Autoresearch Analysis