- Andrej Karpathy phát hành autoresearch tháng 3/2026 - vòng lặp tự động thử nghiệm và cải thiện mà không cần con người can thiệp.
- Áp dụng vào Claude Skills, landing page copy skill tăng từ 56% lên 92% pass rate chỉ sau 4 vòng tự động.
- Chìa khóa là checklist binary yes/no 3-6 câu - đủ rõ để agent tự đánh giá, không đủ nhiều để bị gian lận.
- Bạn chỉ cần kick off một lần, sau đó bước ra - agent tự chạy.
TL;DR
Andrej Karpathy (đồng sáng lập OpenAI) phát hành autoresearch tháng 3/2026: AI agent tự chạy vòng lặp thử nghiệm - thay một thứ, đo kết quả, giữ nếu tốt hơn, undo nếu không. 700 thử nghiệm trong 2 ngày, không cần con người. Cộng đồng Claude Code đã áp dụng phương pháp này lên Skills: landing page copy skill tăng từ 56% lên 92% pass rate, zero công sức thủ công. Bài này hướng dẫn cách bạn chạy được điều tương tự.
Karpathy Loop là gì
Ngày 7 tháng 3 năm 2026, Karpathy đẩy lên GitHub một repository tên autoresearch. Trong vòng 1 tháng: 66,000 stars và 9,600 forks.
Ý tưởng cực kỳ đơn giản:
- Đọc file cần cải thiện
- Đề xuất một thay đổi nhỏ
- Chạy thử và đo kết quả
- Giữ nếu tốt hơn, rollback nếu không
- Lặp lại - không giới hạn
Karpathy dùng nó để tối ưu code huấn luyện model ML: chạy 700 thử nghiệm trong 2 ngày, phát hiện 20 cải tiến, kéo metric "Time to GPT-2" từ 2.02 giờ xuống 1.80 giờ (hiệu quả hơn 11%). Shopify CEO Tobi Lütke chạy nó trên templating engine: rendering nhanh hơn 53% từ 93 automated commits.
Nhưng phương pháp này không chỉ dành cho ML. Bất cứ thứ gì bạn có thể score đều có thể autoresearch.
Ba nguyên lý cốt lõi
Điều làm autoresearch hoạt động được trên mọi domain là 3 yếu tố bất biến:
- Editable asset - một file duy nhất agent được phép sửa. Giới hạn search space, giữ kết quả interpretable.
- Scalar metric - một con số quyết định thắng hay thua. Không cần human judgment mỗi vòng.
- Time-boxed cycle - mỗi thử nghiệm chạy cùng thời gian cố định. So sánh công bằng mọi thay đổi.
Khi áp dụng vào Claude Skills: editable asset là skill prompt, scalar metric là pass rate của checklist, time-boxed cycle là một lần chạy skill + chấm điểm.
Checklist binary - chìa khóa của phương pháp
Đây là thứ duy nhất bạn phải làm: viết checklist đánh giá output.
Không phải "rate chất lượng từ 1-10" - cái đó chủ quan và thay đổi mỗi lần. Phải là câu hỏi yes/no rõ ràng:
Ví dụ cho landing page copy skill:
- Headline có chứa con số hoặc kết quả cụ thể không? (bắt "Transform Your Business" kiểu vague)
- Copy có sạch không có buzzword "revolutionary", "cutting-edge", "synergy" không?
- CTA có dùng verb phrase cụ thể không? (bắt "Learn More" hay "Click Here" yếu)
- Dòng đầu có chỉ ra pain point cụ thể không? (bắt opener kiểu "In today's fast-paced world...")
- Tổng copy có dưới 150 words không?
Sweet spot: 3-6 câu hỏi. Nhiều hơn thì skill bắt đầu "gian lận" checklist - giống học sinh memorize đáp án mà không hiểu bài.
Khi khởi động autoresearch, agent sẽ hỏi bạn những câu hỏi này là gì, giúp bạn chuyển "vibe" thành tiêu chí đo được, và nếu cần thì tự đọc style guide của bạn để generate câu hỏi.
Kết quả thực tế: 56% lên 92%
Landing page copy skill khởi điểm: 56% pass rate. Headline mơ hồ, đầy buzzword, CTA yếu. Hơn một nửa số check đang fail.
Sau 4 vòng autoresearch tự động (3 kept, 1 reverted), skill đạt 92% pass rate. Agent đã làm:
- Thêm rule cụ thể cho failure phổ biến nhất: "Headline phải có con số hoặc kết quả. Không dùng promise mơ hồ như 'Transform Your Business'."
- Thêm banned buzzwords list: revolutionary, cutting-edge, synergy, next-level, game-changing, leverage, unlock, transform.
- Thêm một worked example về landing page section tốt với pain point opener và CTA được highlight.
- Thử word count chặt hơn - nhưng undo vì copy bị quá mỏng và CTA yếu đi.
Output cuối cùng: skill cải thiện (saved riêng, bản gốc giữ nguyên), results log từng vòng, changelog giải thích mọi thay đổi đã thử và tại sao. Changelog đó là tài liệu quý nhất - khi model mạnh hơn ra đời, bạn đưa changelog này và agent mới tiếp tục từ chỗ agent cũ dừng lại.
Cách chạy
- Download skill - drop vào skills folder trong Claude Code hoặc Cowork
- Chọn skill cần cải thiện - nói "run autoresearch on my [skill name] skill"
- Agent hỏi 3 thứ: skill nào, test input nào, checklist của bạn là gì
- Xem starting score - đây là baseline. Landing page skill của tác giả: 56%
- Mở live dashboard - score chart theo thời gian, pass/fail từng câu checklist, log mọi thay đổi. Auto-refresh 10 giây
- Bước ra - agent tự chạy loop: phân tích failure, thay một thứ trong skill prompt, test lại, keep hoặc undo, lặp. Tự dừng khi đạt 95%+ ba lần liên tiếp
Áp dụng rộng hơn Skills
Phương pháp này hoạt động với bất cứ thứ gì bạn có thể score:
- Page speed: 1100ms → 67ms trong 67 vòng
- Cold outreach: Checklist "đề cập tên công ty? dưới 75 words? kết thúc bằng câu hỏi cụ thể?" - agent tự chạy 50 biến thể
- Newsletter intro: "Opener có detail cá nhân không?" + "Tránh cliche?" - tự siết writing theo tiêu chí
- Mọi prompt dùng lặp lại đều eligible
Nếu bạn có thể score nó, bạn có thể autoresearch nó.
Kết
Karpathy gọi 2026 là kỷ nguyên "agentic engineering" - con người không còn tự code mà orchestrate agent. Autoresearch là một minh chứng sớm: thay vì bạn ngồi manual-tune prompt qua nhiều lần, agent làm điều đó qua đêm với tốc độ và tính nhất quán mà con người không thể cạnh tranh.
Skill tệ nhất của bạn là cái nào? Khởi động autoresearch, xem baseline score, rồi bước ra.
via AI Solopreneur Newsletter · karpathy/autoresearch · Latent Space: Autoresearch Analysis
