- Bốn paper AI xuất hiện cùng tuần 5/2026 đều chỉ về một hướng: skill - quy trình tái sử dụng được - đang thay thế agent làm đơn vị tiến bộ chính.
- Skill1 đạt 97.5% trên ALFWorld, vượt baseline tốt nhất 2.6 điểm.
- SkillOS chứng minh mô hình 8B có thể vượt Gemini-2.5-Pro khi được train để quản lý skill.
- Anthropic đã mở chuẩn SKILL.md từ tháng 12/2025, hiện được 32 công cụ hỗ trợ gồm Claude, Copilot, Codex CLI, Gemini CLI.
TL;DR
Tuần đầu tháng 5/2026, bốn paper AI xuất hiện cùng lúc và chỉ về một hướng: skill - quy trình tái sử dụng được, nhỏ hơn agent và bền hơn prompt - đang nổi lên làm đơn vị kiến trúc chính của các hệ thống AI thế hệ mới. Đây không phải trùng hợp. Đây là một sự chuyển dịch có hệ thống.
- Skill1 đạt 97.5% success rate trên ALFWorld, dẫn đầu 5/6 task categories
- SkillOS: mô hình 8B tham số sau khi train có thể vượt Gemini-2.5-Pro khi làm skill curator
- Ctx2Skill cải thiện GPT-4.1 từ 11.1% lên 16.5% (+5.4 điểm) mà không cần finetune model
- Chuẩn SKILL.md của Anthropic đã được 32 công cụ hỗ trợ: Claude, Copilot, Codex CLI, Gemini CLI, AWS Kiro...
Skill là gì và tại sao không phải là agent hay prompt
Một skill là quy trình tái sử dụng được cho một loại công việc cụ thể. Nhỏ hơn agent vì nó không tự lý luận độc lập. Bền hơn prompt vì nó không biến mất sau mỗi cuộc trò chuyện.
Anthropic đã cụ thể hóa khái niệm này bằng chuẩn mở SKILL.md từ tháng 12/2025: một thư mục chứa file SKILL.md với YAML frontmatter (tên + mô tả) và hướng dẫn. Agent đọc metadata trước, chỉ load toàn bộ khi cần - giữ context hiệu quả theo nguyên tắc progressive disclosure 3 tầng. Các file bổ sung (script Python, reference docs) chỉ được tải khi thực sự cần.
Trong 48 giờ sau khi Anthropic public spec, Microsoft tích hợp vào VS Code qua Copilot, OpenAI thêm vào Codex CLI và ChatGPT, GitHub đạt 20,000 stars. Đến tháng 3/2026: 32 công cụ hỗ trợ cùng chuẩn này.
Tại sao đây là bước ngoặt kiến trúc
Nhìn lại ba thế hệ AI product:
- Gen 1 - Model access: API call đến LLM, stateless, mỗi lần là mới hoàn toàn
- Gen 2 - Workflows & orchestration: chains, pipelines, agent frameworks - có cấu trúc hơn nhưng vẫn không tích lũy
- Gen 3 - Operational memory: systems có thể lưu, đánh giá, version, và cải thiện quy trình theo thời gian
Vấn đề cốt lõi của các agent hiện tại: chúng improvise từ đầu mỗi task. Có thể hoàn thành một việc một lần, nhưng không tích lũy được procedural knowledge để cải thiện theo thời gian. Bộ 4 paper tuần này tấn công trực tiếp vào vấn đề đó.
4 paper định hình kiến trúc mới
Skill1 (arxiv 2605.06130) giải quyết vấn đề fragmentation: các phương pháp trước optimize skill selection, utilization, distillation riêng lẻ - dẫn đến xung đột. Skill1 dùng một task-outcome signal duy nhất, phân tích tần số cao/thấp để gán credit cho từng giai đoạn. Kết quả: 97.5% trên ALFWorld, vượt RetroAgent 2.6 điểm, dẫn đầu 5/6 task types; vượt baseline RL-only (GiGPO 90.8%) tới 6.5 điểm.
SkillOS (arxiv 2605.06614) tập trung vào bài toán khó hơn: không chỉ học skill mới mà còn quyết định skill nào còn hữu ích. Hệ thống huấn luyện một skill curator riêng (có thể update) song song với executor (frozen). Reward composite gồm 4 thành phần: downstream performance, valid function calls, content quality, repository compactness. Kết quả đáng chú ý nhất: mô hình 8B tham số vượt Gemini-2.5-Pro khi làm curator - chứng minh targeted RL training có thể vượt raw scale.
Ctx2Skill (arxiv 2604.27660) giải quyết câu hỏi khác: LLM có thể tự biến ví dụ trong context thành skill tái sử dụng không? Framework dùng multi-agent self-play (5 roles: Challenger, Reasoner, Judge, Proposer, Generator) để tự phát hiện và tinh chỉnh skill mà không cần human annotation. Skill từ model mạnh transfer sang model nhỏ hơn - GPT-4.1 tăng từ 11.1% lên 16.5%, GPT-5.1 từ 21.1% lên 25.8% trên CL-Bench.
From Skill Text to Skill Structure (arxiv 2604.24026) đặt câu hỏi về representation: SKILL.md vẫn là text thuần, machine-usable evidence bị chôn trong natural language. Paper đề xuất formal representation dựa trên Memory Organization Packets và Script Theory - tách biệt invocation interface, execution structure, và concrete side effects.
Ai nên quan tâm ngay bây giờ
Developer xây agent: chuẩn SKILL.md cho phép viết skill một lần, chạy trên 32 công cụ. Bắt đầu bằng cách audit quy trình nào bạn đang lặp lại nhiều lần - đó là ứng viên đầu tiên để viết thành skill.
Team AI product: SkillOS chứng minh mô hình nhỏ được train đúng có thể vượt frontier model lớn hơn ở task cụ thể. Chi phí inference thấp hơn + performance cao hơn - đây là hướng productionize đáng đầu tư.
Tổ chức lớn: "In an age of abundant intelligence, curated procedural knowledge becomes the contested resource." Skill library của tổ chức - tích lũy qua thời gian, được version, được đánh giá - sẽ là tài sản khó copy hơn bất kỳ model nào.
Kết: Tài nguyên khan hiếm mới
Intelligence ngày càng rẻ và phổ biến. Model tốt hơn ra đời mỗi vài tháng. Nhưng những gì một tổ chức đã học - cách giải quyết vấn đề cụ thể của họ, quy trình đã được kiểm chứng, operational knowledge tích lũy qua hàng trăm task - không thể copy bằng cách nâng cấp model.
Đó là lý do skill, không phải agent hay model, đang trở thành đơn vị quan trọng nhất. Không phải vì nó thông minh hơn - mà vì nó nhớ và cải thiện.
via Turing Post FOD#152 · Anthropic Engineering · SkillOS · Skill1 · Ctx2Skill
