MCP, RAG & Skills: 3 trụ cột context của mọi AI Agent 2026

TL;DR

Mỗi AI agent vấp 3 nút thắt: (1) viết lại API client mỗi khi kết nối tool mới, (2) bịa câu trả lời khi gặp kiến thức chưa train, (3) lặp cùng một khối instruction trong mọi prompt. MCP, RAG, Skills được sinh ra để giải đúng 3 vấn đề đó - không cạnh tranh, mà xếp chồng thành ba tầng của cùng một ngăn xếp context engineering.

Ba trụ cột, ba vấn đề khác nhau

MCP (Model Context Protocol) là chuẩn mở của Anthropic ra mắt tháng 11/2024, đóng vai trò "USB-C cho LLM": một giao thức JSON-RPC 2.0 để host, client và server nói chuyện mà không cần viết lại API wrapper. Phiên bản spec mới nhất là 2025-11-25.

RAG (Retrieval Augmented Generation) là kỹ thuật chunk tài liệu, embed thành vector, lưu trong vector DB, rồi truy xuất đoạn liên quan nhất vào prompt lúc runtime. Mô hình đóng băng, kiến thức thì động.

Skills (Claude Agent Skills) là cơ chế Anthropic công bố ngày 16/10/2025. Mỗi skill là một thư mục chứa SKILL.md + script/reference. Model chỉ thấy YAML frontmatter (~100 token/skill) cho tới khi cần - đây là pattern progressive disclosure.

Vì sao 3 mảnh này quan trọng

Trước MCP, mỗi lần agent cần nối Slack, Postgres, GitHub, bạn viết 3 API client khác nhau. Trước RAG, agent chỉ trả lời trong phạm vi dữ liệu train - hỏi về docs nội bộ là bịa. Trước Skills, một agent có 20 workflow phải nhét cả 20 hệ thống instruction vào prompt, đốt hàng chục nghìn token mỗi turn.

Ba pattern này xuất hiện tuần tự theo cùng một logic: tách rời phần động khỏi phần tĩnh của context, rồi nạp đúng thứ cần, đúng lúc cần.

Technical facts

MCP kiến trúc

Host: ứng dụng LLM (Claude Desktop, IDE, chat app).
Client: connector bên trong host, 1:1 với một server.
Server: phơi ra Tools (hàm thực thi), Resources (dữ liệu read-only), Prompts (template workflow).
Client có thể trả lại Sampling, Roots, Elicitation cho server.
SDK chính thức: Python, TypeScript, C#, Java. Lấy cảm hứng kiến trúc từ Language Server Protocol.

RAG pipeline

Chunk → embed → vector DB (dense vectors).
Query runtime: semantic search top-k → ghép với system prompt → đẩy vào LLM.
Không fine-tune mô hình. Chất lượng bị chặn bởi embedding + chunking strategy.

Skills & progressive disclosure

Ban đầu chỉ YAML frontmatter (name + description, ~100 token) vào context.
Khi model match skill, full SKILL.md mới được nạp.
Script đi kèm skill chạy qua bash — code script không vào context, chỉ stdout tiêu token.
Benchmark ClaudeFast Code Kit: tiết kiệm ~15.000 token/session trên 20+ skills, cải thiện 82% so với nhét hết vào CLAUDE.md.

So sánh nhanh 3 pattern

Dimension	MCP	RAG	Skills
Bài toán	Tích hợp tool	Kiến thức ngoài training	Prompt bloat
Ẩn dụ	USB-C cho LLM	Just-in-time knowledge	Dynamic-link library (DLL)
Primitive	JSON-RPC 2.0	Vector similarity	Filesystem + lazy load
Context footprint	Tool schemas nặng (có thể 10k+ token)	Top-k chunks mỗi query	~100 token/skill đến khi cần
Tối ưu cho	Hành động lên hệ thống ngoài	Reason trên KB tĩnh/bán tĩnh	Workflow tái sử dụng

Điểm mấu chốt: chúng không loại trừ nhau. Một agent nghiêm túc ngày nay xài cả 3 — Skills quyết định làm thế nào, MCP thực thi hành động, RAG cung cấp kiến thức.

Dùng khi nào

MCP — khi agent cần tạo Jira ticket, query Postgres live, search Slack, fetch PR GitHub, gọi Brave Search, mà không muốn viết client riêng cho từng cái.

RAG — support bot trả lời từ docs nội bộ, legal agent reason trên contract, coding assistant truy xuất convention của repo cụ thể.

Skills — sinh file .docx/.xlsx/.pdf, Slack GIF creator tự validate size, skill-creator hướng dẫn setup workflow, content writer nạp brand voice đúng lúc viết copy.

Limitations & pricing

MCP: tool definitions có thể phình context lên hàng chục nghìn token. Tool = arbitrary code execution, spec bắt buộc user consent tường minh trước mỗi invocation.
RAG: retrieval fail âm thầm. Embedding kém → output kém. Vector DB thêm chi phí ops. Index cũ → câu trả lời cũ.
Skills: cần reasoning model đủ mạnh để route đúng skill. Thêm 1 round latency cho bước quyết định load. Hiện trưởng thành nhất trên stack Anthropic.
Giá: cả 3 đều open/free ở tầng protocol/technique. Chi phí hiện ở vector DB infra (RAG), server hosting (MCP), và token tiêu thụ mỗi turn (chung).

What's next

Xu hướng 2026: ba pattern hợp nhất thành một stack. Skills trở thành lớp routing. MCP thành lớp action. RAG nằm bên trong Skill như một tool con. Một số hướng đáng theo dõi: format Skill liên vendor, hybrid retrieval (RAG nhúng trong Skill), marketplace cho MCP server, và rolling releases của spec MCP (bản 2025-11-25 vừa GA).

Nếu bạn đang build agent mà vẫn nhét hết vào system prompt, bạn đang đốt token để làm công việc mà 3 pattern này giải quyết tốt hơn nhiều lần.

Via: MCP Specification, Claude Agent Skills Docs, Alex Ewerlöf — RAG vs SKILL vs MCP, BD Tech Talks.