Google ra mắt OKF: Định dạng mở để AI Agent tự quản lý tri thức
Google Cloud phát hành Open Knowledge Format (OKF) v0.1 ngày 12/6/2026, chính thức hóa ý tưởng LLM Wiki của Andrej Karpathy thành một open specification. Spec chỉ 451 dòng, dùng markdown thuần với YAML frontmatter, không cần SDK hay platform độc quyền. Chỉ một trường bắt buộc duy nhất là type - mọi thứ còn lại là tùy chọn.
Gemini Enterprise Agentic RAG: khi RAG biết tự đào lại đến khi đủ dữ kiện
Google Research và Google Cloud công bố framework Agentic RAG mới trong Gemini Enterprise Agent Platform, đang ở public preview. Trên FramesQA (824 query, 2,676 PDF), accuracy cải thiện tới 34% so với vanilla RAG. Cross-corpus đạt 90.1% accuracy khi Planner Agent phải chọn đúng 1 trong 4 corpus, latency chỉ chậm hơn single-corpus trong vòng 3%. Điểm khác biệt: Sufficient Context Agent quyết định khi nào dữ liệu đủ và buộc hệ thống search tiếp khi chưa đủ.
Toàn Tập Hướng Dẫn Xây Dựng AI Agent Swarm - P2: Hạ Tầng và Cách Hoạt Động
Mooncake disaggregates prefill và decode cluster, đạt throughput tăng 525% và xử lý 75% requests nhiều hơn. Swarm hoạt động theo wave: wave đầu chạy subtask độc lập, wave sau xử lý task phụ thuộc kết quả trước. Kết hợp Kimi K2.6 làm execution layer ($0.95/M input token) với Claude Opus 4.8 làm planner và verifier - Opus 4.8 ít bỏ sót lỗi hơn 4x so với tiền nhiệm.
Toàn Tập Hướng Dẫn Xây Dựng AI Agent Swarm - P1: Kiến Trúc và Nền Tảng
Agent Swarm chạy subtask song song - thời gian tổng xấp xỉ max(A,B,C) thay vì A+B+C, giảm 3-4.5x wall-clock time. Kimi K2.6 là MoE 1 nghìn tỷ tham số, 32B active, 300 sub-agent đồng thời và 4.000 tool call mỗi session. Agent Swarm được train vào mô hình qua PARL - không phải framework gắn ở application layer. BrowseComp: swarm mode đạt 78.4%, tăng 17.8 điểm so với single-agent (60.6%).
Kimi K2.6 thay thế cả team dev: Blueprint xây dựng AI Agency $80k/tháng
Moonshot AI phát hành Kimi K2.6 ngày 20/4/2026 - model open-weight 1 trillion tham số, đạt 80.2% SWE-Bench Verified, dẫn đầu GPT-5.4 và Claude Opus 4.6 trên SWE-Bench Pro (58.6% vs 57.7%). Agent Swarm chạy 300 sub-agent song song, 4,000 bước phối hợp trong một lần chạy. Giá API $0.60/M input token - rẻ hơn Claude Opus 4.7 khoảng 5-6 lần. Với $500/tháng overhead, mô hình AI Agency một người có thể đạt $80k/tháng doanh thu theo blueprint từ cộng đồng.
Microsoft mở mã SkillOpt: train file SKILL.md như neural network
Microsoft công bố SkillOpt, framework treat file SKILL.md như trainable parameter của frozen LLM agent. Trên GPT-5.5, SkillOpt cộng +23.5 điểm accuracy trong direct chat, +24.8 trong Codex và +19.1 trong Claude Code. Best hoặc tied trên cả 52/52 cell (model x benchmark x harness). Skill artifact 300-2000 token, MIT license, không tốn thêm inference call lúc deploy.
Claude Opus 4.8 Ra Mắt: Sharper Judgment, Dynamic Workflows và Fast Mode Rẻ Hơn 3x
Anthropic phát hành Claude Opus 4.8 ngày 28/5/2026, chỉ 41 ngày sau Opus 4.7, với giá không đổi $5/$25 per 1M tokens. Agentic coding đạt 69.2% SWE-bench Pro - bỏ xa GPT-5.5 (58.6%) và Gemini 3.1 Pro (54.2%). Fast mode mới chạy 2.5x nhanh hơn và rẻ hơn 3x ($10/$50 per 1M thay vì $30/$150). Model còn ít khả năng bỏ sót lỗi code hơn Opus 4.7 tới 4 lần.
Repo 4.2k Star Dạy Build AI Agent Từ Đầu - Không Framework, Không Black Box
ai-agents-from-scratch là repo 4.2k star dạy build AI agent từ đầu, không LangChain, không CrewAI. 15 module tiến dần từ LLM cơ bản đến Tree of Thought - 100% JavaScript, chạy local với node-llama-cpp. Module 15 vừa ra hôm nay: tool routing bằng embeddings. Phase 2 roadmap: rebuild LangChain từ scratch với code có thể đọc được.
AI Agents Cũng Lão Hóa - Sau 100 Session, Agent Của Bạn Còn Đáng Tin Không
AgingBench phát hiện 4 cơ chế lão hóa khiến AI agent suy giảm dù model weights không thay đổi. Chỉ đổi compaction prompt tạo ra gap 4,5x về half-life. Typed-state overlay giảm accumulator error 47%. Forced re-read đẩy recall của Opus-4.7 từ 0,68 lên 0,91.
Qwen3.7-Max ra mắt: AI Agent chạy 35 giờ không nghỉ, bước tiến mới từ Alibaba
Alibaba ra mắt Qwen3.7-Max tại Cloud Summit 2026 - flagship model mới nhất thiết kế cho kỷ nguyên AI agent. Trong bài test nội bộ, model tự chạy 35 giờ liên tục với 1,158 tool calls, tối ưu kernel GPU đạt tốc độ tăng 10x. Context window 1 triệu token gấp 4 lần phiên bản trước, tích hợp native MCP và kết nối 1000+ tools. Benchmark GPQA Diamond đạt 92.4 - vượt Claude Opus 4.6 Max (91.3).