Tag: #llm-agent

3 bài viết

#7262026-05-27

FluxMem: kiến trúc bộ nhớ tự tiến hóa cho LLM Agent từ Zhejiang và Alibaba

FluxMem mô hình hóa bộ nhớ agent thành một heterogeneous graph có thể tự chỉnh sửa qua 3 giai đoạn. Trên LoCoMo, framework đạt 95.06 LMJ với GPT-4.1-mini, vượt EverMemOS (93.05) và Full Context (81.23). Trên GAIA với Kimi K2, success rate nhảy từ 52.12 lên 64.85, tăng tuyệt đối 12.73 điểm. Trên Mind2Web realistic, Cross-Task SR đạt 8.1 - hơn gấp đôi AWM (3.6).

llm-agentmemory-architecturefluxmem

9 phút đọc

#7222026-05-26

Nghiên cứu: Harness phức tạp hơn không có nghĩa là AI agent tốt hơn

432 lần thử nghiệm cho thấy Gemini 2.5 Flash mất 29-38 điểm VTSR khi harness phức tạp hơn. Qwen3.5-122B đạt đỉnh 91.7% VTSR chính xác ở strict harness - ngược hoàn toàn kỳ vọng. Model 2B Gemma4:e2B ổn định 91.7% khắp mọi điều kiện - ngang với model mạnh hơn nhiều.

llm-agentharness-engineeringai-infrastructure

7 phút đọc

#6032026-05-13

Từ Agent đến Skill: Đơn vị mới của AI đang thay đổi cách xây hệ thống

Bốn paper AI xuất hiện cùng tuần 5/2026 đều chỉ về một hướng: skill - quy trình tái sử dụng được - đang thay thế agent làm đơn vị tiến bộ chính. Skill1 đạt 97.5% trên ALFWorld, vượt baseline tốt nhất 2.6 điểm. SkillOS chứng minh mô hình 8B có thể vượt Gemini-2.5-Pro khi được train để quản lý skill. Anthropic đã mở chuẩn SKILL.md từ tháng 12/2025, hiện được 32 công cụ hỗ trợ gồm Claude, Copilot, Codex CLI, Gemini CLI.

agent-skillsai-researchllm-agent

7 phút đọc