Tag: #benchmark

5 bài viết

#7432026-05-31

Agentmemory: "Bộ Nhớ Vô Hạn" cho Codex và Claude Code - P3: Benchmark, 5 Bẫy Thường Gặp và Kết Luận

So sánh chi tiết Agentmemory với Mem0 (53k Stars), Letta (22k Stars) và CLAUDE.md thủ công. Con số R@5 95.2% là retrieval accuracy chứ không phải QA accuracy - đọc đúng thì dùng đúng kỳ vọng. 5 bẫy thực tế từ GitHub Issues: iii-engine mismatch, infinite ghost sessions (#181), MCP tách KV với REST (#159), Cursor process residue, privacy filter drop observations.

agentmemoryclaude-codecontext-engineering

9 phút đọc

#7222026-05-26

Nghiên cứu: Harness phức tạp hơn không có nghĩa là AI agent tốt hơn

432 lần thử nghiệm cho thấy Gemini 2.5 Flash mất 29-38 điểm VTSR khi harness phức tạp hơn. Qwen3.5-122B đạt đỉnh 91.7% VTSR chính xác ở strict harness - ngược hoàn toàn kỳ vọng. Model 2B Gemma4:e2B ổn định 91.7% khắp mọi điều kiện - ngang với model mạnh hơn nhiều.

llm-agentharness-engineeringai-infrastructure

7 phút đọc

Featured#7162026-05-25

AI Agents Cũng Lão Hóa - Sau 100 Session, Agent Của Bạn Còn Đáng Tin Không

AgingBench phát hiện 4 cơ chế lão hóa khiến AI agent suy giảm dù model weights không thay đổi. Chỉ đổi compaction prompt tạo ra gap 4,5x về half-life. Typed-state overlay giảm accumulator error 47%. Forced re-read đẩy recall của Opus-4.7 từ 0,68 lên 0,91.

ai-agentbenchmarkllm

7 phút đọc

#7072026-05-22

Qwen3.7-Max ra mắt: AI Agent chạy 35 giờ không nghỉ, bước tiến mới từ Alibaba

Alibaba ra mắt Qwen3.7-Max tại Cloud Summit 2026 - flagship model mới nhất thiết kế cho kỷ nguyên AI agent. Trong bài test nội bộ, model tự chạy 35 giờ liên tục với 1,158 tool calls, tối ưu kernel GPU đạt tốc độ tăng 10x. Context window 1 triệu token gấp 4 lần phiên bản trước, tích hợp native MCP và kết nối 1000+ tools. Benchmark GPQA Diamond đạt 92.4 - vượt Claude Opus 4.6 Max (91.3).

alibabaqwenai-agent

6 phút đọc

#0732025-06-27

Exa Deep Max: Agentic Search SOTA với Latency Nhanh Hơn 20 Lần

Exa vừa công bố Deep Max — endpoint agentic search kết hợp frontier LLM với hàng chục lời gọi Exa Search song song, đạt state-of-the-art trên HLE-Search, FRAMES, Deep Search QA, với độ trễ nhanh hơn đối thủ tới 92 lần.

exa-aiagentic-searchllm-tools

6 phút đọc