Tất cả bài viết

// Posts#nghien-cuu

#7372026-05-26

Nghiên cứu: Harness phức tạp hơn không có nghĩa là AI agent tốt hơn

432 lần thử nghiệm cho thấy Gemini 2.5 Flash mất 29-38 điểm VTSR khi harness phức tạp hơn. Qwen3.5-122B đạt đỉnh 91.7% VTSR chính xác ở strict harness - ngược hoàn toàn kỳ vọng. Model 2B Gemma4:e2B ổn định 91.7% khắp mọi điều kiện - ngang với model mạnh hơn nhiều.

llm-agentharness-engineeringai-infrastructure

7 phút đọc