Tất cả bài viết

// Posts#software-engineering

#6512026-05-16

Đừng Khoán Việc Học Cho AI

Nghiên cứu Anthropic với 52 kỹ sư cho thấy nhóm dùng AI thụ động chỉ đạt 50% trong bài kiểm tra - thấp hơn 17% so với nhóm code tay. MIT đo EEG xác nhận: 83% người dùng LLM không thể quote lại một câu nào trong bài họ vừa viết. Cùng một công cụ, khác posture - kỹ sư hỏi AI để hiểu khái niệm đạt trên 65%, còn kỹ sư copy-paste generated code rơi xuống dưới 40%. Tool không quyết định kết quả - cách bạn dùng nó mới là điều tạo ra sự khác biệt.

ai-toolsdeveloper-skillscognitive-debt

7 phút đọc

#4812026-05-05

Harness Engineering (Phần 1): Tại sao Claude Opus 4.7 và GPT-5.4 đạt 0% khi làm việc thật?

ProgramBench - benchmark mới từ nhóm SWE-Bench - vừa công bố kết quả gây sốc: Claude Opus 4.7, GPT-5.4, Gemini 3.1 Pro đều đạt 0% khi được yêu cầu rebuild phần mềm thực tế từ đầu. Lỗi không nằm ở model - mà nằm ở Harness. Harness Engineering là kỹ thuật xây dựng "bộ kiểm soát" bao quanh LLM, được tóm gọn bằng công thức: Agent = Model + Harness. Bài này giải thích tại sao công thức đó quyết định tất cả.

harness-engineeringai-agentllm

7 phút đọc