// Posts
4 Trụ Cột Agent Bền Vững - Phần 3: Harness và Orchestration
#5952026-05-11

4 Trụ Cột Agent Bền Vững - Phần 3: Harness và Orchestration

3 harness changes - không đụng model - collapse Claude Code từ 2.200 ký tự thinking xuống 600 trong 6 tuần, API retry rate tăng 80 lần. Multi-agent cho 90.2% performance tốt hơn nhưng 68.9% security exposure cao hơn. Phần cuối series về 4 trụ cột agent production-grade.

ai-agentharnessorchestration
8 phút đọc
4 Trụ Cột Agent Bền Vững - Phần 2: Building và Memory
#5942026-05-11

4 Trụ Cột Agent Bền Vững - Phần 2: Building và Memory

Tool contract là một chiều trừ khi bạn enforce ngược lại - bug Stripe thực tế: model pass email vào customer_id, agent thông báo khách đang trả tiền không tìm thấy tài khoản. State poisoning hiện diện trong 73% production AI deployments. Phần 2 của series về engineering deficit.

ai-agenttool-validationstate-poisoning
7 phút đọc
4 Trụ Cột Agent Bền Vững - Phần 1: 88% AI Agent Chết Trong Production - Vấn Đề Không Nằm Ở Model
#5932026-05-11

4 Trụ Cột Agent Bền Vững - Phần 1: 88% AI Agent Chết Trong Production - Vấn Đề Không Nằm Ở Model

88% dự án agent không bao giờ ra production theo IDC 2026. MIT đo 95% tỷ lệ thất bại. Chỉ 5% trong số 1.837 developer được khảo sát có agent thật sự chạy production. Lý do không phải model kém - mà là kỹ thuật xung quanh model. Bài này đặt tên cho vấn đề: engineering deficit.

ai-agentagentic-aiengineering
5 phút đọc
6 Bệnh Thần Kinh của AI Agent - P2: Confabulation, Disinhibition và Anosognosia
#5922026-05-10

6 Bệnh Thần Kinh của AI Agent - P2: Confabulation, Disinhibition và Anosognosia

Confabulation không phải hallucination: khi retrieval thất bại, agent bịa nguồn trông như thật thay vì thừa nhận không biết. Nghiên cứu HalluCitation 2026 tìm thấy gần 300 bài học thuật ACL/EMNLP có ít nhất 1 tài liệu tham khảo bịa đặt. Disinhibition là phanh control plane hỏng - agent đọc email phishing và thực sự gửi file đi. Anosognosia là bệnh nguy hiểm nhất: sai mà không biết mình sai.

ai-agentengineeringconfabulation
7 phút đọc
6 Bệnh Thần Kinh của AI Agent - P1: Source Amnesia, Phantom Limb và Locked-in Syndrome
#5912026-05-10

6 Bệnh Thần Kinh của AI Agent - P1: Source Amnesia, Phantom Limb và Locked-in Syndrome

Khi AI agent mắc lỗi, bạn thường đổ lỗi cho model - nhưng vấn đề thực sự thường nằm ở runtime. Model cho agent "não", còn runtime cho nó "thân thể": mắt, tay, bộ nhớ, phanh, cơ chế tự kiểm tra. Bài này phân tích 3 trong 6 bệnh thần kinh đã được ánh xạ từ y học sang hành vi agent: Source Amnesia, Phantom Limb State và Locked-in Syndrome. Model mạnh hơn không chữa được những bệnh này.

ai-agentengineeringdebugging
6 phút đọc
birdclaw - Workspace Twitter cục bộ, dữ liệu nằm trong tay bạn
#5902026-05-10

birdclaw - Workspace Twitter cục bộ, dữ liệu nằm trong tay bạn

birdclaw là CLI + web app lưu toàn bộ tweets, DMs, likes, bookmarks vào SQLite cục bộ - không cloud, không tracking. Project đang active với 659 stars trên GitHub, phiên bản 0.6.0 vừa release. AI inbox dùng gpt-5.5 để score mentions và DMs theo độ quan trọng. MIT license, cài qua Homebrew một lệnh.

developer-toolstwitteropen-source
5 phút đọc
Harness Engineering (Phần 2): 5 Chiều Thiết Kế Biến AI Agent Từ Vô Dụng Thành Production-Ready
#5892026-05-10

Harness Engineering (Phần 2): 5 Chiều Thiết Kế Biến AI Agent Từ Vô Dụng Thành Production-Ready

Vercel xóa 80% tools của agent: success rate tăng từ 80% lên 100%, nhanh hơn 3.5 lần, giảm 37% token. Anthropic dùng Ralph Loop để AI làm việc qua nhiều ngày mà không mất trí nhớ. Đây là bản thiết kế chi tiết 5 chiều cốt lõi của Harness Engineering - từ Context Management đến Architectural Guardrails.

harness-engineeringai-agentcontext-management
8 phút đọc
Claude Code không phải ChatGPT - P1: mindset đồng nghiệp
#5882026-05-10

Claude Code không phải ChatGPT - P1: mindset đồng nghiệp

Claude Code dùng sai chỉ là ChatGPT xịn hơn, dùng đúng là kỹ sư bạn điều phối được. Sự khác biệt nằm ở cách bạn brief task: 4 yếu tố mục tiêu, yêu cầu chi tiết, trạng thái dự án và tiêu chí nghiệm thu quyết định 80% chất lượng output. CLAUDE.md là hợp đồng hành vi cứng - không phải gợi ý, phải giữ dưới 200 dòng và chỉ viết hard constraints.

claude-codeai-workflowdeveloper-tools
6 phút đọc
Harness Engineering (Phần 6): Khi Scaffolding Quan Trọng Hơn Model
#5872026-05-10

Harness Engineering (Phần 6): Khi Scaffolding Quan Trọng Hơn Model

Claude Opus 4.6 xếp hạng #33 trên Terminal Bench 2.0 trong native harness, nhưng vọt lên #5 chỉ bằng cách thay đổi cấu hình - không đụng vào model. ~98.4% codebase của Claude Code là infrastructure, chỉ 1.6% là AI decision logic. Harness engineering - discipline thiết kế scaffolding xung quanh model - đang trở thành kỹ năng cốt lõi của agentic era.

harness-engineeringcoding-agentsai-engineering
7 phút đọc
DFlash: Block Diffusion giúp LLM suy diễn nhanh hơn 8.5x mà không mất chất lượng
#5862026-05-10

DFlash: Block Diffusion giúp LLM suy diễn nhanh hơn 8.5x mà không mất chất lượng

DFlash đạt 415.7 tokens/sec trên Qwen3-8B, nhanh hơn 8.5x so với baseline 48.5 tokens/sec mà hoàn toàn lossless. Block diffusion model sinh toàn bộ token block trong 1 forward pass duy nhất - chi phí draft không đổi dù suy đoán bao nhiêu token. Nhanh hơn 2.5x so với EAGLE-3, SOTA trước đó. MIT license, đã hỗ trợ vLLM v0.20.1+, SGLang, Transformers với 18 model phổ biến.

dflashspeculative-decodingllm-inference
6 phút đọc