llama.cpp, MLX, ExLlamaV2 và ExLlamaV3: Chọn engine nào cho Local AI 2026?
Bốn họ engine local chiếm ưu thế trong 2026, mỗi họ phục vụ một mục tiêu riêng. llama.cpp chạy được ở bất cứ đâu. MLX là vũ khí của Apple Silicon. ExLlamaV2 tối ưu cho một RTX đơn. ExLlamaV3 mở rộng sang 2-4 GPU consumer với EXL3 - fit model 70B vào 16GB VRAM.
Inference Engine cho LLM: Kiến trúc và nền tảng bạn cần hiểu trước khi chọn
Inference engine không phải là model - nó là lớp phần mềm quyết định latency, chi phí và khả năng mở rộng. Prefill là compute-bound, decode là memory bandwidth-bound, và 5 bottleneck thực sự không liên quan gì đến thông số GPU bạn thường xem. Bài đầu trong series 4 phần về Self-hosted LLM 2026.
9 Template Slash Command Claude Cowork - P3: 3 Nguyên Tắc Quyết Định
9 template sống sót và 21 template bị loại chia sẻ hai nhóm đặc điểm khác nhau rõ ràng. 14 trong 21 cái bị loại vì thiếu TERMINATION clause - model mở rộng output đến hết session block. 7 cái còn lại chết vì không có role definition - một template audit biến thành recommendation engine. Khi áp dụng đủ 3 nguyên tắc, median session length giảm từ 2 giờ 20 phút xuống còn 14 phút.
9 Template Slash Command Claude Cowork - P2: Báo Cáo Tuần, Review và Nghiên Cứu Sâu
5 template tiếp theo trong bộ 9 của Cowork: báo cáo tuần tiết kiệm 2 giờ xuống 7 phút, document review từ 90 phút xuống 9 phút, Polymarket audit từ 45 phút xuống 3 phút. Template nghiên cứu sâu dùng 5 sub-agents parallel - đây mới là thứ rút ngắn 4 tiếng thành 28 phút, không phải chỉnh prompt. Template cuối tái sử dụng một long-form piece thành 5 format khác nhau trong 12 phút.
9 Template Slash Command Claude Cowork - P1: Briefing, Đối Thủ và Hộp Thư
Đo lường trong 30 ngày thực tế: 47 phút active keyboard time mỗi ngày cho 8 tiếng công việc thực sự. 9 slash command template tiết kiệm tổng cộng 34 giờ mỗi tuần - raw 72 giờ sau khi trừ overlap và review time. Phần 1 bao gồm 4 template đầu: morning briefing, competitor scan, email triage, meeting prep. Mỗi template đều có dòng TERMINATION - yếu tố quyết định giữ Cowork không expand output vô tận.
ZCube: Kiến Trúc Mạng Thế Hệ Mới Giải Quyết Tắc Nghẽn LLM Inference
ZCube là kiến trúc mạng flattened topology do Z.ai, Harnets.AI và Đại học Tsinghua phát triển, được công bố tại ACM SIGCOMM 2025. Triển khai thực tế trên cluster ngàn GPU chạy GLM-5.1, ZCube giảm 33% CapEx switch và optical module mà không thay đổi GPU hay phần mềm. Throughput inference tăng 15%, TTFT P99 giảm 40.6% - chỉ bằng cách nâng cấp kiến trúc mạng. Với cluster 10,000 GPU, ZCube tiết kiệm khoảng 210-640 triệu RMB chi phí phần cứng mạng.
Lộ trình Vibe Coding 6 tháng - P3: Nghệ thuật Prompting và Spec-Driven Development
Prompting là kỹ năng có leverage cao nhất trong toàn bộ vibe coding stack. Tháng 3 bao gồm cấu trúc prompt 4 phần, PRP Framework, llms.txt, Cursor Rules, CLAUDE.md, Spec-Driven Development, và 18 thực hành của expert. Công cụ kém với prompt tốt vẫn thắng công cụ tốt với prompt mơ hồ.
Hệ thống Obsidian một thư mục điều hành cả cuộc đời: Triết lý và kiến trúc
Hầu hết hệ thống productivity thất bại vì quá phức tạp và phân tán. Hệ thống một thư mục Obsidian + Claude Code giải quyết vấn đề từ gốc rễ: gom mọi thứ vào 1 folder LIFE, loại bỏ hoàn toàn quyết định phân loại. Claude Code kết nối qua MCP đóng vai trò intelligence layer - tự tổ chức thay người dùng. Bài viết này trình bày triết lý, cấu trúc đặt tên file và hệ thống properties.
Google I/O 2026: Kỷ Nguyên Agentic AI Chính Thức Bắt Đầu
Gemini 3.5 Flash ra mắt tại Google I/O 2026, nhanh hơn 4x và rẻ hơn một nửa so với frontier model tương đương. Gemini Spark là AI agent 24/7 chạy trên Cloud VM, sẽ beta cho Google AI Ultra subscribers Mỹ ngay tuần tới. Antigravity 2.0 demo build cả một OS từ đầu trong 12 giờ với chưa đến $1,000 tokens. TPU thế hệ 8 đạt ~3x computing power thế hệ trước, có thể scale trên 1 triệu TPUs toàn cầu.
ActiveGraph: Lớp Liên Tục Mà AI Agent Dài Hạn Đang Thiếu
Yohei Nakajima - tác giả BabyAGI - vừa công bố ActiveGraph, kiến trúc biến toàn bộ thực tại của agent thành một graph trạng thái bền vững duy nhất. Không phải workflow DAG, không phải graph memory - ActiveGraph model the world the computation acts on. Code chưa public nhưng concept đủ rõ để thay đổi cách chúng ta nghĩ về agent dài hạn.