Tất cả bài viết

// Posts#agentic-coding

#7532026-05-31

Kimi K2.6 thay thế cả team dev: Blueprint xây dựng AI Agency $80k/tháng

Moonshot AI phát hành Kimi K2.6 ngày 20/4/2026 - model open-weight 1 trillion tham số, đạt 80.2% SWE-Bench Verified, dẫn đầu GPT-5.4 và Claude Opus 4.6 trên SWE-Bench Pro (58.6% vs 57.7%). Agent Swarm chạy 300 sub-agent song song, 4,000 bước phối hợp trong một lần chạy. Giá API $0.60/M input token - rẻ hơn Claude Opus 4.7 khoảng 5-6 lần. Với $500/tháng overhead, mô hình AI Agency một người có thể đạt $80k/tháng doanh thu theo blueprint từ cộng đồng.

kimi-k2-6moonshot-aiai-agent

7 phút đọc

#4002026-04-25

Perplexity dùng GPT-5.5 giảm 56% token và build nội bộ dưới 1 giờ: bằng chứng thực tế đầu tiên của thế hệ Codex mới

OpenAI công bố GPT-5.5 vào 23/04/2026 — lần retrain nền đầu tiên kể từ GPT-4.5. Perplexity là khách hàng đầu tiên lên tiếng với hai con số đáng chú ý: dựng xong một công cụ nội bộ trong chưa đầy 1 giờ và cắt 56% token trên cùng tác vụ phức tạp trong Perplexity Computer. Cộng với benchmark Terminal-Bench 82.7%, đây là bằng chứng cụ thể nhất cho lời hứa agentic coding của OpenAI.

gpt-5-5openaicodex

6 phút đọc

#3832026-04-24

Kimi K2.6 tự tay refactor engine tài chính 8 năm tuổi: +185% throughput sau 13 giờ chạy một mình

Moonshot AI tung Kimi K2.6 (GA 21/04/2026) — model open-weight 1T MoE chạy autonomous 12+ giờ, điều phối 300 sub-agent. Case study nổi bật: K2.6 tự overhaul exchange-core (matching engine tài chính 8 năm tuổi, đã tối ưu sát trần), đọc flame graph, đổi thread topology 4ME+2RE → 2ME+1RE, và bật throughput trung vị lên +185% (0.43 → 1.24 MT/s), peak +133% (1.23 → 2.86 MT/s) sau 13 giờ, 1,000+ tool call, 4,000+ dòng code sửa.

kimi-k2-6moonshot-aiopen-source-llm

8 phút đọc

#3042026-04-16

Meta: coding agent mạnh hơn không phải vì chạy nhiều attempt hơn, mà vì biết ghi nhớ attempt tốt hơn

Paper mới của Meta + CMU/Princeton/AI2 (arxiv 2604.16529) chứng minh: thay vì feed raw log vào selector, hãy nén mỗi rollout thành summary ngắn rồi chạy tournament voting. Claude 4.5 Opus bật từ 70.9% lên 77.6% trên SWE-Bench Verified và 46.9% lên 59.1% trên Terminal-Bench v2.0.

agentic-codingtest-time-scalingmeta-fair

7 phút đọc