// Popular Articles

IceCache: giữ KV-cache GPU gần như hằng số cho long-context LLM, giữ 99% accuracy với 256 token budget
#5072025-11-06

IceCache: giữ KV-cache GPU gần như hằng số cho long-context LLM, giữ 99% accuracy với 256 token budget

IceCache (ICLR 2026) group token theo ngữ nghĩa qua DCI-tree rồi offload sang CPU, chỉ giữ top-k page trên GPU. Kết quả: 99% accuracy full-cache ở budget 256 token, ngang hoặc vượt 6 SOTA baseline với 25% KV budget.

icecachekv-cachelong-context-llm
7 phút đọc
#5062025-11-05

OpenGame: 1 câu prompt, ra nguyên project game web chơi được luôn

CUHK MMLab vừa mở mã OpenGame — framework agentic đầu tiên biến 1 câu mô tả thành project game web đầy đủ engine, real-time loop và state xuyên file. Ăn đứt Cursor + Claude Sonnet 4.6 trên benchmark 150 prompt. GameCoder-27B open-weights đi kèm đã vượt GPT-5.1 và Gemini 3.1 Pro ở hai chỉ số chính.

opengameagentic-codinggame-generation
6 phút đọc
Qwen3.6-27B chạy local: benchmark 4 setup từ RTX 4090 đến DGX Spark
#5022025-11-03

Qwen3.6-27B chạy local: benchmark 4 setup từ RTX 4090 đến DGX Spark

Qwen3.6-27B vừa ra mắt ngày 22/04 — một dense model đánh bại Qwen3.5-397B MoE trên coding benchmark. Nhưng nó chạy nhanh cỡ nào trên phần cứng local? Dev @stevibe bench 4 setup cùng lúc: RTX 5090 đạt 51.83 tok/s, M2 Ultra có TTFT thấp nhất chỉ 216ms, còn DGX Spark 128GB lại chậm bất ngờ với 11.08 tok/s. Bandwidth là ông vua.

qwen3-6local-llmllama-cpp
7 phút đọc
#5012025-11-03

GLM-5.1 ra mắt: model open-weight đầu tiên vượt Opus 4.6 trên SWE-Bench Pro, chạy được trên Mac Studio 256GB

Z.AI công bố GLM-5.1 — MoE 754B params, MIT license, đạt 58.4 trên SWE-Bench Pro (vượt Claude Opus 4.6 và GPT-5.4), duy trì agentic execution 8 giờ liên tục và chạy được local trên Mac Studio 256GB ở 18.47 t/s. BytePlus đã bundle vào ModelArk Coding Plan cùng 5 model elite khác.

glm-5-1open-source-llmz-ai
7 phút đọc
#4932025-10-30

Claude Vừa Có Biểu Đồ & Sơ Đồ Tương Tác Ngay Trong Chat — Miễn Phí Cho Mọi Plan

Anthropic vừa mở beta tính năng vẽ biểu đồ, sơ đồ và visualization tương tác ngay trong khung chat của Claude. Khác với các tin đồn trên mạng xã hội, tính năng này mở cho mọi plan (kể cả Free) chứ không riêng gì paid plan, và hiện đang bị tắt trong Cowork sessions. Đây là pha phản đòn thẳng mặt Gemini Ultra 200 USD/tháng.

claudeanthropicdata-visualization
6 phút đọc
CoInteract: Alibaba & Tsinghua bắt tay dạy AI cách cầm nắm đồ vật như người thật
#4892025-10-28

CoInteract: Alibaba & Tsinghua bắt tay dạy AI cách cầm nắm đồ vật như người thật

CoInteract là framework mới từ Alibaba Group + Tsinghua, sinh video người cầm sản phẩm từ 2 ảnh tĩnh + audio. Điểm đặc biệt: Human-Aware MoE cho tay/mặt và dual-stream co-generation loại bỏ hiện tượng tay xuyên qua vật — với chi phí inference bằng 0.

cointeractalibabavideo-generation
7 phút đọc
#4862025-10-26

BenchLocal v0.2.2 thêm auto-update — và v0.2.3 vừa chạy thử luôn

Steven Lei (@stevibe) vừa ship in-app self-update cho BenchLocal — công cụ desktop benchmark LLM local — rồi verify nó bằng cách đẩy v0.2.3 qua chính cái updater đó, cùng ngày 23/04/2026.

benchlocalllm-benchmarkauto-update
5 phút đọc
ERNIE-Image: Baidu mở mã nguồn mô hình text-to-image 8B chạy trên 1 GPU 24GB, đè cả FLUX.2 ở khả năng render chữ
#4762025-10-21

ERNIE-Image: Baidu mở mã nguồn mô hình text-to-image 8B chạy trên 1 GPU 24GB, đè cả FLUX.2 ở khả năng render chữ

Baidu vừa đưa ERNIE-Image lên ERNIE Bot và mở mã nguồn dưới Apache 2.0. Mô hình 8B DiT này dẫn đầu open-weights ở GenEval, OneIG và LongTextBench, render chữ tiếng Anh và tiếng Trung sắc nét trong cùng một lần inference, chạy đủ trên một consumer GPU 24GB và đã được 50+ nền tảng sáng tạo tích hợp.

ernie-imagebaidutext-to-image
7 phút đọc
#4752025-10-21

FilmArena.ai ra mắt: Benchmark cho AI sáng tạo + sandbox 40+ model trong một tab

Koyal (YC) vừa ship FilmArena.ai — một arena blind-vote cho 40+ model ảnh/video SOTA và một sandbox gom mọi model vào một giao diện, một giá. 2M+ vote từ 190 quốc gia, re-rank mỗi tuần. GPT Image 2 dẫn image-editing, Nano Banana 2 vẫn thắng animated, Veo 3.1 Fast vượt bản full ở realistic.

filmarenacreative-aiai-video
7 phút đọc
Qwen3.6-27B chạy local 18GB RAM, vượt mặt Qwen3.5-397B trên benchmark coding
#4732025-10-20

Qwen3.6-27B chạy local 18GB RAM, vượt mặt Qwen3.5-397B trên benchmark coding

Alibaba ra mắt Qwen3.6-27B ngày 22/04/2026: dense model 27B mở Apache 2.0, chạy local trên 18GB RAM qua Unsloth Dynamic GGUFs, vượt mô hình tiền nhiệm 397B-A17B trên SWE-bench Verified, SWE-bench Pro, Terminal-Bench 2.0 và SkillsBench. Context 262K token, native multimodal, hybrid thinking, hỗ trợ 201 ngôn ngữ.

qwen3-6qwen3-6-27bunsloth
7 phút đọc