// Popular Articles
Qwen3.6-Max-Preview: Alibaba Tung Flagship Mới Đối Đầu GPT & Gemini, Vượt Claude 4.5 Opus Trên Loạt Benchmark Coding
Ngày 20/04/2026, Alibaba công bố Qwen3.6-Max-Preview — bản preview mô hình flagship tiếp theo của Qwen. Top score trên 6 benchmark coding (SWE-bench Pro, Terminal-Bench 2.0, SkillsBench, SciCode...), vượt Claude 4.5 Opus ở SkillsBench (+10.3), QwenChineseBench (+15), Terminal-Bench 2.0 (+6.1). Hỗ trợ preserve_thinking cho agent workflows, API tương thích OpenAI & Anthropic.
MEMENTO: Microsoft dạy LLM tự nén dòng suy luận, giảm 2.5× bộ nhớ và tăng 1.75× tốc độ
Microsoft Research vừa công bố MEMENTO — phương pháp huấn luyện cho phép LLM tự cắt chuỗi suy luận thành từng khối, nén mỗi khối thành một bản tóm tắt dày đặc rồi tiếp tục "nghĩ" chỉ dựa trên các bản tóm tắt đó. Kết quả: peak KV cache giảm ~2.5×, throughput tăng ~1.75× trên vLLM, độ chính xác gần như không đổi. Đây là lần đầu một mô hình học cách tự quản lý context thay vì chỉ mở rộng nó.
Qwen3.6-Plus ra mắt: 1M-token context, agentic coding vượt Claude Opus 4.5 trên SWE-Bench
Alibaba chính thức tung Qwen3.6-Plus ngày 02/04/2026 — flagship LLM với context 1 triệu token mặc định, agentic coding đạt 78.8 điểm SWE-Bench Verified (vượt Claude Opus 4.5), hybrid thinking mode và API preserve_thinking fix triệt để agent amnesia. Kèm ưu đãi 70M free tokens cho người đăng ký mới.
Microsoft MEMENTO: LLMs that compress their own chain-of-thought
Microsoft Research teaches reasoning models to summarise their own thinking mid-generation — 2.5x less peak KV cache, ~2x throughput, and a surprising 'hidden channel' in the KV states that alone is worth 15 accuracy points on AIME24.
Opus 4.7 vs Opus 4.6: Bước nhảy coding, vision và cái giá phải trả
Anthropic ra Claude Opus 4.7 ngày 16/04/2026. Cùng giá với 4.6 nhưng thắng 12/14 benchmark, SWE-bench Verified nhảy từ 80.8% lên 87.6%, vision tăng 3× độ phân giải. Tokenizer mới có thể làm hoá đơn API tăng tới 35%. Khi nào nên upgrade, khi nào nên ở lại 4.6.
NVIDIA Nemotron 3 Super: 120B Open Model With Only 12B Active — Built To Be An Agent's Brain
NVIDIA's Nemotron 3 Super is a 120B-parameter, 12B-active hybrid Mamba-Transformer MoE that scores 60.47 on SWE-Bench Verified, holds 91.75 on RULER at 1M tokens (while GPT-OSS-120B collapses to 22.3), and ships fully open — weights, datasets, and training recipes.
TIDE: khi mỗi token chọn tầng riêng — early exit per-token giúp LLM inference nhanh hơn 7.2%
TIDE bolt tiny MLP routers (~4MB) lên model đông lạnh, cho phép token "the" và token reasoning thoát ở tầng khác nhau. Calibrate 3 phút, không retrain, đạt 98–99% early-exit rate khi decode multi-step math mà đáp án không đổi.
Phantom Clipping: Why Your RLHF Run Stalls When Trainer Is FP32 and vLLM Is BF16
Hugging Face's TRL team finally pinpointed a long-suspected RLHF failure mode. It is not noise. It is PPO's clip silently zeroing out 18% of tokens because the trainer and the inference engine disagree at the bit level.
Native Sparse Attention: the ACL 2025 Best Paper that makes 64k context 11.6× cheaper
DeepSeek + Peking University win ACL 2025 Best Paper with NSA — a sparse attention mechanism trained from scratch. 27B model beats dense baseline, runs 9× faster forward, 11.6× faster decoding at 64k on A100.
Claude Opus 4.7 cán đích đồng hạng nhất Intelligence Index, dẫn đầu GDPval-AA về năng lực agentic thực tế
Opus 4.7 đạt 57.3 điểm Intelligence Index — lần đầu tiên trong lịch sử Artificial Analysis có 3 lab cùng đồng hạng nhất với GPT-5.4 và Gemini 3.1 Pro. Anthropic dẫn đầu GDPval-AA về công việc tri thức, dùng ít hơn 35% output token so với Opus 4.6 nhưng điểm cao hơn 4 bậc, và giữ nguyên giá $5/$25 per 1M tokens.