// Popular Articles
DeepSeek V4: 1M context mà agent thật sự dùng được, KV cache chỉ còn 10% V3.2
DeepSeek V4 ra mắt 24/04/2026: MoE 1.6T Pro và 284B Flash, 1M token context, Apache 2.0. Điểm đột phá không phải benchmark SOTA mà là kiến trúc attention lai CSA+HCA cắt KV cache còn 10% V3.2 — biến 1M context từ marketing number thành thứ agent thực sự chạy được trên production.
Chạy Qwen ở Q3: Bên kia vách đá precision của local LLM
Q3 quant có thể trả lời giống Claude Opus, nhưng cái giá là một cú thinking loop 60 giây và +60% wall-clock. Đây là bản chất của việc đi xuống dưới Q4 — và tại sao đôi khi vẫn đáng.
DeepSeek-V4-Pro lên NVIDIA NIM: 1.6T tham số, chạy free trên Blackwell
NVIDIA vừa đưa DeepSeek-V4-Pro — mô hình open-source lớn nhất thế giới với 1.6 nghìn tỷ tham số — lên build.nvidia.com, chạy miễn phí trên GPU Blackwell. Mở weights MIT license, giá rẻ hơn Claude Opus 4.6 tới 7 lần mà SWE-bench chỉ kém 0.2 điểm.
Deepseek V4 Pro vs GPT-5.5: ai thắng trong cuộc thi làm game karting?
Một run thực tế: Deepseek V4 Pro rẻ hơn 4.3 lần và sinh ra gấp đôi token, nhưng GPT-5.5 mới là model làm ra game karting có chất lượng, visual và creative direction tốt hơn. Đọc breakdown chi phí, tốc độ và ý nghĩa thực tế cho dev.
500+ AI tự nghiên cứu AI: 72 giờ điên rồ đầu tiên của Hugging Face ml-intern
Hugging Face vừa thả ml-intern — AI agent tự đọc paper, tự dựng dataset, tự train model. Sau 72 giờ, hơn 500 dự án nghiên cứu tự động chạy song song liên tục trên Space, sinh ra những kiến trúc kỳ quái như transformer thay thế bằng năng lượng tối thiểu và attention mô phỏng não người.
DeepSeek-V4 giờ chạy 26 tok/s trên MLX — và bạn có thể nhét nó vào Claude Code, Opencode, PI
Prince Canuma vừa đẩy DeepSeek-V4-Flash lên ~23-26 tok/s trên Apple Silicon bằng một Metal kernel tự viết cho Sinkhorn và giữ MoE experts ở MXFP4. Hệ quả: một model 284B parameters, context 1M, rating Codeforces hơn GPT-5.4, giờ có thể chạy local làm backend cho coding agent.
OpenClaw v2026.4.23: gpt-image-2 qua Codex OAuth, OpenRouter image_generate, và hint thống nhất
Bản v2026.4.23 của OpenClaw gỡ bỏ yêu cầu OPENAI_API_KEY cho image generation: chỉ cần Codex OAuth là chạy gpt-image-2. Thêm OpenRouter thành image provider và hints quality/format/background thống nhất qua image_generate.
Vì sao DeepSeek V4 chậm ra mắt: bóc tách hai 'miếng băng dán' giữ cho quá trình training 33T tokens khỏi vỡ
DeepSeek V4 preview vừa ra ngày 24/04/2026 sau hơn 4 tháng im ắng. Báo cáo kỹ thuật nhắc chữ 'stability' hơn 10 lần, nhưng hai kỹ thuật chính để giữ training khỏi sụp — Anticipatory Routing (mismatched routing) và SwiGLU Clamping — nghe có vẻ vá víu hơn là giải pháp nền. Susan Zhang (@suchenzang) chỉ ra điểm này; bài này bóc tách xem tại sao.
Sim2Reason: LLM học vật lý từ MuJoCo, bỏ hẳn QA do người ghi nhãn
Sim2Reason (CMU + Lambda) biến mô phỏng vật lý thành cỗ máy sinh dữ liệu QA vô hạn để fine-tune LLM bằng RL. Kết quả: +17.9pp trên JEEBench, +5-10pp trên IPhO, zero-shot sang bài thật, không cần một dòng chú thích người viết.
Grok Voice Think Fast 1.0 quét sạch τ-voice Bench: 67.3% overall, 73.7% telecom — bỏ xa OpenAI và Google
xAI ra mắt grok-voice-think-fast-1.0 và lên #1 trên τ-voice Bench của Sierra với 67.3% overall, 62.3% retail, 66% airline và 73.7% telecom — gấp đôi GPT Realtime 1.5 và Gemini 3.1 Flash Live ở domain khó nhất. Dưới đây là full context, số liệu, và giới hạn.