devlog by a solofounder

// Popular Articles

#6952026-02-10

DeepSeek V4: 1M context mà agent thật sự dùng được, KV cache chỉ còn 10% V3.2

DeepSeek V4 ra mắt 24/04/2026: MoE 1.6T Pro và 284B Flash, 1M token context, Apache 2.0. Điểm đột phá không phải benchmark SOTA mà là kiến trúc attention lai CSA+HCA cắt KV cache còn 10% V3.2 — biến 1M context từ marketing number thành thứ agent thực sự chạy được trên production.

deepseek-v4long-contextkv-cache

8 phút đọc

#6902026-02-08

Chạy Qwen ở Q3: Bên kia vách đá precision của local LLM

Q3 quant có thể trả lời giống Claude Opus, nhưng cái giá là một cú thinking loop 60 giây và +60% wall-clock. Đây là bản chất của việc đi xuống dưới Q4 — và tại sao đôi khi vẫn đáng.

qwenllm-quantizationlocal-llm

7 phút đọc

#6892026-02-07

DeepSeek-V4-Pro lên NVIDIA NIM: 1.6T tham số, chạy free trên Blackwell

NVIDIA vừa đưa DeepSeek-V4-Pro — mô hình open-source lớn nhất thế giới với 1.6 nghìn tỷ tham số — lên build.nvidia.com, chạy miễn phí trên GPU Blackwell. Mở weights MIT license, giá rẻ hơn Claude Opus 4.6 tới 7 lần mà SWE-bench chỉ kém 0.2 điểm.

deepseek-v4nvidia-nimopen-source-llm

7 phút đọc

#6832026-02-04

Deepseek V4 Pro vs GPT-5.5: ai thắng trong cuộc thi làm game karting?

Một run thực tế: Deepseek V4 Pro rẻ hơn 4.3 lần và sinh ra gấp đôi token, nhưng GPT-5.5 mới là model làm ra game karting có chất lượng, visual và creative direction tốt hơn. Đọc breakdown chi phí, tốc độ và ý nghĩa thực tế cho dev.

deepseek-v4gpt-5-5ai-benchmark

6 phút đọc

#6812026-02-03

500+ AI tự nghiên cứu AI: 72 giờ điên rồ đầu tiên của Hugging Face ml-intern

Hugging Face vừa thả ml-intern — AI agent tự đọc paper, tự dựng dataset, tự train model. Sau 72 giờ, hơn 500 dự án nghiên cứu tự động chạy song song liên tục trên Space, sinh ra những kiến trúc kỳ quái như transformer thay thế bằng năng lượng tối thiểu và attention mô phỏng não người.

ml-internhugging-faceai-agents

7 phút đọc

#6802026-02-03

DeepSeek-V4 giờ chạy 26 tok/s trên MLX — và bạn có thể nhét nó vào Claude Code, Opencode, PI

Prince Canuma vừa đẩy DeepSeek-V4-Flash lên ~23-26 tok/s trên Apple Silicon bằng một Metal kernel tự viết cho Sinkhorn và giữ MoE experts ở MXFP4. Hệ quả: một model 284B parameters, context 1M, rating Codeforces hơn GPT-5.4, giờ có thể chạy local làm backend cho coding agent.

deepseek-v4mlxapple-silicon

6 phút đọc

#6622026-01-24

OpenClaw v2026.4.23: gpt-image-2 qua Codex OAuth, OpenRouter image_generate, và hint thống nhất

Bản v2026.4.23 của OpenClaw gỡ bỏ yêu cầu OPENAI_API_KEY cho image generation: chỉ cần Codex OAuth là chạy gpt-image-2. Thêm OpenRouter thành image provider và hints quality/format/background thống nhất qua image_generate.

openclawgpt-image-2openrouter

6 phút đọc

#6562026-01-21

Vì sao DeepSeek V4 chậm ra mắt: bóc tách hai 'miếng băng dán' giữ cho quá trình training 33T tokens khỏi vỡ

DeepSeek V4 preview vừa ra ngày 24/04/2026 sau hơn 4 tháng im ắng. Báo cáo kỹ thuật nhắc chữ 'stability' hơn 10 lần, nhưng hai kỹ thuật chính để giữ training khỏi sụp — Anticipatory Routing (mismatched routing) và SwiGLU Clamping — nghe có vẻ vá víu hơn là giải pháp nền. Susan Zhang (@suchenzang) chỉ ra điểm này; bài này bóc tách xem tại sao.

deepseek-v4training-stabilitymoe

7 phút đọc

#6542026-01-20

Sim2Reason: LLM học vật lý từ MuJoCo, bỏ hẳn QA do người ghi nhãn

Sim2Reason (CMU + Lambda) biến mô phỏng vật lý thành cỗ máy sinh dữ liệu QA vô hạn để fine-tune LLM bằng RL. Kết quả: +17.9pp trên JEEBench, +5-10pp trên IPhO, zero-shot sang bài thật, không cần một dòng chú thích người viết.

sim2reasonllm-reasoningmujoco

7 phút đọc

#6522026-01-19

Grok Voice Think Fast 1.0 quét sạch τ-voice Bench: 67.3% overall, 73.7% telecom — bỏ xa OpenAI và Google

xAI ra mắt grok-voice-think-fast-1.0 và lên #1 trên τ-voice Bench của Sierra với 67.3% overall, 62.3% retail, 66% airline và 73.7% telecom — gấp đôi GPT Realtime 1.5 và Gemini 3.1 Flash Live ở domain khó nhất. Dưới đây là full context, số liệu, và giới hạn.

grok-voicexaivoice-ai

7 phút đọc