// Popular Articles
Meta's REFRAG: 30× Faster RAG Decoding Without Losing Accuracy
Meta Superintelligence Labs just shipped REFRAG — a decoding framework that compresses RAG context into chunk embeddings, hitting 30.85× faster time-to-first-token, 16× longer context, and zero perplexity loss. No LLM retraining required.
Baidu mở mã nguồn ERNIE-Image 8B: mô hình text-to-image chạy trên GPU tiêu dùng, fine-tune thoải mái
Baidu vừa open-source ERNIE-Image — Diffusion Transformer 8B, Apache 2.0, chạy 24GB VRAM, đánh bại FLUX.2-klein và Qwen-Image trên GenEval. Rendering chữ Trung + Nhật cực đậm, tùy biến được cho brand riêng.
ml-intern: Hugging Face vừa ra con agent tự train model từ 1 dòng prompt — đập Claude Code 10 điểm GPQA
Hugging Face vừa open-source ml-intern: agent đọc paper, đi theo citation graph, kéo dataset, viết script, chạy training trên A100, tự diagnose khi reward collapse. Từ Qwen3-1.7B nâng GPQA 10% → 32% trong <10 giờ — Claude Code best chỉ 22.99%. Beat Codex trên HealthBench 60% bằng synthetic data nó tự sinh.
35x nhanh hơn: KV cache + INT8 quantization trong transformer viết từ đầu bằng Rust + CUDA
Reese Chong tăng throughput inference từ 0.76 lên 27.29 tok/s và cắt 3.78 lần bộ nhớ KV cache — toàn bộ dựng tay trong Rust + CUDA, không đụng PyTorch hay cuBLAS.
Claude Code /ultrareview: 5 Agents Hunt Bugs In The Cloud, Human Triage Drops To 1%
Anthropic's new /ultrareview slash command spawns up to 20 parallel agents in a cloud sandbox, runs Find → Verify → Dedup, and returns bugs with under 1% false positives. Pro/Max get 3 free runs. Here's what it catches, what it costs, and when to use it over /review.
Ollama kimi-k2.6:cloud crushes OpenRouter providers on throughput — field numbers inside
A hobbyist benchmark of three runs against Ollama's kimi-k2.6:cloud clocked 77–114 tok/s with sub-1.2s TTFT, leaving every OpenRouter provider (Parasail, Moonshot, NovitaAI, Cloudflare) in the dust. Caveats, context, and what the numbers actually mean.
Maximal Brain Damage: 2 Bit-Flips Can Wipe Out ResNet-50 and Qwen3-30B
Researchers from NVIDIA, Technion and IBM introduce Deep Neural Lesion (DNL) — a data-free, optimization-free attack that flips just 1–2 sign bits to drop ResNet-50 accuracy by 99.8% and crush Qwen3-30B reasoning from 78% to 0%.
GEPA kéo Haiku 4.5 từ 65% lên 85% pass rate — tune CLAUDE.md tự động, không đổi model
GEPA (ICLR 2026 Oral) dùng LLM đọc execution trace để tự đề xuất sửa prompt, kéo Claude Haiku 4.5 từ 65% lên 85% pass rate chỉ bằng cách optimize file CLAUDE.md — không swap model, không fine-tune, dùng 35× ít rollouts hơn RL.
DFlash cho Qwen3.6-35B-A3B chính thức GA: speculative decoding 2.9× nhanh hơn, drafter chỉ 0.5B tham số
Z Lab vừa release bản final DFlash drafter cho Qwen3.6-35B-A3B — block diffusion 0.5B params đạt 2.9× speedup trên Math500, vượt EAGLE-3 hơn 2.5×. Cộng đồng đã chạy preview từ trước khi training xong, giờ weights chính thức finalized.
dots.ocr: A 1.7B Vision-Language Model That Beats GPT-4o at Document Parsing
rednote-hilab's dots.ocr packs SOTA OmniDocBench performance into a 1.7B-parameter VLM, outperforming Qwen2-VL-72B and GPT-4o on key OCR benchmarks while running on a single GPU.