// Popular Articles

#3192025-08-04

Meta's REFRAG: 30× Faster RAG Decoding Without Losing Accuracy

Meta Superintelligence Labs just shipped REFRAG — a decoding framework that compresses RAG context into chunk embeddings, hitting 30.85× faster time-to-first-token, 16× longer context, and zero perplexity loss. No LLM retraining required.

refragmeta-airag
7 phút đọc
Baidu mở mã nguồn ERNIE-Image 8B: mô hình text-to-image chạy trên GPU tiêu dùng, fine-tune thoải mái
#3182025-08-04

Baidu mở mã nguồn ERNIE-Image 8B: mô hình text-to-image chạy trên GPU tiêu dùng, fine-tune thoải mái

Baidu vừa open-source ERNIE-Image — Diffusion Transformer 8B, Apache 2.0, chạy 24GB VRAM, đánh bại FLUX.2-klein và Qwen-Image trên GenEval. Rendering chữ Trung + Nhật cực đậm, tùy biến được cho brand riêng.

ernie-imagebaiduopen-source-llm
6 phút đọc
#3152025-08-02

ml-intern: Hugging Face vừa ra con agent tự train model từ 1 dòng prompt — đập Claude Code 10 điểm GPQA

Hugging Face vừa open-source ml-intern: agent đọc paper, đi theo citation graph, kéo dataset, viết script, chạy training trên A100, tự diagnose khi reward collapse. Từ Qwen3-1.7B nâng GPQA 10% → 32% trong <10 giờ — Claude Code best chỉ 22.99%. Beat Codex trên HealthBench 60% bằng synthetic data nó tự sinh.

ml-internhugging-faceai-agent
7 phút đọc
#2912025-07-21

35x nhanh hơn: KV cache + INT8 quantization trong transformer viết từ đầu bằng Rust + CUDA

Reese Chong tăng throughput inference từ 0.76 lên 27.29 tok/s và cắt 3.78 lần bộ nhớ KV cache — toàn bộ dựng tay trong Rust + CUDA, không đụng PyTorch hay cuBLAS.

kv-cacheint8-quantizationrust
7 phút đọc
#2842025-07-18

Claude Code /ultrareview: 5 Agents Hunt Bugs In The Cloud, Human Triage Drops To 1%

Anthropic's new /ultrareview slash command spawns up to 20 parallel agents in a cloud sandbox, runs Find → Verify → Dedup, and returns bugs with under 1% false positives. Pro/Max get 3 free runs. Here's what it catches, what it costs, and when to use it over /review.

claude-codecode-reviewultrareview
7 phút đọc
#2832025-07-17

Ollama kimi-k2.6:cloud crushes OpenRouter providers on throughput — field numbers inside

A hobbyist benchmark of three runs against Ollama's kimi-k2.6:cloud clocked 77–114 tok/s with sub-1.2s TTFT, leaving every OpenRouter provider (Parasail, Moonshot, NovitaAI, Cloudflare) in the dust. Caveats, context, and what the numbers actually mean.

kimi-k2-6ollamaopenrouter
5 phút đọc
#2652025-07-08

Maximal Brain Damage: 2 Bit-Flips Can Wipe Out ResNet-50 and Qwen3-30B

Researchers from NVIDIA, Technion and IBM introduce Deep Neural Lesion (DNL) — a data-free, optimization-free attack that flips just 1–2 sign bits to drop ResNet-50 accuracy by 99.8% and crush Qwen3-30B reasoning from 78% to 0%.

deep-neural-lesionbit-flip-attackai-security
7 phút đọc
#2612025-07-06

GEPA kéo Haiku 4.5 từ 65% lên 85% pass rate — tune CLAUDE.md tự động, không đổi model

GEPA (ICLR 2026 Oral) dùng LLM đọc execution trace để tự đề xuất sửa prompt, kéo Claude Haiku 4.5 từ 65% lên 85% pass rate chỉ bằng cách optimize file CLAUDE.md — không swap model, không fine-tune, dùng 35× ít rollouts hơn RL.

gepaclaude-haiku-4-5prompt-optimization
7 phút đọc
#2572025-07-04

DFlash cho Qwen3.6-35B-A3B chính thức GA: speculative decoding 2.9× nhanh hơn, drafter chỉ 0.5B tham số

Z Lab vừa release bản final DFlash drafter cho Qwen3.6-35B-A3B — block diffusion 0.5B params đạt 2.9× speedup trên Math500, vượt EAGLE-3 hơn 2.5×. Cộng đồng đã chạy preview từ trước khi training xong, giờ weights chính thức finalized.

dflashqwen3-6speculative-decoding
7 phút đọc
dots.ocr: A 1.7B Vision-Language Model That Beats GPT-4o at Document Parsing
#2552025-07-03

dots.ocr: A 1.7B Vision-Language Model That Beats GPT-4o at Document Parsing

rednote-hilab's dots.ocr packs SOTA OmniDocBench performance into a 1.7B-parameter VLM, outperforming Qwen2-VL-72B and GPT-4o on key OCR benchmarks while running on a single GPU.

dots-ocrvision-language-modeldocument-parsing
7 phút đọc