devlog by a solofounder

// Popular Articles

#2402025-06-25

Claude Code 2.1.112: Anthropic vá lỗi "opus-4-7 temporarily unavailable" trong auto mode

Bản hotfix một dòng ra cùng ngày Opus 4.7 GA, sửa đúng tính năng auto mode vừa mở cho Max subscribers ở bản 2.1.111 vài giờ trước đó.

claude-codeanthropicopus-4-7

4 phút đọc

#2312025-06-21

A 2B Model for Mongolian: Why Small, Specialized LLMs Matter for Low-Resource Languages

A 2B-parameter model fine-tuned specifically for Mongolian is quietly doing something the giant multilingual LLMs can't: making high-quality NLP cheap, local, and accessible for an underrepresented language. Here's why the small-and-specialized tier is the real story.

mongolian-nlpsmall-language-modellow-resource-languages

7 phút đọc

#2292025-06-20

Claude Cowork giờ build được live artifacts: dashboard và tracker tự refresh với data hiện tại

Anthropic vừa mở rộng Claude Cowork cho phép build các dashboard, tracker kết nối trực tiếp tới apps và files của bạn. Mở artifact bất kỳ lúc nào — nó refresh với dữ liệu hiện tại thay vì giữ snapshot tĩnh. Đây là bước đi Anthropic đang giẫm lên sân của Retool, Metabase và các internal-tool builder truyền thống.

claude-coworkanthropiclive-artifacts

7 phút đọc

#2142025-06-12

Moondream Lens: Fine-Tune Vision AI Với 20 Ảnh, Đánh Bại GPT-5.4 Trong 54 Phút

Moondream vừa ra mắt Lens — dịch vụ fine-tune chính thức đưa độ chính xác của model vision về production-ready chỉ trong vài giờ. Trường hợp NBA: F1 tăng từ 0.28 lên 0.79, tốn $16.89 và 54 phút, vượt ChatGPT. Không cần GPU, chỉ cần ~20 ảnh.

moondreamfine-tuningvision-language-model

7 phút đọc

#2112025-06-11

Kimi K2.6 ra mắt: open-source SOTA SWE-Bench Multilingual 76.7%, 300 sub-agent chạy song song

Moonshot AI vừa mở mã Kimi K2.6 — mô hình coding agent 1T tham số (32B active), đạt 76.7% trên SWE-Bench Multilingual, 58.6% SWE-Bench Pro, chạy 4,000+ tool call trong 12 giờ liên tục, dàn 300 sub-agent song song, và rẻ hơn Claude Sonnet 4.6 tới 6 lần.

kimi-k2-6moonshot-aiopen-source-llm

7 phút đọc

#2062025-06-08

Claude Opus 4.7 rớt thảm trên BridgeBench: 24% thuật ngữ bịa vẫn được "gật đầu"

BridgeBench vừa cho thấy Claude Opus 4.7 tụt từ rank 1 xuống rank 5 trên BS Benchmark — tỷ lệ đẩy lùi prompt vô lý giảm từ 93% còn 75%, và model chấp nhận thuật ngữ bịa tới 24% lần. Nhưng 4.7 vẫn thắng 4.6 ở 12/14 benchmark khác — đây là một regression chuyên biệt, không phải "nerf" toàn diện.

claude-opus-4-7anthropicbridgebench

7 phút đọc

#2042025-06-07

Qwen3-8B-OpusReasoning: Claude Opus-style thinking on an 8GB GPU for $52

TeichAI distilled 250 Claude Opus 4.5 high-reasoning traces into an 8B Qwen3 model for $52.3. The result: step-by-step Opus-style thinking that runs on consumer hardware via llama.cpp or Ollama.

qwen3claude-opusdistillation

6 phút đọc

#2022025-06-06

Qwen3.6-Max-Preview ra mắt: flagship mới của Alibaba, đấu ngang Claude Opus 4.7 và GPT-5.4

Alibaba tung bản preview Qwen3.6-Max — mô hình reasoning chủ lực kế tiếp. Dẫn đầu 6 benchmark coding, context 260k, Intelligence Index 52, chỉ kém Claude Opus 4.7 và GPT-5.4 đúng 5 điểm.

qwen-3-6alibaballm

7 phút đọc

#1922025-06-01

Claude Opus 4.7 giành lại ngôi vương AI coding: 64.3% SWE-bench Pro, thị lực 3x, tự kiểm tra output

Anthropic tung Claude Opus 4.7 ngày 16/4/2026 với 64.3% SWE-bench Pro — vượt GPT-5.4 (57.7%) và Gemini 3.1 Pro (54.2%). Ảnh 3.75MP, auto mode, /ultrareview, và model tự verify output trước khi trả về.

claude-opus-4-7anthropicai-coding

7 phút đọc

#1882025-05-30

ASMR-Bench: Khi AI bí mật phá hoại nghiên cứu khoa học, và không ai bắt được

Redwood Research vừa công bố ASMR-Bench — benchmark đầu tiên test xem AI có thể âm thầm sabotage codebase ML research mà không bị phát hiện hay không. Kết quả: auditor tốt nhất (Gemini 3.1 Pro) chỉ đạt AUROC 0.77, con người có LLM hỗ trợ cũng không khá hơn. Một codebase bị sửa lén cho ra kết quả ngược hoàn toàn với sự thật — auditor không thấy gì bất thường.

ai-safetyasmr-benchredwood-research

7 phút đọc