Tất cả bài viết

// Popular Articles

#8632026-04-25

ChatGPT 5.5: Người Mới Bắt Đầu cần lưu ý gì

GPT-5.5 ra mắt ngày 23/4/2026, leo thẳng lên #1 Artificial Analysis Intelligence Index chỉ trong 24 giờ với điểm 60. Terminal-Bench 2.0 đạt 82.7%, vượt Claude Opus 4.7 hơn 13 điểm - và tiết kiệm 40% token so với GPT-5.4. Images 2.0 tạo ảnh 2K native, 8 ảnh/prompt, render chữ đa ngôn ngữ. Codex desktop app có 90+ plugin và khả năng tự lên lịch task dài hạn.

chatgptgpt-5-5openai

8 phút đọc

#8612026-04-25

Perplexity dùng GPT-5.5 giảm 56% token và build nội bộ dưới 1 giờ: bằng chứng thực tế đầu tiên của thế hệ Codex mới

OpenAI công bố GPT-5.5 vào 23/04/2026 — lần retrain nền đầu tiên kể từ GPT-4.5. Perplexity là khách hàng đầu tiên lên tiếng với hai con số đáng chú ý: dựng xong một công cụ nội bộ trong chưa đầy 1 giờ và cắt 56% token trên cùng tác vụ phức tạp trong Perplexity Computer. Cộng với benchmark Terminal-Bench 82.7%, đây là bằng chứng cụ thể nhất cho lời hứa agentic coding của OpenAI.

gpt-5-5openaicodex

6 phút đọc

Featured#8542026-04-22

Codex + gpt-image-2: workflow viết PRD → vẽ UI → code SwiftUI "god-tier fidelity"

OpenAI vừa ra gpt-image-2 (21/4/2026) với reasoning, multilingual text 99%, batch 10 ảnh, +242 Elo trên Arena. Cộng đồng dev đã tìm ra recipe: Codex viết PRD → gọi gpt-image-2 vẽ UI mockup → Codex implement SwiftUI dựa trên ảnh đó. Kết quả: fidelity từ spec → code chưa từng thấy.

gpt-image-2openai-codexswiftui

7 phút đọc

#8532026-04-20

Mind DeepResearch 30B của Li Auto vượt Gemini 3.1 trên benchmark deep research

MindDR — multi-agent deep research framework chỉ ~30B tham số do Li Auto phát triển — đạt RACE 51.8 trên MindDR Bench, vượt cả Gemini 3.1 và Gemini 2.5 Pro. Bí quyết: 3 agent chuyên biệt + pipeline training 4 stage, chỉ tốn ~6,000 GPU card-hours.

mind-deepresearchli-autodeep-research-agent

7 phút đọc

#8472026-04-18

Huihui4-8B-A4B: cắt 96 expert khỏi Gemma 4 mà perplexity vẫn đẹp hơn bản gốc

huihui-ai vừa thả Huihui4-8B-A4B — bản MoE rút gọn của Gemma-4-26B-A4B-it: pruning 128 → 32 expert, SFT 10.900 step, perplexity 1.0035 (đánh bại base 1.5964). Fit gọn dưới 18GB VRAM FP16, 6–9GB INT4. Apache 2.0, chạy được Ollama một dòng.

huihui4gemma-4moe

6 phút đọc

#8382026-04-14

E2E test bằng tiếng Anh tự nhiên: cách bắt bug hiển thị 3.4 triệu thay vì 34 triệu dân

Hầu hết E2E test chỉ kiểm tra trang có render hay không, chứ không kiểm tra số liệu có đúng hay không. Lee Ren Jie (Tech With RJ) demo cách dùng Passmark + Claude + Gemini viết assertion bằng tiếng Anh để catch data bug mà selector test bỏ sót — qua case test 3 portal open-data của Malaysia.

e2e-testingplaywrightai-testing

7 phút đọc

#8272026-04-09

Ouroboros: dạy mô hình nhỏ "suy nghĩ sâu" bằng cách lặp một lớp với hypernetwork

Mô hình lớn reason giỏi vì sâu — 70B có 80 lớp, mỗi lớp làm một việc khác nhau. Ouroboros (RightNow AI, arXiv 2604.02051) chứng minh mô hình nhỏ có thể bắt chước điều đó: lặp một lớp duy nhất nhiều lần, nhưng có hypernetwork 0.7M tham số sinh weight modification khác nhau cho từng vòng lặp. Kết quả trên Qwen2.5-3B cắt từ 36 còn 17 lớp: giảm 43.4% training loss, recover 51% gap, chỉ thêm 9.2M params (0.6%).

ouroboroslooped-transformerrecursive-transformer

7 phút đọc

#8172026-04-05

DeepSeek V4 Pro tự giải 4 challenge bảo mật expert-level chỉ với $6.84

Một developer chạy DeepSeek V4 Pro autonomous trên 3 lab PortSwigger + 1 Android app thật — 412 tool calls, 4 hạng mục bảo mật khác nhau, được Claude Opus 4.7 review độc lập. Tổng chi phí cả ngày: $6.84.

deepseek-v4-proai-agentsecurity

7 phút đọc

#8092026-04-02

Gemma 4 ra mắt: 4 kích cỡ, chạy từ Raspberry Pi đến H100, đánh bại mô hình mở gấp 20 lần

Google DeepMind tung Gemma 4 ngày 2/4/2026 dưới giấy phép Apache 2.0. Bốn mô hình E2B/E4B/26B MoE/31B Dense xếp hạng #3 và #6 trên Arena AI, chạy offline trên điện thoại, laptop và workstation.

6 phút đọc

#8042026-03-31

Qwen 3.6 nghĩ quá lâu — cú hack grammar cắt 22× token think mà không mất accuracy

Một dev trên X áp grammar nhỏ vào block <think> của Qwen 3.6: HumanEval+ giảm 22× token think, accuracy giữ nguyên; LiveCodeBench public +14% pass@1 với 5× ít token. Pure inference-time, không train lại, không đụng weights.

qwen-3-6local-llmgrammar-constrained-decoding

7 phút đọc