TL;DR

BridgeBench vừa công bố: trên BS Benchmark (đo khả năng đẩy lùi yêu cầu vô lý), Claude Opus 4.7 tụt từ rank 1 xuống rank 5 — điểm rơi từ 95.0 xuống 75.5. Tỷ lệ "đẩy lùi" (pushback) giảm từ 93% còn 75%. Nghiêm trọng hơn: Opus 4.7 chấp nhận thuật ngữ bịa (made-up jargon) tới 24% số lần hỏi, so với chỉ 3% ở 4.6. Nhưng bức tranh không đơn giản: Opus 4.7 thắng 4.6 ở 12/14 benchmark khác, và trên hallucination v2 chặt chẽ hơn thì 4.7 vẫn hơn 4.6. Đây là một regression chuyên biệt, không phải mô hình bị "nerf" toàn diện.

Chuyện gì vừa xảy ra

Ngày 16/04/2026, Anthropic phát hành Claude Opus 4.7 với điểm SWE-bench Verified nhảy lên 87.6% và vision reasoning tăng 13 điểm. Chỉ vài ngày sau, tài khoản @bridgebench đăng kết quả BS Benchmark mới: Opus 4.7 tụt 19.5 điểm so với 4.6 — bài đăng này lập tức viral với tiêu đề "Anthropic nerfed pushback".

BS Benchmark — gọi đùa là "Bullshit Benchmark" — đo xem model có chịu phản biện khi gặp yêu cầu vô nghĩa, thuật ngữ bịa đặt, hay context sai lệch, hay là gật đầu cho qua và tự bịa ra lời giải thích. Trên bảng xếp hạng này, Opus 4.6 từng là vua, nhưng 4.7 giờ đứng sau GPT-5.4 Pro, Gemini 3.1 Pro và cả các model nhỏ hơn.

Vì sao đáng quan tâm

Pushback là kỹ năng sinh tồn của một trợ lý AI. Một model "dễ tính" sẽ: chấp nhận tên hàm không tồn tại, giải thích thuật ngữ bạn mới bịa, hợp lý hóa bug thay vì chỉ ra, và nối dài chuỗi hallucination trong agent pipeline. Nếu team bạn đang dùng Claude Code để review code, debug, hay làm security audit, một sụt giảm từ 93% → 75% pushback nghĩa là cứ 4 prompt xấu thì 1 lọt lưới thay vì 1/15.

Điều này đồng thời khớp với một pattern dài hơn: phân tích 6.852 phiên Claude Code cho thấy reasoning depth đã giảm ~67% vào cuối tháng 2/2026, sau khi Anthropic bật "adaptive thinking" với mặc định medium thay vì max. Nghi ngờ "nerf" không phải mới.

Số liệu chi tiết

Chỉ số (BS Benchmark)Opus 4.6Opus 4.7Chênh lệch
Score95.075.5-19.5
Rank15-4
Pushback rate93.0%75.0%-18 điểm
Chấp nhận jargon bịa3%24%+21 điểm (~8x)

Nguồn dữ liệu: bridgebench.ai. Đây là benchmark single-run, không kèm variance nhiều lần chạy — một chi tiết quan trọng ở phần Limitations.

Opus 4.7 không tệ — nhưng có điểm chết

Theo phân tích của Vellum AI, Opus 4.7 thực tế thắng 4.6 ở 12/14 benchmark chính:

  • SWE-bench Verified: 87.6% (từ 80.8%)
  • SWE-bench Pro: 64.3% (từ 53.4%) — vượt GPT-5.4 và Gemini
  • MCP-Atlas tool use: 77.3% — best-in-class
  • OSWorld computer use: 78.0% (từ 72.7%)
  • CharXiv vision: 82.1% (từ 69.1%), hỗ trợ ảnh tới ~3.75 megapixel
  • Finance Agent: 64.4% — dẫn đầu toàn bảng

Các điểm chết gồm: BrowseComp (agentic web search) -4.4 điểm về 79.3%, thua GPT-5.4 Pro và Gemini 3.1 Pro; và giờ là BS Benchmark -19.5 điểm. Ngược lại, trên Hallucination v2 (30 tasks, verify bằng code execution), 4.7 lại cao hơn 4.6 (rank 4 vs 12) — cho thấy fabrication khi phân tích code cũ thực sự giảm.

Ai nên lo, ai không

Nên lo: team làm code review, security audit, debugging agent, RAG với retrieved context nhiễu, hoặc bất kỳ pipeline nào dựa vào Claude để từ chối input xấu thay vì xử lý. Với tỷ lệ chấp nhận jargon bịa 24%, downstream hallucination sẽ cộng dồn.

Không phải lo (nhiều): multi-language coders, agent làm tool orchestration, computer-use, vision/UI-heavy workflow — những chỗ 4.7 mạnh hơn rõ rệt. Nếu workload của bạn là coding thuần và tool use, upgrade là xứng.

Hạn chế & giá

BS Benchmark là single-run, không có variance data giữa nhiều lần chạy. LLM không deterministic — một khoảng -19.5 điểm có thể bao gồm cả sampling variance. BridgeBench từng gặp scandal phương pháp trước đó: bài viral tháng 3/2026 về Opus 4.6 bị critic Paul Calcraft gọi là "incredibly bad science" vì so sánh 6 tasks với 30 tasks. Rule ngón tay cái: chờ per-task breakdown + repeated trials trước khi tin 100%.

Giá Opus 4.7 không đổi: $5/M input token, $25/M output token.

Tiếp theo

Ba thứ đáng theo dõi trong vài tuần tới:

  1. BridgeBench có công bố methodology chi tiết + variance nhiều lần chạy không.
  2. Anthropic có phản hồi công khai hay lặng lẽ patch system prompt không (như các lần trước).
  3. Replication độc lập từ các benchmark pushback khác (HumanEval-style prompt injection, adversarial reasoning) — nếu cùng cho kết quả giảm, thì regression là thật chứ không phải noise.

Trong lúc chờ: nếu product của bạn dựa vào khả năng "chỉ ra khi user sai", hãy pin version claude-opus-4-6 thêm vài tuần và set up A/B test giữa 4.6 và 4.7 trên tập prompt "bịa" của chính team bạn. Đừng tin benchmark của ai khác — benchmark của bạn mới quan trọng.

Nguồn: @bridgebench on X, bridgebench.ai, Vellum AI, Yahoo Tech, Hacker News.