Đổ về Shenzhen làm AI - P2: Claude Code vs Codex, chọn cái nào?

TL;DR

Claude Code mạnh hơn ở code quality phức tạp (SWE-bench 87.6%); Codex hiệu quả hơn 4 lần về token và mạnh hơn ở terminal/CLI task (Terminal-Bench 77.3%).
Pricing hai bên giống hệt nhau: 20 - 100 - 200 USD/tháng. Không có lý do phải chọn một.
Strategy tối ưu cho indie hacker: Claude Pro 20 USD + ChatGPT Plus 20 USD = 40 USD/tháng. Dùng Claude Code cho refactor sâu, Codex cho batch ticket song song.

Hai công cụ, hai triết lý thiết kế hoàn toàn khác nhau

Nhìn từ bên ngoài, Claude Code và Codex trông giống nhau: đều là AI coding agent, đều cần subscription, đều có thể tự động viết và sửa code. Nhưng architecture của hai công cụ này khác nhau ở mức triết học - và điều đó quyết định bạn nên dùng cái nào cho tác vụ gì.

Claude Code của Anthropic được thiết kế với nguyên tắc: 98.4% là infrastructure xác định (deterministic), chỉ 1.6% là AI decision logic. Điều này có nghĩa là hành vi của nó có thể dự đoán được, kiểm soát được, và version-control được. Công cụ trung tâm là file CLAUDE.md - một file instruction nằm trong repo, được Git theo dõi cùng với code, tự động đọc mỗi khi session bắt đầu. Bạn có thể diff nó, review nó, rollback nó. Claude Code là terminal-native: nó sống trong CLI của bạn, hiểu toàn bộ codebase địa phương, và thực hiện thay đổi trực tiếp trên máy.

Codex của OpenAI đi theo hướng ngược lại: desktop super-app với cloud sandbox. Kiến trúc đặc trưng là Manager agent điều phối tối đa 6 subagent chạy song song, mỗi agent trong một git worktree riêng biệt - không can thiệp vào nhau. Tháng 4/2026, Codex ra mắt tính năng Computer Use trên macOS: AI có thể thực sự nhìn màn hình của bạn, click chuột, gõ phím vào ứng dụng native. Đây là thứ Claude Code hoàn toàn không có.

Một câu tóm gọn: Claude Code là "hiểu sâu codebase của bạn", Codex là "trở thành entry point cho toàn bộ toolchain của bạn".

So sánh benchmark: số liệu nói gì?

Benchmark	Claude Code (Opus 4.7)	Codex (GPT-5.3)	Đo lường gì
SWE-bench Verified	87.6%	85.0%	Sửa bug GitHub thực tế
Terminal-Bench 2.0	65.4%	77.3%	CLI task, script execution
Token (cùng task)	~6.2M tokens	~1.5M tokens	Hiệu quả chi phí

Lưu ý: SWE-bench và Terminal-Bench là self-reported từ công ty. OpenAI đã đặt câu hỏi về độ tin cậy của SWE-bench Verified đầu 2026 và đề xuất dùng SWE-bench Pro thay thế. Nên chạy test với task thực tế trong codebase của bạn trước khi quyết định.

Khoảng cách 2.6% trên SWE-bench nghe nhỏ, nhưng SWE-bench đo binary outcome (sửa được/không sửa được). Trong thực tế, code readability và architectural soundness quan trọng không kém. Developer report nhất quán rằng Claude Code cho kết quả tốt hơn rõ rệt ở complex refactoring và multi-file change.

Khoảng cách token efficiency 4x là quan trọng hơn nhiều về mặt tài chính: cùng 20 USD/tháng, Codex có thể hoàn thành nhiều hơn khoảng 4 lần số agentic task trước khi hết quota. Nhưng nếu Claude Code cần ít lần back-and-forth hơn vì chất lượng code cao hơn, con số thực tế có thể cân bằng hơn.

Pricing: hai bên đang copy nhau

Tier	Anthropic (Claude Code)	OpenAI (Codex)
Entry	Claude Pro: 20 USD/tháng	ChatGPT Plus: 20 USD/tháng
Mid	Claude Max 5x: 100 USD/tháng	ChatGPT Pro: 100 USD/tháng
Top	Claude Max 20x: 200 USD/tháng	ChatGPT Pro 20x: 200 USD/tháng

Pricing này không phải ngẫu nhiên - OpenAI ra mắt tier 100 USD vào ngày 9/4/2026 để match Claude Max 5x của Anthropic. Đây là dấu hiệu cả hai công ty đang nhìn nhau rất chặt. Bonus: qua ngày 31/5/2026, plan 100 USD của Codex được tạm thời boost lên 10x Plus thay vì 5x.

Quan trọng: vì Codex hiệu quả token hơn 4 lần, người dùng ChatGPT Plus 20 USD có thể hoàn thành nhiều agentic task hơn đáng kể so với Claude Pro 20 USD trước khi chạm rate limit.

Khi nào dùng cái nào?

Chọn Claude Code khi:

Refactor codebase lớn, thay đổi nhiều file liên quan đến nhau
Bạn không phải engineer (designer, PM) build SaaS - CLAUDE.md cho phép viết rule bằng ngôn ngữ tự nhiên, không cần hiểu plugin API
Cần Ultraplan: phân tích architecture sâu trên cloud, review diff qua browser, mở PR trực tiếp không cần mở terminal
Codebase lớn hơn 50.000 dòng - khoảng cách 2.6% SWE-bench trở nên rõ ràng hơn

Chọn Codex khi:

Freelancing với nhiều client: dispatch 6 subagent song song xử lý independent ticket cùng lúc
Phát triển native iOS/macOS app: Computer Use cho phép iterate UI bằng cách click thực tế trong Xcode simulator
Legacy app hoặc internal tool không có API: thay thế Selenium script bằng AI agent thật sự
Task nhỏ, isolated, cần tốc độ: sửa CSS, patch endpoint, fix bug cụ thể

Hạn chế cần biết trước khi quyết định

Codex Computer Use: tính năng ấn tượng nhất của Codex tháng 4/2026 nhưng đi kèm nhiều giới hạn. Chỉ hoạt động trên macOS (không có Windows, không có Linux). In-app browser chỉ có thể truy cập localhost - không phải trang web ngoài. Bị block hoàn toàn ở EU, Anh, và Thụy Sĩ. Mỗi ảnh chụp màn hình tốn token gấp 3-5 lần thao tác text thông thường.

Claude Code: không có Computer Use, không click GUI được. Terminal-only. Ultraplan vẫn đang trong research preview - cần Claude Pro hoặc Max, phiên bản Claude Code mới nhất, và GitHub App đã cài.

Cả hai: benchmark là self-reported, chưa được bên thứ ba xác minh độc lập. Memory của Codex vẫn trong preview (tháng 4/2026), chưa có thông tin công khai về reliability. CLAUDE.md của Claude Code là Git artifact - có thể diff và review; memory của Codex thì không.

Token efficiency comparison: Claude Code 6.2M vs Codex 1.5M tokens cho cùng task

Strategy 40 USD/tháng: sweet spot cho indie hacker

Đây là công thức được nhiều developer report là hiệu quả nhất sau khi test cả hai:

Claude Pro 20 USD: dùng cho task cần hiểu sâu - refactor, architecture planning, multi-file change, Ultraplan
ChatGPT Plus 20 USD: Codex included - dùng cho isolated ticket, parallel execution, batch PR

Tổng: 40 USD/tháng. Bạn nhận được chất lượng cao nhất cho task phức tạp (Claude Code) và tốc độ cao nhất cho task nhỏ (Codex). Không cần chọn một, không bỏ lỡ thế mạnh của bên nào.

Nếu bạn là freelancer full-stack với codebase client trên 50.000 dòng, nâng lên Claude Max 100 USD + ChatGPT Plus 20 USD = 120 USD/tháng - khoảng cách code quality trở nên đáng tiền hơn ở scale đó.

Kết: không phải cuộc chiến, là sự bổ sung

Claude Code và Codex không cạnh tranh để xem cái nào tốt hơn - chúng giải quyết các vấn đề khác nhau. Cố tình chọn một trong hai là bỏ lỡ một nửa sức mạnh của AI coding hiện tại.

Tweet 3 bước của @FakeMaidenMaker liệt kê "Claude Code + Codex" như một cặp - không phải một trong hai. Đó là chi tiết đáng chú ý nhất. Developer giỏi ở Shenzhen không bị kẹt trong cuộc tranh luận "tool nào tốt hơn" - họ dùng cả hai cho đúng việc.

40 USD/tháng. Hai tool. Bắt đầu từ đây.

Xem lại P1: Bộ công cụ thiết yếu - Mac, HomeBrew, Obsidian