TL;DR

Một dev có nickname @injaneity đã reverse-engineer tính năng Computer Use mới của OpenAI Codex và công bố pi-computer-use — gói open-source (MIT) cắm vào pi coding agent của Mario Zechner (badlogic). Khác biệt lớn nhất so với bản của OpenAI: model-agnostic. Bạn chọn Claude, Gemini, Llama hay một model local chạy vLLM đều được, vẫn giữ cách tiếp cận accessibility-first (đọc AX tree của macOS) với vision fallback khi cần.

Chuyện gì mới

OpenAI mới thêm Computer Use vào Codex app cho macOS — cho agent xem màn hình, click, gõ phím qua tổ hợp Accessibility + Screen Recording. Điểm khiến giới review (MacStories, roborhythms) ấn tượng là Codex không chỉ screenshot rồi đoán toạ độ như Claude Computer Use hay Perplexity Personal Computer. Nó đọc accessibility hierarchy của từng cửa sổ — cây UI mà VoiceOver dùng — để hiểu cấu trúc app trước khi hành động. Công nghệ đó đến từ đội Sky for Mac mà OpenAI mua lại.

@injaneity quan sát cách plugin Codex hoạt động, tái hiện lại bằng một native helper viết Swift, rồi gói thành extension + skill cho framework pi. Kết quả: bất cứ ai đang chạy pi coding agent đều có thể pi install npm:pi-computer-use và có sẵn một bộ tool điều khiển macOS theo style Codex, không phụ thuộc app Codex của OpenAI.

Tại sao quan trọng

Đây là lần đầu có implementation open-source công khai cho cách tiếp cận AX-first trên macOS — thứ trước đây chỉ có trong sản phẩm đóng của OpenAI. Quan trọng hơn, Codex Computer Use hiện chỉ chạy được với GPT-5.3 / GPT-5.4 Codexkhông khả dụng ở EU, UK, Thụy Sĩ. Gói của @injaneity tháo bỏ cả hai rào cản: chọn model tuỳ ý, dùng ở đâu cũng được, source code mở cho cộng đồng đọc và góp ý.

Chi tiết kỹ thuật

Thuộc tínhGiá trị
LicenseMIT
StackTypeScript ~65%, Swift ~30%, JavaScript ~5%
OSmacOS 15 trở lên
Node20.6+
Host framework@mariozechner/pi-coding-agent
PermissionsAccessibility + Screen Recording

Gói expose 9 tool cho agent: screenshot, click, double_click, move_mouse, drag, scroll, type_text, keypress, wait. Flow mặc định: chụp màn hình để agent chọn cửa sổ đích → thực thi action → trả screenshot mới làm context cho bước sau. Khi AX tree đủ thông tin, agent dùng element ID thay vì toạ độ pixel — giống Codex, giúp click chính xác hơn hẳn cách screenshot-only.

So với Codex Computer Use gốc

Tiêu chíOpenAI Codex CUpi-computer-use
Model hỗ trợGPT-5.3 / 5.4 CodexBất kỳ LLM nào pi hỗ trợ
SourceClosed, bundle trong Codex appMIT open-source
Cách tiếp cậnAX-first + visionAX-first + vision fallback
Host appCodex app macOSpi CLI
Khu vựcKhông EU / UK / SwitzerlandToàn cầu
Chi phíGói OpenAIMiễn phí, BYO API key

Dùng cho việc gì

  • Chạy automation GUI trên macOS với model bạn thích — Claude Sonnet, Gemini 2, Llama local qua vLLM pods của pi đều được.
  • Test native app, reproduce bug chỉ xảy ra trên UI, chỉnh setting low-risk.
  • Workflow với app cũ không có API (design tool, legacy utility) — đúng kịch bản Codex CU nhắm tới.
  • Thử nghiệm behaviour computer-use mà không phải cài Codex app của OpenAI hay nằm trong vùng khả dụng.

Giới hạn & giá

  • macOS-only. Không có bản Linux / Windows, và cần macOS 15+ để API accessibility mới hoạt động ổn.
  • Phải cấp Accessibility + Screen Recording cho Swift helper — cùng rào cản security như Codex CU.
  • Chất lượng vision fallback phụ thuộc model bạn chọn. Model không có vision tốt → rơi vào vùng yếu của fallback.
  • Không tự authenticate admin action (ví dụ sudo prompt) — giống Codex CU.
  • Miễn phí, chi phí thực tế là API bạn gắn vào pi.

Tiếp theo

Tác giả chủ động xin feedback trong tweet, link source code công khai. Ecosystem pi của badlogic đang lớn nhanh (coding-agent, pi-skills, pi-pods cho vLLM) nên computer-use khá phù hợp slot vào như một skill chia sẻ qua npm. Đáng theo dõi: tốc độ parity khi OpenAI tiếp tục iterate Codex CU — AX API trên macOS tương đối ổn định, phần lớn khác biệt sẽ nằm ở cách xử lý vision fallback và heuristic chọn target.

Nguồn: tweet gốc của @injaneity, GitHub pi-computer-use, OpenAI Codex docs, MacStories review.