TL;DR
Ghost OS là một MCP server mã nguồn mở (MIT, ~7.000 dòng Swift + Python sidecar) cho phép bất kỳ AI agent tương thích MCP — Claude Code, Cursor, VS Code — điều khiển toàn bộ macOS như con người. Khác biệt cốt lõi: nó đọc accessibility tree của macOS chứ không phân tích screenshot, nhanh hơn 6–60 lần và chính xác hơn pixel-based agent. Đi kèm là cơ chế self-learning recipes: bạn demo workflow một lần, hệ thống lưu lại thành JSON parameterized và replay mãi mãi.

What's new
Tom Doerr vừa highlight Ghost OS trên X như một trong những mảnh ghép nghiêm túc nhất cho hướng computer-use hiện nay. Repo chính thức của Ghostwright công bố v2.2.1 (3/2026) với 1.4k+ stars, 120 forks và 86 commits. Dòng mô tả gốc rất đơn giản: "Full computer-use for AI agents. Self-learning workflows. Native macOS. No screenshots required."
Điểm khiến cộng đồng chú ý không phải tốc độ chạy nhanh, mà là cách Ghost OS định nghĩa lại bài toán: thay vì để model nhìn pixel và đoán, nó đưa cấu trúc app vào prompt dưới dạng dữ liệu có nhãn — button nào, text-field nào, link nào, role là gì.
Why it matters
Hai cách tiếp cận computer-use hiện hành — Anthropic Computer Use và OpenAI Operator — đều dựa vào screenshot. Cách đó đẹp về mặt khái niệm (giống cách con người nhìn) nhưng vướng 3 vấn đề thực tế: chậm (3 giây/inference), thiếu chính xác trên UI dày, và đẩy dữ liệu ra cloud.
Ghost OS đi đường khác:
- Accessibility tree đã có sẵn trong macOS — Apple đã trả tiền build cho gần 20 năm vì lý do trợ năng. Tận dụng lại = miễn phí và chính xác.
- 50–500ms mỗi truy vấn AX-tree, so với ~3s mỗi inference vision — nhanh hơn ít nhất 6 lần.
- Local-first: dữ liệu màn hình không rời máy. Vision fallback (ShowUI-2B) chạy trên MLX/Apple Silicon.
Technical facts
29 MCP tool chia thành 7 nhóm:
| Nhóm | Tool tiêu biểu | Mục đích |
|---|---|---|
| Perceive | ghost_context, ghost_state, ghost_find, ghost_read, ghost_inspect, ghost_screenshot, ghost_annotate | Đọc trạng thái UI từ AX-tree |
| Act | ghost_click, ghost_type, ghost_hover, ghost_drag, ghost_long_press | Sinh input tổng hợp qua CGEvent |
| Navigate | ghost_scroll, ghost_press, ghost_hotkey | Phím tắt và cuộn |
| Windows | ghost_window, ghost_focus | Quản lý cửa sổ và focus |
| Recipes | ghost_recipes, ghost_run, ghost_recipe_save/show/delete | Lưu & replay workflow |
| Learn | ghost_learn_start/stop/status | Quan sát người dùng để dạy agent |
| Vision | ghost_ground, ghost_parse_screen, ghost_element_at | Fallback ShowUI-2B cho web app |
Tech stack: Swift 92,1% + Python 5,9% + Shell 2%. Dựa trên engine accessibility AXorcist, ghi input qua CGEvent tap, vision sidecar chạy ShowUI-2B (~3GB) qua MLX. Cài đặt 1 lệnh: brew install ghostwright/ghost-os/ghost-os rồi ghost setup — tổng ~60 giây.
Comparison
| Aspect | Ghost OS | Anthropic Computer Use | OpenAI Operator |
|---|---|---|---|
| Detection | AX-tree + local vision | Screenshots | Screenshots |
| Native app | Mọi app macOS | Hạn chế (VM) | Chỉ browser |
| Self-learning | Recipes JSON | Không | Không |
| Privacy | 100% local | Cloud | Cloud |
| Latency | 50–500ms | ~giây | ~giây |
| License | MIT (free) | Paid API | Paid (Pro) |
Use cases
- Email automation: agent mở Gmail/Mail, soạn nội dung, gửi — không cần API key SMTP.
- Cross-app orchestration: Finder → Preview → Slack trong một workflow.
- Coding loop: chạy build trong Xcode, copy log, paste sang Messages cho teammate.
- Self-recorded recipes: dùng tay làm task 1 lần, agent watch qua AX-tree + CGEvent tap, Claude tổng hợp thành JSON parameterized — lần sau small model tự replay.
- Audit-friendly automation: mọi step lưu JSON, đội compliance đọc được, không cần reverse-engineer model.
Limitations & pricing
- Pricing: free, MIT (vài thành phần Apache 2.0).
- Yêu cầu: macOS 14+ (Sonoma), Apple Silicon, cấp quyền Accessibility + Screen Recording + Input Monitoring, Swift 6.2+ nếu build từ source.
- Hạn chế: chỉ macOS — chưa có Windows/Linux. ShowUI-2B nặng ~3GB. Web app dày JS có thể phải dựa Chrome DevTools Protocol fallback. Một số app dựng UI custom (Electron app cũ, Figma) có AX-tree không đầy đủ → vision phải vào cuộc, mất tốc độ.
What's next
Ghost OS chỉ là một trong ba dự án mở của Ghostwright. Hai mảnh còn lại đang định hình một "agent OS" hoàn chỉnh: Shadow — capture đa phương thức 14 modality on-device làm training data cho computer-use; Specter — lớp memory bền cho agent; và Phantom — autonomous co-worker chạy trên VM riêng, build trên Claude Agent SDK. Roadmap cốt lõi: frontier model figures out the workflow once, small model runs it forever — distillation từ Claude-class planning xuống local replay.
Với hướng này, computer-use đang dịch chuyển từ "dán mắt vào pixel" sang "đọc cấu trúc + học bằng demo". Đó có thể là cách realistic nhất để AI agent thực sự có ích trên máy bạn — không phải video demo đẹp, mà là 1 workflow JSON chạy 100 lần liên tục, không sai bước nào.
Nguồn: ghostwright/ghost-os, ghostwright.dev, TechLogHub, @tom_doerr.
