TL;DR

OpenAI Operator bị chặn sau paywall $200/tháng. Nanobrowser làm điều tương tự - thậm chí linh hoạt hơn - ở mức 0 đồng, chạy 100% trong trình duyệt của bạn, không gửi dữ liệu ra ngoài. Cài đặt trong 3 phút, ghép bất kỳ LLM nào bạn đã có API key.

Nanobrowser agent tự động hóa HuggingFace với Planner và Navigator chạy trong browser

Cái gì đó đang sai với web hiện tại

Mỗi ngày, hàng triệu người thực hiện những tác vụ lặp đi lặp lại trên web: so sánh giá sản phẩm, thu thập dữ liệu từ nhiều trang, điền form, theo dõi tin tức theo chủ đề. Tất cả đều mất thời gian theo tuyến tính - bạn càng cần nhiều dữ liệu, bạn càng mất nhiều giờ.

OpenAI giới thiệu Operator như một giải pháp - một agent AI có thể thay bạn duyệt web. Nhưng nó bị giới hạn sau subscription $200/tháng, chỉ dùng được model của OpenAI, và toàn bộ dữ liệu đi qua server của họ. Không phải ai cũng muốn điều đó.

Nanobrowser sinh ra từ câu hỏi đơn giản: tại sao không build thứ tương tự nhưng open-source, local-first, và miễn phí?

Ba agent, một nhiệm vụ

Kiến trúc của Nanobrowser chia công việc ra ba vai trò chuyên biệt:

  • Planner - đọc yêu cầu của bạn, phân rã thành sub-task, quyết định thứ tự truy cập các trang và chiến lược thực hiện
  • Navigator - thực thi: click, scroll, điền form, chụp màn hình, stream DOM về cho Planner
  • Validator (tùy chọn) - kiểm tra lại dữ liệu đã thu thập so với yêu cầu ban đầu, retry nếu kết quả chưa đúng

Điểm mạnh của thiết kế này là bạn có thể gán model khác nhau cho từng agent để tối ưu chi phí. Ví dụ điển hình: dùng Claude 3.5 Sonnet (giỏi suy luận phức tạp) cho Planner, và Gemini 2.5 Flash (nhanh, rẻ) cho Navigator thực thi. Tổng chi phí chỉ khoảng $0.003 mỗi 1.000 token với cấu hình này.

Toàn bộ xây dựng bằng TypeScript (89.5% codebase), chạy trên Browser-Use và LangChain.

Cài xong trong 3 phút

Có hai cách cài:

  1. Chrome Web Store: tìm Nanobrowser, click Add to Chrome
  2. Manual (bản mới nhất): download nanobrowser.zip từ GitHub Releases, giải nén, vào chrome://extensions, bật Developer mode, chọn Load unpacked

Sau khi cài: click icon Nanobrowser - vào Settings - paste API key của provider bạn muốn dùng (OpenAI, Anthropic, Google, Groq, Cerebras, hoặc URL endpoint Ollama local). Chọn model cho Planner và Navigator xong là dùng được.

Trông như thế nào trong thực tế

Một vài tác vụ người dùng đã thực hiện bằng một câu lệnh đơn:

  • Go to TechCrunch and extract top 10 headlines from the last 24 hours
  • Find a portable Bluetooth speaker on Amazon under $50, IPX5 or better, min 10h battery, sort by 4-star avg, export to JSON
  • Open LinkedIn jobs, search remote TypeScript, experience 3-5 years, save first 20 links in a bullet list
  • Look for trending Python repositories on GitHub with most stars

Vì Nanobrowser chạy trong phiên trình duyệt thực của bạn, đăng nhập, cookie và 2FA hoạt động tự nhiên - không cần cấu hình reverse proxy hay bất kỳ bước đặc biệt nào.

Nanobrowser vs OpenAI Operator

Tiêu chíNanobrowserOpenAI Operator
GiáMiễn phí (trả token riêng)$200/tháng
Model hỗ trợMọi provider + local OllamaOpenAI only
Dữ liệu100% local, không ra ngoàiQua server OpenAI
Mã nguồnApache 2.0, open-sourceClosed source
Auth / 2FADùng session browser hiện tạiCần cấu hình thêm

Chi phí cụ thể theo cấu hình Nanobrowser: Max IQ (Claude 3.5 Sonnet + Haiku) khoảng $0.015/1.000 token. Balanced (GPT-4o + Gemini 2.5 Flash) khoảng $0.003/1.000 token. Local (Ollama) bằng $0 - chỉ tốn điện.

Giới hạn cần biết

  • Chỉ Chrome và Edge - không hỗ trợ Firefox, Safari, Opera, Arc
  • Cấu hình model rẻ hơn có thể cho kết quả kém ổn định hơn, cần nhiều lần lặp
  • Khi dùng local model qua Ollama: cần prompt cụ thể, rõ ràng - tránh câu lệnh quá chung chung
  • Hiện tại là v0.1.13, vẫn đang phát triển - không tránh khỏi bug với tác vụ phức tạp

Tiếp theo là gì

Roadmap của team đang có:

  • Vision support - agent "nhìn" trang web qua screenshot thay vì chỉ đọc DOM (đang trong alpha)
  • Playwright backend - chạy headless cho CI/CD pipeline
  • Workflow library - thư viện recipe một click cho các tác vụ phổ biến (lead-gen, price-watching)
  • Voice recognition - điều khiển bằng giọng nói cho accessibility use case

Với 12.9k sao GitHub và 26 contributor sau chưa đầy một năm, project đang phát triển nhanh. Đây vẫn là giai đoạn sớm - nhưng đó cũng là lý do để thử ngay bây giờ.

Nguồn: GitHub nanobrowser/nanobrowser, BrightCoding, Hacker News.