TL;DR
qa-use là reference platform open-source (MIT) từ team Browser Use — cho phép viết test E2E bằng tiếng Anh thường ("Vào trang chủ → click Search → gõ 'laptop' → kỳ vọng ≥3 kết quả"), rồi để LLM agent điều khiển Chromium thật chạy và validate. Stack Next.js 15 + PostgreSQL + Inngest, deploy bằng docker compose up. 518 sao GitHub trong vài tuần đầu, dựa trên runtime Browser Use OSS đang có 90.3k sao.

Có gì mới
Selector-based testing kiểu Playwright/Cypress đã thống trị E2E hơn 10 năm. Vấn đề ai cũng biết: chỉ cần dev đổi class name, đổi DOM order, hay redesign nhẹ là cả test suite vỡ. QA team dành 30–50% thời gian fix selector thay vì tìm bug thật.
qa-use lật ngược cách tiếp cận: thay vì lock vào selector cứng, để LLM agent đọc DOM + screenshot và tự tìm element theo ngữ nghĩa giống user thật. Test được viết dưới dạng:
- Steps: các bước plain-English (ví dụ "Click nút Sign Up", "Điền email vào form")
- Evaluation: tiêu chí thành công kiểu "Trang phải hiển thị message xác nhận đã gửi email"

Agent (chạy bằng browser-use OSS dưới Playwright) cầm Chromium thật, lặp loop "nhìn screenshot → nghĩ → action" cho tới khi đạt evaluation hoặc fail. Mỗi step được log lại kèm screenshot, nên khi test fail có thể tua lại đúng frame agent đang nhìn để debug — không khác gì xem video screen recording của QA tester thật.

Vì sao đáng quan tâm
Đây không phải prototype demo. qa-use ship full ngăn xếp một QA platform production: test suites, parallel runs, lịch chạy theo cron (giờ/ngày), email alert khi fail, lịch sử + screenshot mỗi run. Nói cách khác, có thể thay thế được Pingdom/Checkly synthetic monitor cho golden path — chỉ khác là test "hiểu" được sản phẩm thay vì chỉ ping HTTP 200.
Quan trọng hơn: vì MIT license + self-host được, không phải lock vendor như Octomind hay Autonoma. Team có thể chạy trên infra của mình, kiểm soát data, và tuỳ biến.
Tech facts
| Property | Detail |
|---|---|
| Repo | browser-use/qa-use, MIT, ~518 sao, 62 fork |
| Stack | Next.js 15, TypeScript, PostgreSQL + Drizzle |
| Background jobs | Inngest (scheduling + parallel runs) |
| Resend API | |
| Browser runtime | browser-use OSS (90.3k sao, v0.12.6 ra 2026-04-02) |
| LLMs hỗ trợ | ChatBrowserUse, Claude, GPT, Gemini, Ollama local |
| Setup | docker compose up + 2 API key |
Toàn bộ chạy trong Docker Compose. Vài phút là có một staging QA platform tự host.
So sánh với Playwright và Octomind
| qa-use (BrowserUse) | Playwright / Cypress | Octomind / Autonoma | |
|---|---|---|---|
| Cách viết test | Plain English | Code TS/JS + selector | NLP / record-replay |
| Khi UI đổi | Agent tự re-resolve | Test gãy, sửa tay | Self-healing 1 phần |
| Hosting | Self-host, OSS | Self-host, OSS | SaaS only |
| Cost driver | LLM tokens + BU API | Free runtime | SaaS per-test |
| License | MIT | Apache/MIT | Closed |
Use cases thực tế

- Monitor critical path: chạy "checkout flow vẫn work" mỗi giờ trên prod + staging — alert email khi fail.
- Smoke test mỗi deploy: signup, login, payment, search. Viết một lần, chịu được redesign UI.
- Regression cross-env: cùng một test plain English, agent tự thích nghi với URL/copy khác giữa staging và prod.
- Non-engineer authoring: PM / QA / customer success viết test trực tiếp, không cần biết CSS selector.
- Test AI products: trớ trêu, agent rất hợp test sản phẩm AI khác — vì validate được ý định ("response phải nhắc giá") thay vì so chuỗi cứng.
Hạn chế & chi phí
- Không miễn phí runtime: mỗi test = LLM tokens × số step + browser session. Một test 10 bước ~ \$0.05–\$0.30 tuỳ model. 100 test/giờ là cost không vô hình.
- Chậm hơn script: agent reasoning thêm 5–30 giây/step so với Playwright deterministic. Không hợp để chặn merge với suite 1000 test trong CI.
- Non-determinism: cùng 1 test có thể đi đường khác nhau giữa các lần run. Hợp cho monitoring, rủi ro hơn nếu dùng làm CI gate cứng (cần retry policy).
- Cần BrowserUse API key hoặc tự host browser-use OSS.
- Web only — chưa có mobile app native.
- Pricing: qa-use bản thân free (MIT). Cost từ cloud.browser-use.com usage-based + Resend (free tier đủ phần lớn).
Tiếp theo là gì
2026 đang là năm LLM-native QA chuyển từ demo sang on-call rotation thật. Browser Use hit 90k sao, qa-use là cách team họ nói "đây, đem về tự build platform của mày". Hướng phát triển đáng theo dõi: model purpose-built (ChatBrowserUse) cắt cost mỗi run, parallel runner mạnh hơn, tích hợp CI provider như non-blocking deploy verifier.
Nếu QA team đang tốn 1–2 ngày/tuần fix flaky Playwright, hoặc startup AI cần test sản phẩm có output không xác định — qa-use là khởi điểm tốt nhất hiện có.
Nguồn: browser-use/qa-use, browser-use/browser-use, browser-use.com, @tom_doerr trên X.


