qa-use: AI agents tự test E2E web app — viết test bằng tiếng Anh, chạy bằng Claude/GPT/Gemini

Summary post

Browser Use vừa mở mã nguồn qa-use — platform QA tự động viết bằng Next.js 15, dùng AI agents thay cho selector script. Tests bằng plain English, chạy real Chromium, MIT license, docker compose up là xong.

7phút đọc

8mục nội dung

6chủ đề

TL;DR

qa-use là reference platform open-source (MIT) từ team Browser Use — cho phép viết test E2E bằng tiếng Anh thường ("Vào trang chủ → click Search → gõ 'laptop' → kỳ vọng ≥3 kết quả"), rồi để LLM agent điều khiển Chromium thật chạy và validate. Stack Next.js 15 + PostgreSQL + Inngest, deploy bằng docker compose up. 518 sao GitHub trong vài tuần đầu, dựa trên runtime Browser Use OSS đang có 90.3k sao.

qa-use banner — repetitive work is dead

Có gì mới

Selector-based testing kiểu Playwright/Cypress đã thống trị E2E hơn 10 năm. Vấn đề ai cũng biết: chỉ cần dev đổi class name, đổi DOM order, hay redesign nhẹ là cả test suite vỡ. QA team dành 30–50% thời gian fix selector thay vì tìm bug thật.

qa-use lật ngược cách tiếp cận: thay vì lock vào selector cứng, để LLM agent đọc DOM + screenshot và tự tìm element theo ngữ nghĩa giống user thật. Test được viết dưới dạng:

Steps: các bước plain-English (ví dụ "Click nút Sign Up", "Điền email vào form")
Evaluation: tiêu chí thành công kiểu "Trang phải hiển thị message xác nhận đã gửi email"

Test editor trong qa-use — viết step + evaluation bằng tiếng Anh

Agent (chạy bằng browser-use OSS dưới Playwright) cầm Chromium thật, lặp loop "nhìn screenshot → nghĩ → action" cho tới khi đạt evaluation hoặc fail. Mỗi step được log lại kèm screenshot, nên khi test fail có thể tua lại đúng frame agent đang nhìn để debug — không khác gì xem video screen recording của QA tester thật.

Test run đang chạy với live preview Chromium và step status

Vì sao đáng quan tâm

Đây không phải prototype demo. qa-use ship full ngăn xếp một QA platform production: test suites, parallel runs, lịch chạy theo cron (giờ/ngày), email alert khi fail, lịch sử + screenshot mỗi run. Nói cách khác, có thể thay thế được Pingdom/Checkly synthetic monitor cho golden path — chỉ khác là test "hiểu" được sản phẩm thay vì chỉ ping HTTP 200.

Quan trọng hơn: vì MIT license + self-host được, không phải lock vendor như Octomind hay Autonoma. Team có thể chạy trên infra của mình, kiểm soát data, và tuỳ biến.

Tech facts

Property	Detail
Repo	browser-use/qa-use, MIT, ~518 sao, 62 fork
Stack	Next.js 15, TypeScript, PostgreSQL + Drizzle
Background jobs	Inngest (scheduling + parallel runs)
Email	Resend API
Browser runtime	browser-use OSS (90.3k sao, v0.12.6 ra 2026-04-02)
LLMs hỗ trợ	ChatBrowserUse, Claude, GPT, Gemini, Ollama local
Setup	`docker compose up` + 2 API key

Toàn bộ chạy trong Docker Compose. Vài phút là có một staging QA platform tự host.

So sánh với Playwright và Octomind

	qa-use (BrowserUse)	Playwright / Cypress	Octomind / Autonoma
Cách viết test	Plain English	Code TS/JS + selector	NLP / record-replay
Khi UI đổi	Agent tự re-resolve	Test gãy, sửa tay	Self-healing 1 phần
Hosting	Self-host, OSS	Self-host, OSS	SaaS only
Cost driver	LLM tokens + BU API	Free runtime	SaaS per-test
License	MIT	Apache/MIT	Closed

Use cases thực tế

Suite dashboard — tests, history, cron schedule, notifications

Monitor critical path: chạy "checkout flow vẫn work" mỗi giờ trên prod + staging — alert email khi fail.
Smoke test mỗi deploy: signup, login, payment, search. Viết một lần, chịu được redesign UI.
Regression cross-env: cùng một test plain English, agent tự thích nghi với URL/copy khác giữa staging và prod.
Non-engineer authoring: PM / QA / customer success viết test trực tiếp, không cần biết CSS selector.
Test AI products: trớ trêu, agent rất hợp test sản phẩm AI khác — vì validate được ý định ("response phải nhắc giá") thay vì so chuỗi cứng.

Hạn chế & chi phí

Không miễn phí runtime: mỗi test = LLM tokens × số step + browser session. Một test 10 bước ~ \$0.05–\$0.30 tuỳ model. 100 test/giờ là cost không vô hình.
Chậm hơn script: agent reasoning thêm 5–30 giây/step so với Playwright deterministic. Không hợp để chặn merge với suite 1000 test trong CI.
Non-determinism: cùng 1 test có thể đi đường khác nhau giữa các lần run. Hợp cho monitoring, rủi ro hơn nếu dùng làm CI gate cứng (cần retry policy).
Cần BrowserUse API key hoặc tự host browser-use OSS.
Web only — chưa có mobile app native.
Pricing: qa-use bản thân free (MIT). Cost từ cloud.browser-use.com usage-based + Resend (free tier đủ phần lớn).

Tiếp theo là gì

2026 đang là năm LLM-native QA chuyển từ demo sang on-call rotation thật. Browser Use hit 90k sao, qa-use là cách team họ nói "đây, đem về tự build platform của mày". Hướng phát triển đáng theo dõi: model purpose-built (ChatBrowserUse) cắt cost mỗi run, parallel runner mạnh hơn, tích hợp CI provider như non-blocking deploy verifier.

Nếu QA team đang tốn 1–2 ngày/tuần fix flaky Playwright, hoặc startup AI cần test sản phẩm có output không xác định — qa-use là khởi điểm tốt nhất hiện có.

Nguồn: browser-use/qa-use, browser-use/browser-use, browser-use.com, @tom_doerr trên X.