- Firecrawl vừa open-source web-agent — đúng kiến trúc đứng sau endpoint /agent của họ, giờ đây forkable, MIT license, chạy với bất kỳ model nào (Anthropic, OpenAI, hoặc custom).
- Plan-Act loop, parallel subagents, Skills reusable playbook.
- Đây là tin đáng lưu ý cho team muốn tự host research agent mà không gửi data ra SaaS bên ngoài.
TL;DR
Ngày 16–17/04/2026, Firecrawl công bố web-agent — framework mã nguồn mở (MIT) để dựng AI agent tự search, scrape và thao tác web. Kiến trúc y hệt endpoint /agent đã chạy trên firecrawl.dev, nhưng giờ bạn fork được, bring-your-own-model (Claude, GPT, hoặc model riêng), tự host toàn bộ. Repo: github.com/firecrawl/web-agent.
What's new
Trước đây muốn dùng agent research của Firecrawl bạn phải gọi API /agent — trả tiền credit, gửi data qua SaaS của họ. Từ tuần này, toàn bộ runtime đó có bản open-source:
- Harness dựng trên Deep Agents (LangChain) — lo vòng lặp agent và spawn sub-agent.
- Tools qua
firecrawl-aisdk: Search, Scrape, Interact (browser automation), và bash. - Skills: các file
SKILL.mdđóng vai playbook tái sử dụng — agent tự discover và load on-demand. - Subagents: worker song song, mỗi đứa một browser session riêng để xử lý task độc lập.
- Ba layer deploy: Next.js template (chat UI streaming), Express template (API server), và Agent Core Library cho ai muốn can thiệp sâu.
Cài đặt một dòng:
npx -y firecrawl-cli@latest init -y --browser
firecrawl create agent -t nextWhy it matters
Thị trường agent framework đang chật: LangChain, CrewAI, Browser Use, AutoGPT, Open Agent Builder… Vậy web-agent khác ở đâu?
Điểm khác biệt nằm ở tool layer đã được battle-tested. Firecrawl chạy scraping production với khối lượng lớn từ 2024; các công cụ Search/Scrape/Interact của họ đã xử lý JavaScript động, infinite scroll, pagination, anti-bot. Thay vì bạn phải tự ghép Playwright + proxy + parsing, web-agent wire sẵn, bạn chỉ việc tập trung vào agent logic. Cộng thêm pattern SKILL.md — đóng gói workflow thành file markdown reusable — rất giống cách Claude Code quản skills, dễ share giữa team.
Technical facts
Vòng lặp cốt lõi: plan → act → observe → repeat cho tới khi task hoàn tất. Mọi bước được stream, có structured output qua JSON (hoặc Zod/Pydantic nếu bạn tự wire).
| Thành phần | Chi tiết |
|---|---|
| License | MIT |
| Primary language | TypeScript (~33%) |
| Agent harness | Deep Agents (LangChain) |
| Tools | Search, Scrape, Interact (browser), bash |
| Output | Structured JSON, streaming |
| Subagent model | Parallel, isolated browser sessions |
| Templates | Next.js, Express, Agent Core Library |
| Model providers | Anthropic, OpenAI, bất kỳ LLM nào qua adapter |
Comparison — web-agent vs hosted /agent
| Tiêu chí | Hosted /agent | Open-source web-agent |
|---|---|---|
| Truy cập | API credit (Spark 1 Fast 10 credits, Mini/Pro dynamic) | Self-host, API key của bạn |
| Model | Firecrawl-managed (Spark 1 variants) | Claude, GPT, custom — tuỳ chọn |
| Tuỳ biến | Prompt + schema | Full code, Skills, fork & extend |
| License | Proprietary SaaS | MIT |
| Free tier | 5 lần chạy/ngày | Không giới hạn (chỉ trả phí model + infra) |
| Data residency | Gửi qua SaaS | Nằm trong infra của bạn |
Use cases
- Lead generation: cào directory, thu thập contact structured từ hàng trăm site.
- Giám sát giá e-commerce: subagent song song quét nhiều SKU, trả về bảng JSON.
- Competitive research: một agent, nhiều browser session, cùng lúc đọc 20 đối thủ.
- Academic / research paper datasets: cào arXiv, Google Scholar, trích dẫn structured.
- Real estate & local business: gom listing đa nguồn.
- Compliance / data residency: use-case quan trọng nhất — team tài chính, y tế, luật… không gửi data ra SaaS được, nay tự host toàn bộ agent tại chỗ.
- Ships kèm financial sector skill package làm ví dụ cho ngành tài chính.
Limitations & pricing
Framework free, nhưng bạn vẫn trả tiền cho:
- Model API (Claude/OpenAI) theo token.
- Firecrawl scrape/search credit qua
firecrawl-aisdk(nếu dùng infra của họ thay vì Playwright tự dựng). - Infra hosting (máy chạy browser — không nhẹ).
Task multi-source phức tạp có thể mất vài phút. Cần Node.js + runtime browser kiểu Playwright cho tool Interact. Đây là bản foundation để fork, không phải drop-in thay thế hoàn toàn hosted /agent — một số optimization của bản SaaS không ship out-of-the-box.
What's next
Kỳ vọng ngắn hạn: hệ sinh thái Skills phình ra (mỗi ngành một bộ SKILL.md), tích hợp sâu hơn với Claude Opus 4.7 và các model mới, forks cộng đồng tuỳ biến cho vertical cụ thể. Nếu bạn đang xây research bot, lead-gen pipeline, hay bất kỳ thứ gì cần agent cào web tự động — đây là baseline đáng clone về chiều nay.
Nguồn: firecrawl.dev/blog, github.com/firecrawl/web-agent, @firecrawl trên X.

