TL;DR

Firecrawl (16/04/2026) open-source firecrawl/web-agent — framework nhẹ để dev build autonomous web research agent chạy vòng lặp search → scrape → interact trực tiếp trên web thật. Chỉ một lệnh firecrawl create agent là có ngay project đủ với 3 lựa chọn template: Next.js (streaming UI), Express (API server), hoặc library thuần. Cơ chế Plan-Act dựa trên LangChain Deep Agents, spawn sub-agent song song xử lý nhiều site, và hoàn toàn model-agnostic — cắm OpenAI, Anthropic (recent builds default Claude Opus 4.7), hoặc model self-hosted đều được. License MIT.

What's new

Đây không phải port của Firecrawl hosted /agent. Theo blog launch của Eric Ciarla (co-founder), web-agent là "lighter foundation designed to be forked and extended" — thiết kế cho dev muốn kiểm soát toàn bộ agent thay vì dùng hosted black-box.

  • 3 template scaffold: next (chat UI + streaming SSE), express (API-only server), library (plain TS module).
  • 1 lệnh là xong: npx -y firecrawl-cli@latest init -y --browserfirecrawl create agent -t next|express|library.
  • Ships sẵn 3 skill mẫu (markdown SKILL.md): e-commerce pagination, multi-source reconciliation, consistent extraction schema.
  • Recent builds default provider là Anthropic Claude Opus 4.7 — user vẫn đổi được qua Vercel AI SDK.

Why it matters

Từ trước đến giờ, build agent cào web autonomous là bài phải ráp 4–5 mảnh: browser automation, scraper, retry logic, planner, model router. Web-agent gom sẵn primitives Firecrawl (Search / Scrape / Interact) với pattern Deep Agents, cắt phần lớn code keo. Quan trọng hơn, vì model-agnostic, team có thể chạy Opus 4.7 cho task khó (plan, reconcile) và swap sang model rẻ cho bước extract — tiết kiệm token mà không cần viết adapter.

Technical facts

  • Harness: LangChain Deep Agents cung cấp plan-act-observe loop, parallel sub-agent spawning qua task tool, on-demand skill loading qua skills middleware.
  • Built-in tools: Search (discover URL), Scrape (extract structured content), Interact (browser automation cho JS-heavy page — còn beta), Bash.
  • Skills: markdown playbook SKILL.md auto-discover khi bỏ vào project folder.
  • Sub-agents: parallel worker với session isolated — ví dụ spawn 10 subagent cào 10 pricing page cùng lúc, merge kết quả.
  • Output: structured JSON, ready cho pipeline downstream.
  • Tech stack: TypeScript (~32%), dependencies chính là Firecrawl SDK, firecrawl-aisdk, LangChain Deep Agents, Vercel AI SDK.
  • Community lúc launch: 565 stars, 67 forks, 538 commits, MIT license.

Comparison

OptionHosted /agentweb-agent OSSopen-agent-builder
Hình tháiHosted SaaSCode-first frameworkVisual drag-and-drop
ModelSpark 1 (Firecrawl)Bất kỳ qua AI SDKHạn chế
Tùy biến loopKhôngPlan-Act, fork đượcTheo node builder
Parallel subagentCó sẵnCó, dev kiểm soátKhông rõ
API key FirecrawlCầnCầnCần

So với CrewAI hoặc LangGraph thuần, web-agent gắn chặt với primitives Firecrawl (Search/Scrape/Interact) — ít config hơn, đánh đổi bằng việc phụ thuộc Firecrawl API key.

Use cases

  • Competitive pricing monitor: subagent cào song song N pricing page đối thủ, trả JSON schema đồng nhất.
  • Lead enrichment: input danh sách công ty → tự tìm site, scrape contact / tech-stack / funding.
  • Doc / policy change detection: theo dõi release notes, ToS, pricing page theo thời gian.
  • E-commerce catalog extraction: dùng skill pagination sẵn để cào catalog đa trang.
  • RAG real-time data: feed web data tươi cho pipeline RAG.

Hưởng lợi nhiều nhất: indie dev, growth team, research analyst, sales ops — nhóm muốn web-data agent tuỳ biến mà không phải viết từ đầu.

Limitations & pricing

  • Cần Firecrawl API key — không có option self-host hoàn toàn cho Search/Scrape/Interact.
  • Job phức tạp (nhiều Plan-Act + subagent) tốn token — cần monitor cost, đặc biệt khi default Opus 4.7.
  • Tool interact (browser automation) đang beta, API có thể đổi.
  • Repo mới, community nhỏ (~565 ⭐) — ecosystem skill/plugin chưa phong phú.
  • License MIT, fork/commercial thoải mái.
  • Pricing đi theo Firecrawl API tier chuẩn (không có tier riêng cho web-agent).

What's next

Roadmap chưa công bố mốc cụ thể. Hướng ngụ ý: mở rộng skill catalog, đưa interact khỏi beta, thêm template cho framework khác (Hono, FastAPI?). Hosted /agent (Spark 1) vẫn chạy song song tại firecrawl.dev/app/agent cho team không muốn tự vận hành.

Nếu đang build data agent, đây là chỗ thực tế để bắt đầu thay vì ráp từ rỗng — fork repo, bỏ SKILL.md riêng, swap model theo budget, và tận dụng pattern parallel subagent thay vì viết queue tay.

Một vài câu hỏi đáng theo dõi trong 1–2 tháng tới: (1) liệu tool interact có GA không và API final trông ra sao, (2) có thêm adapter cho framework Python (FastAPI) để team Python không phải wrap Node, (3) skill catalog cộng đồng có mở rộng đủ nhanh để web-agent giữ lợi thế so với CrewAI / LangGraph hay không. Hiện tại điểm cộng lớn nhất là time-to-first-agent chỉ vài phút — đủ tốt để thử trước khi tự code toàn bộ stack.

Nguồn: github.com/firecrawl/web-agent, Firecrawl blog, @WesRoth.