TL;DR

Firecrawl vừa open-source web-agent — một foundation nhẹ, license MIT, để bạn tự build và deploy AI agent nghiên cứu web có cấu trúc. Không phải bản port của dịch vụ hosted /agent — đây là khung xương có thể fork, đổi model, thêm skill, tự host. Chạy trên LangChain Deep Agents, tích hợp sẵn 4 tool (Search, Scrape, Interact, bash) qua firecrawl-aisdk, hỗ trợ SKILL.md playbook tự khám phá, sub-agent song song, structured output JSON và streaming. Ship kèm 3 template: Next.js (chat UI streaming), Express (API server), Library (module).

Firecrawl web-agent open-source launch

Điểm mới

Trước đây Firecrawl mới chỉ có dịch vụ hosted tại firecrawl.dev/app/agent — chạy trên model Spark 1 nội bộ, hộp đen. Lần này họ đi thẳng: đẩy nguyên bộ khung lên GitHub dưới license MIT.

  • Kiến trúc plan-act-observe dùng LangChain Deep Agents — vòng lặp lên kế hoạch, gọi tool, quan sát kết quả, lặp cho tới khi hoàn thành.
  • Sub-agents song song — mỗi sub-agent có phiên browser riêng biệt, chạy độc lập cho job multi-target.
  • SKILL.md playbook — file markdown dạy agent quy trình tái sử dụng (pagination thương mại, reconcile data đa nguồn), tự khám phá và load theo nhu cầu.
  • Structured output qua JSON schema (Pydantic / Zod), cộng streaming real-time.
  • CLI scaffold: npx -y firecrawl-cli@latest init -y --browser rồi firecrawl create agent -t next.

Vì sao đáng chú ý

Firecrawl nói thẳng: "every team wants something different — a different model, custom logic, their own infra." Dịch vụ hosted không giải quyết được ba ràng buộc phổ biến: (1) team cần model rẻ hoặc model nội bộ vì chính sách dữ liệu, (2) team cần tùy biến logic orchestrator, (3) team muốn chạy on-prem. web-agent open-source xử lý đúng ba vấn đề đó — Firecrawl giữ lại tầng web (crawl, scrape, interact), phần còn lại (model, skills, UI, deploy) hoàn toàn của bạn.

Nó cũng cạnh tranh trực tiếp với OpenAI Deep Research, Perplexity, Exa — nhưng ở dạng framework thay vì API đóng hộp.

Thông số kỹ thuật

Thành phầnChi tiết
HarnessLangChain Deep Agents (plan-act, sub-agents, SKILL loading)
Tools tích hợp sẵnSearch, Scrape, Interact (browser, beta), bash
Tool bindingfirecrawl-aisdk (Vercel AI SDK compatible)
Ngôn ngữ chínhTypeScript (~31.8% repo)
TemplatesNext.js / Express / Library
LicenseMIT
Stack layersREST API → Firecrawl SDK → Firecrawl AI SDK → Agent Core → Templates

API hosted song song (/agent): prompt tối đa 10.000 ký tự, model (spark-1-mini mặc định hoặc spark-1-pro), maxCredits mặc định 2.500, schema tùy chọn cho structured output, urls để focus scope. Chế độ async qua startAgent / getAgentStatus để polling Job ID.

Firecrawl web-agent

So sánh với competitor

Benchmark từ thông báo Spark 1: Spark 1 Pro ~50% recall, Spark 1 Mini ~40% recall. Các deep research tool khác — Manus, Parallel, Exa — dao động 15–37% recall nhưng giá cao hơn 4–7× mỗi task.

Khía cạnhweb-agent (OSS)Hosted /agentManus / Parallel / Exa
Recalltùy model bạn chọn40–50%15–37%
Chi phí / taskinfra bạn tự host + model bạn chọnMini rẻ hơn Pro 60%4–7× cao hơn
Fork / self-hostcó, MITkhôngkhông
Skills systemSKILL.md auto-discoverkhông tương đương
Sub-agents song songhạn chế

Use cases

  • Giám sát tình báo cạnh tranh — track giá, feature launch, positioning competitor trên nhiều domain.
  • Lead enrichment pipeline — đưa danh sách công ty, lấy founder, tech stack, funding, hiring status.
  • Document change detection — monitor trang policy, ToS, SKU, hồ sơ pháp lý để phát hiện diff.
  • Reconcile data đa nguồn — gộp spec sản phẩm hoặc giá từ nhiều retailer về một record chuẩn.

Hưởng lợi rõ nhất: team data/research có yêu cầu model riêng hoặc chính sách dữ liệu; startup muốn năng lực Deep Research không phải trả tier API research đắt đỏ; team đã dùng LangChain stack muốn thêm web primitives.

Hạn chế & pricing

  • Interact (browser automation) vẫn beta — API có thể thay đổi.
  • Plan-act loop + sub-agents song song ngốn token khi job phức tạp — kiểm soát bằng maxCredits.
  • Vẫn cần Firecrawl API key cho tầng web. Muốn fully self-hosted thì chạy thêm Firecrawl OSS.
  • Chưa công bố benchmark recall riêng cho OSS agent — chỉ có số Spark 1 bản hosted.
  • Không có persistence/memory layer built-in — tự bring.

Pricing: web-agent OSS miễn phí (MIT). Firecrawl API có free tier không cần credit card, plan trả phí theo volume. Hosted /agent ở research preview: 5 run miễn phí/ngày, sau đó tính theo credit.

Tiếp theo là gì

Firecrawl chưa công bố roadmap chi tiết, nhưng hướng đi rõ: (1) mở rộng thư viện SKILL.md cộng đồng, (2) ổn định Interact tool ra GA, (3) tích hợp chặt hơn với Firecrawl AI SDK. Nếu bạn đang build agent nghiên cứu web, đây là thời điểm tốt để thử fork, chạy firecrawl create agent -t next, gắn model của bạn và xem plan-act loop hoạt động thế nào trên use case cụ thể.

Nguồn: GitHub firecrawl/web-agent, blog Firecrawl, docs.firecrawl.dev, Spark 1 announcement.