TL;DR
Firecrawl vừa open-source web-agent — một foundation nhẹ, license MIT, để bạn tự build và deploy AI agent nghiên cứu web có cấu trúc. Không phải bản port của dịch vụ hosted /agent — đây là khung xương có thể fork, đổi model, thêm skill, tự host. Chạy trên LangChain Deep Agents, tích hợp sẵn 4 tool (Search, Scrape, Interact, bash) qua firecrawl-aisdk, hỗ trợ SKILL.md playbook tự khám phá, sub-agent song song, structured output JSON và streaming. Ship kèm 3 template: Next.js (chat UI streaming), Express (API server), Library (module).

Điểm mới
Trước đây Firecrawl mới chỉ có dịch vụ hosted tại firecrawl.dev/app/agent — chạy trên model Spark 1 nội bộ, hộp đen. Lần này họ đi thẳng: đẩy nguyên bộ khung lên GitHub dưới license MIT.
- Kiến trúc plan-act-observe dùng LangChain Deep Agents — vòng lặp lên kế hoạch, gọi tool, quan sát kết quả, lặp cho tới khi hoàn thành.
- Sub-agents song song — mỗi sub-agent có phiên browser riêng biệt, chạy độc lập cho job multi-target.
- SKILL.md playbook — file markdown dạy agent quy trình tái sử dụng (pagination thương mại, reconcile data đa nguồn), tự khám phá và load theo nhu cầu.
- Structured output qua JSON schema (Pydantic / Zod), cộng streaming real-time.
- CLI scaffold:
npx -y firecrawl-cli@latest init -y --browserrồifirecrawl create agent -t next.
Vì sao đáng chú ý
Firecrawl nói thẳng: "every team wants something different — a different model, custom logic, their own infra." Dịch vụ hosted không giải quyết được ba ràng buộc phổ biến: (1) team cần model rẻ hoặc model nội bộ vì chính sách dữ liệu, (2) team cần tùy biến logic orchestrator, (3) team muốn chạy on-prem. web-agent open-source xử lý đúng ba vấn đề đó — Firecrawl giữ lại tầng web (crawl, scrape, interact), phần còn lại (model, skills, UI, deploy) hoàn toàn của bạn.
Nó cũng cạnh tranh trực tiếp với OpenAI Deep Research, Perplexity, Exa — nhưng ở dạng framework thay vì API đóng hộp.
Thông số kỹ thuật
| Thành phần | Chi tiết |
|---|---|
| Harness | LangChain Deep Agents (plan-act, sub-agents, SKILL loading) |
| Tools tích hợp sẵn | Search, Scrape, Interact (browser, beta), bash |
| Tool binding | firecrawl-aisdk (Vercel AI SDK compatible) |
| Ngôn ngữ chính | TypeScript (~31.8% repo) |
| Templates | Next.js / Express / Library |
| License | MIT |
| Stack layers | REST API → Firecrawl SDK → Firecrawl AI SDK → Agent Core → Templates |
API hosted song song (/agent): prompt tối đa 10.000 ký tự, model (spark-1-mini mặc định hoặc spark-1-pro), maxCredits mặc định 2.500, schema tùy chọn cho structured output, urls để focus scope. Chế độ async qua startAgent / getAgentStatus để polling Job ID.

So sánh với competitor
Benchmark từ thông báo Spark 1: Spark 1 Pro ~50% recall, Spark 1 Mini ~40% recall. Các deep research tool khác — Manus, Parallel, Exa — dao động 15–37% recall nhưng giá cao hơn 4–7× mỗi task.
| Khía cạnh | web-agent (OSS) | Hosted /agent | Manus / Parallel / Exa |
|---|---|---|---|
| Recall | tùy model bạn chọn | 40–50% | 15–37% |
| Chi phí / task | infra bạn tự host + model bạn chọn | Mini rẻ hơn Pro 60% | 4–7× cao hơn |
| Fork / self-host | có, MIT | không | không |
| Skills system | SKILL.md auto-discover | có | không tương đương |
| Sub-agents song song | có | có | hạn chế |
Use cases
- Giám sát tình báo cạnh tranh — track giá, feature launch, positioning competitor trên nhiều domain.
- Lead enrichment pipeline — đưa danh sách công ty, lấy founder, tech stack, funding, hiring status.
- Document change detection — monitor trang policy, ToS, SKU, hồ sơ pháp lý để phát hiện diff.
- Reconcile data đa nguồn — gộp spec sản phẩm hoặc giá từ nhiều retailer về một record chuẩn.
Hưởng lợi rõ nhất: team data/research có yêu cầu model riêng hoặc chính sách dữ liệu; startup muốn năng lực Deep Research không phải trả tier API research đắt đỏ; team đã dùng LangChain stack muốn thêm web primitives.
Hạn chế & pricing
- Interact (browser automation) vẫn beta — API có thể thay đổi.
- Plan-act loop + sub-agents song song ngốn token khi job phức tạp — kiểm soát bằng
maxCredits. - Vẫn cần Firecrawl API key cho tầng web. Muốn fully self-hosted thì chạy thêm Firecrawl OSS.
- Chưa công bố benchmark recall riêng cho OSS agent — chỉ có số Spark 1 bản hosted.
- Không có persistence/memory layer built-in — tự bring.
Pricing: web-agent OSS miễn phí (MIT). Firecrawl API có free tier không cần credit card, plan trả phí theo volume. Hosted /agent ở research preview: 5 run miễn phí/ngày, sau đó tính theo credit.
Tiếp theo là gì
Firecrawl chưa công bố roadmap chi tiết, nhưng hướng đi rõ: (1) mở rộng thư viện SKILL.md cộng đồng, (2) ổn định Interact tool ra GA, (3) tích hợp chặt hơn với Firecrawl AI SDK. Nếu bạn đang build agent nghiên cứu web, đây là thời điểm tốt để thử fork, chạy firecrawl create agent -t next, gắn model của bạn và xem plan-act loop hoạt động thế nào trên use case cụ thể.
Nguồn: GitHub firecrawl/web-agent, blog Firecrawl, docs.firecrawl.dev, Spark 1 announcement.
