TL;DR

Firecrawl vừa ra mắt tính năng Agent endpoint cho phép bạn bỏ qua hoàn toàn pipeline RAG truyền thống. Thay vì scrape → chunk → embed → retrieve, bạn chỉ cần truyền URL + câu hỏi bằng ngôn ngữ tự nhiên - agent tự lo phần còn lại và trả về câu trả lời có nguồn gốc rõ ràng.

Firecrawl agent - truyền URL và câu hỏi, nhận grounded answer

Vấn Đề với Pipeline RAG Truyền Thống

Khi xây dựng AI agent cần đọc thông tin từ web, developer thường phải đi qua chuỗi bước phức tạp:

  • Scrape trang web về
  • Chunk nội dung thành các đoạn ~1,000 ký tự
  • Embed từng chunk bằng embedding model
  • Lưu vào vector database
  • Retrieve chunk phù hợp khi có câu hỏi
  • Generate câu trả lời từ context đã retrieve

Cả pipeline này đòi hỏi infrastructure riêng, latency cao, và phức tạp để maintain. Với câu hỏi đơn giản như "Rate limit là bao nhiêu?" từ một trang docs, độ phức tạp này là không cần thiết.

Firecrawl Agent Hoạt Động Thế Nào

Firecrawl Agent endpoint hoạt động theo mô hình ReAct (Reasoning + Acting): khi bạn đặt câu hỏi, agent tự lý luận cần làm gì, tìm kiếm và điều hướng web, quan sát kết quả, rồi lặp lại cho đến khi có đủ thông tin để trả lời.

Thay vì bạn phải xây dựng cả pipeline, chỉ cần 1 API call:

POST /agent
{
  "prompt": "What's the rate limit for the /scrape endpoint?",
  "urls": ["https://docs.firecrawl.dev/rate-limits"]
}

Và nhận về grounded answer kèm source attribution - không hallucination, không cần vector DB.

Use Cases Thực Tế

Ba use case điển hình mà Firecrawl đề xuất:

  • 🔍 "What's the rate limit?" - từ trang API docs của bất kỳ service nào
  • 💰 "What plans does this company offer?" - từ trang pricing
  • 📋 "What's the support SLA?" - từ trang vendor hoặc terms of service

Những câu hỏi này xuất hiện liên tục trong quá trình AI agent làm competitive research, vendor evaluation, hay tự động hóa sales intelligence. Trước đây mỗi câu hỏi tốn hàng chục bước; giờ chỉ còn 1 call.

Hai Model cho Hai Loại Nhiệm Vụ

Agent endpoint cung cấp 2 model để cân bằng chi phí và chất lượng:

ModelDùng choChi phí
spark-1-mini (default)Câu hỏi đơn giản, single-page lookupGiảm 60% so với pro
spark-1-proMulti-site research, so sánh phức tạp, accuracy-criticalStandard pricing

Ngoài ra, agent hỗ trợ Pydantic schema để nhận output có cấu trúc dạng JSON - tiện cho pipeline downstream mà không cần thêm parsing step.

Pricing & Rate Limits

Agent endpoint đang ở Preview stage với 5 lượt chạy miễn phí mỗi ngày, dynamic pricing sau đó. Rate limits theo plan:

PlanGiáCredits/thángAgent req/minConcurrent
Free$01,000102
Hobby$16/tháng5,0001005
Standard$83/tháng100,00050050
Growth$333/tháng500,0001,000100
EnterpriseCustomCustomCustomCustom + SLA

Lưu ý: Hobby và Standard không có SLA guarantee. Chỉ Enterprise mới có dedicated SLA - quan trọng nếu bạn chạy production workload.

Ai Nên Dùng Ngay

Firecrawl Agent phù hợp nhất với:

  • AI agent builders cần đọc thông tin web động mà không muốn maintain vector pipeline
  • Sales/competitive intelligence tools cần extract pricing, features, SLA từ competitor sites
  • Developer tools cần auto-answer câu hỏi về docs của third-party services
  • Prototype nhanh - 5 free daily runs đủ để test ý tưởng

Chưa phù hợp với team cần SLA guarantee (dưới Enterprise tier) hoặc workload volume cao với predictable pricing (agent vẫn là Preview, dynamic pricing chưa stable).

Tiếp Theo

Firecrawl đang định vị lại mình từ "web scraper" thành "web data infrastructure for AI" - với MCP server integration, CLI agent skill, và Agent endpoint là những bước đầu tiên. Agent endpoint preview cho thấy hướng đi rõ ràng: AI agents cần web data theo cách on-demand, câu hỏi-trả lời, không phải batch-index-query.

Nguồn: @firecrawl on X, Firecrawl Rate Limits, Firecrawl Pricing.