TL;DR

SuperSpider là framework crawl web mã nguồn mở (MIT) vừa xuất hiện trên GitHub dưới tài khoản Lyx3314844-03, đóng gói 4 runtime độc lập — PySpider (Python), GoSpider (Go), RustSpider (Rust), JavaSpider (Java) — trong cùng một monorepo. Điểm khác biệt: cả 4 runtime cùng cung cấp web scraping, video download 10 nền tảng, LLM structured extraction, TLS fingerprint rotation, CAPTCHA solving, JS signature reverse, và distributed scheduling qua Redis/Kafka/RabbitMQ. Team chọn stack theo preference thay vì bị ép vào một ngôn ngữ.

What's new

Thay vì là một thư viện đơn ngôn ngữ, SuperSpider tiếp cận theo hướng parity feature-set: mọi capability đều được triển khai trên cả 4 runtime, mỗi runtime tối ưu cho một triết lý:

  • PySpider — virtualenv, định hướng AI-first, project-oriented, rapid iteration. Có schema-driven extraction và XPath suggestion.
  • GoSpider — compiled binary, định hướng concurrent, binary-first, distributed workers.
  • RustSpider — release binary, định hướng performance-first, feature-gated, strongly typed.
  • JavaSpider — Maven/JAR, định hướng enterprise-first, browser workflows, audit trails.

Repo hiện có 99 stars, 22 forks, language composition: HTML 43.6%, Java 15.3%, Python 15%, Rust 13.2%, Go 12.3% — khá cân bằng giữa các runtime, cho thấy đây không phải port qua loa mà là 4 codebase thực sự.

Why it matters

Team data / platform / security thường dùng stack khác nhau. Data engineer chuộng Python để kết nối thẳng với LLM pipeline; platform team muốn Go binary để deploy distributed worker; security/ops cần Java để tích hợp audit trail doanh nghiệp; backend cần Rust cho throughput cao. Trước đây, muốn có feature đồng nhất trên nhiều stack thường phải dùng platform như Crawlab để orchestrate crawler mỗi team tự viết — SuperSpider đi theo hướng ngược: cung cấp sẵn runtime đồng bộ, để mọi team chung ngôn ngữ feature nhưng khác ngôn ngữ code.

Technical facts

Web scraping: HTTP + browser (Playwright/Selenium), proxy rotation, rate limiting, session management, checkpoint/resume.

Video download — 10 nền tảng: YouTube, Bilibili, iQIYI, Tencent Video, Youku, Douyin, generic HLS/DASH streams, FFmpeg merging, DRM detection. Bao phủ cả Tây và Trung — hiếm framework open-source làm được cả hai.

AI/LLM extraction: OpenAI GPT-4o và Anthropic Claude integration cho entity extraction, summarization, sentiment analysis.

Anti-bot protection:

  • TLS fingerprint rotation (JA3/JA4)
  • Browser behavior simulation
  • CAPTCHA solving: 2captcha, Anti-Captcha, reCAPTCHA v2/v3, hCaptcha
  • Night mode operation

JS reverse engineering: Node-reverse client cho site mã hoá JS — hỗ trợ HMAC-SHA256, AES, timestamp tokens qua Node.js bridge. Phục vụ crawl các site JS-encrypted (fintech, ecom TQ).

Distributed: Redis, RabbitMQ, Kafka — cả 4 runtime. Node discovery qua env vars, DNS-SRV, Consul, hoặc etcd.

Storage: SQLite, PostgreSQL, MySQL, MongoDB, JSON, CSV, JSONL.

Comparison

FrameworkNgôn ngữ runtimeVideo downloadLLM extractionDistributed
SuperSpiderPython + Go + Rust + Java10 platformsGPT-4o + ClaudeRedis/Kafka/RabbitMQ
pyspiderPythonRabbitMQ/Redis
spider-rsRust
CrawlabManager (đa ngôn ngữ qua docker)

So sánh cho thấy SuperSpider là một trong số ít dự án cung cấp đồng thời multi-runtime parity + video + AI + distributed trong cùng một repo.

Use cases

  • Team heterogeneous: data team viết Python, platform team deploy Go binary, enterprise ops chọn Java — cùng feature set, khác stack.
  • Video archiving đa nền tảng: crawl YouTube + Bilibili + Douyin trong cùng pipeline, merge qua FFmpeg.
  • LLM-structured RAG pipeline: crawl → AI extraction schema-driven → store JSON/Postgres → feed vào vector DB.
  • Crawl site JS-encrypted: site fintech / ecom TQ dùng HMAC/AES token — giải qua Node-reverse bridge.
  • High-volume distributed crawl: chạy RustSpider/GoSpider workers, queue qua Kafka, scale ngang nhiều node.

Limitations & pricing

Miễn phí, MIT license, tự host. Nhưng có những phần chi phí phụ đáng lưu ý:

  • CAPTCHA solving cần service trả phí (2captcha, Anti-Captcha) — tính theo số lần giải.
  • LLM extraction cần API key OpenAI/Anthropic — tốn theo token.
  • Repo còn trẻ (99 stars tại thời điểm viết) — chưa có mass adoption, có thể gặp edge case chưa battle-tested.
  • Maintain 4 runtime song song là bài toán kỷ luật lớn — rủi ro feature drift giữa các ngôn ngữ.
  • Về pháp lý và đạo đức: crawl video platform, bypass CAPTCHA, phá JS signature đều chạm vùng xám ToS — dùng cho dự án hợp lệ, có quyền, nhất là khi deploy production.

What's next

Roadmap chính thức chưa được publish, nhưng các hướng mở rộng hợp lý: thêm platform video, nâng XPath AI suggestion, recipe Kubernetes operator cho deploy cloud-native, thêm CAPTCHA provider, và mở rộng Node-reverse cho WASM-based obfuscation. Với MIT license và codebase cân bằng giữa 4 ngôn ngữ, dự án là candidate tốt để contribute — ai rành stack nào có thể nhận ownership runtime tương ứng.

Nguồn: GitHub — Lyx3314844-03/superspider, tweet @QingQ77.