text2sql: Agentic Text-to-SQL trên Deep Agents đạt 100% Spider, không cần RAG
Một SDK Python nhỏ, mã nguồn mở, build trên LangChain Deep Agents — chỉ đưa LLM một tool execute_sql + connection string, và để model tự khám phá schema, viết query, đọc lỗi, tự sửa. Kết quả zero-shot trên Spider: 19/20. Thêm 1 scenario làm rõ ngữ nghĩa: 20/20. Không RAG, không semantic layer, không pre-computed schema.
Cap: thư viện CAPTCHA mã nguồn mở 20kb thay thế reCAPTCHA, không tracking
Cap là CAPTCHA self-hosted dùng SHA-256 proof-of-work + instrumentation, widget chỉ ~20kb (250× nhỏ hơn hCaptcha), không cookie, không fingerprint, GDPR-friendly, deploy 1 lệnh Docker. Đã xử lý 1 tỷ lượt verify trong Q1/2026.
HeadlessX: nền tảng self-hosted scraping + agent workflow bypass Cloudflare, Datadome, Akamai
HeadlessX v2.1.2 là platform self-hosted kết hợp scraping engine (Camoufox — Firefox patched ở C++ level), queue-backed workflow, web dashboard và MCP endpoint cho AI agent. MIT license, 1.9k sao GitHub, 5 operator live và 12+ đang phát triển.
Google đã build một vulnerability scanner và open-source nó: OSV-Scanner
OSV-Scanner của Google quét lockfiles, container images và cả C/C++ vendored code, đối chiếu từng dependency với database OSV.dev. 11+ ecosystem, call analysis loại bỏ alert nhiễu, guided remediation gợi ý version upgrade tối ưu, chạy được offline. Free, Apache-2.0.
Vane: AI answering engine tự host, hậu duệ của Perplexica
Vane là AI answering engine mã nguồn mở, self-hosted, chính là dự án Perplexica đổi tên hồi tháng 3/2026. Repo đạt khoảng 34.7k sao GitHub, license MIT, viết gần như toàn bộ bằng TypeScript. Bản v1.12.0 gỡ bỏ Langchain, thay bằng custom provider system kèm widgets và Deep Research Mode. Một lệnh Docker là chạy được, đã gói sẵn SearxNG metasearch 70+ nguồn.
AgentShield: Scanner bảo mật đầu tiên chuyên cho AI coding agent — 102 rules, grade A–F, tích hợp Opus 4.6 red-team
AgentShield là CLI open-source quét .claude/ directory, phát hiện hardcoded secrets, prompt injection, hook abuse, MCP supply-chain risk và permission misconfig. 102 rules chia 5 nhóm, xuất báo cáo grade A–F kèm pipeline red-team/blue-team/auditor chạy trên Claude Opus 4.6. Miễn phí CLI + GitHub Action (MIT), Pro tier $19/seat/month.
LiteParse: parser PDF mã nguồn mở của LlamaIndex chạy local, không cần LLM
LlamaIndex vừa open-source LiteParse — CLI Node.js parse PDF, Office, ảnh ngay trên máy bằng thuật toán grid projection thuần heuristic. Không VLM, không API key, không GPU. Chạy mili-giây mỗi trang nhưng vẫn giữ được layout đa cột và bảng nguyên vẹn cho LLM đọc.
Wayback Machine Web Extension: một nút bấm để du hành lịch sử Internet
Extension chính chủ của Internet Archive biến mọi trình duyệt thành cỗ máy thời gian: save page, vá 404, surface research, auto-archive bookmarks — miễn phí, open-source, 300.000 user trên Chrome.
MetaClaw: agent AI tự học, tự cập nhật trọng số ngay trong lúc bạn trò chuyện — không cần GPU
MetaClaw biến mỗi cuộc hội thoại thành tín hiệu học. Vừa chèn skill vào prompt tức thời, vừa fine-tune LoRA trên cloud trong lúc bạn ngủ hoặc họp. Kimi-K2.5 nhảy từ 21.4% lên 40.6%, gần bằng GPT-5.2 baseline.
LatentSync: ByteDance Open-Source Model Lip-Sync Tốt Nhất Hiện Tại
LatentSync của ByteDance đạt 94% SyncNet accuracy trên HDTF, vượt qua Wav2Lip, DINet, MuseTalk về mọi chỉ số chất lượng. Chỉ cần 8GB VRAM để chạy inference, hoàn toàn miễn phí và open-source. Dựa trên Stable Diffusion 1.5 với cơ chế TREPA độc quyền giúp giữ temporal consistency mà không làm giảm độ chính xác lip-sync.