TL;DR

Tiếp nối phần 1 với codegraph, openhuman, agentmemory và RuView - phần này điểm qua 5 repo còn lại trong danh sách của @Sharbel tuần 23/5/2026. Từ TTS on-device 31 ngôn ngữ, stealth browser automation, đến framework nguyên tắc cho LLM production.

#6 - supertonic (+3.6K stars): TTS on-device 31 ngôn ngữ qua ONNX

supertone-inc vừa ra mắt supertonic v3 - mô hình TTS on-device nhỏ nhất mà hỗ trợ nhiều ngôn ngữ nhất trong phân khúc. Toàn bộ chạy qua ONNX Runtime, không cần cloud, không cần API key:

  • 31 ngôn ngữ bao gồm tiếng Việt, Arabic, Japanese, Korean, và các ngôn ngữ châu Âu
  • ~99M parameters - nhỏ hơn đáng kể so với các hệ thống TTS 0.7B-2B params
  • Expression tags cho phép điều chỉnh cảm xúc và giọng điệu
  • Ít lỗi đọc hơn so với v2, đặc biệt với chuỗi số và tên riêng

Python SDK v1.3.1 thêm supertonic serve - local HTTP server tương thích OpenAI (/v1/audio/speech). Nghĩa là có thể drop-in vào bất kỳ codebase nào đang dùng OpenAI TTS mà không cần sửa code. Chạy được trên CPU (ONNX Runtime) và WebGPU (browser).

via github.com/supertone-inc/supertonic

#7 - CloakBrowser (+7.0K stars): Stealth Chromium vượt 30/30 bot detection test

CloakBrowser là Chromium fork với một mục tiêu duy nhất: qua được mọi bài kiểm tra bot detection mà không cần JavaScript injection hay flag runtime. Cách tiếp cận khác biệt hoàn toàn so với các tool hiện có:

5 dự án on-device AI và automation tuần 23/5/2026
supertonic, CloakBrowser, ViMax, 12-factor-agents, bun - 5 repo nổi bật phần 2

58 source-level patches được compile thẳng vào binary Chromium - không inject JS, không set flag. Các vùng patch bao gồm: canvas fingerprint, WebGL, audio context, font metrics, GPU info, screen properties, WebRTC IP leak, network timing, hardware reporting, CDP signal removal.

Kết quả: 30/30 test passed trên live detection services (Chromium 146, verified tháng 4/2026). Tương thích drop-in với Playwright và Puppeteer API. Hỗ trợ thêm browser-use, Crawl4AI, Scrapling, Stagehand, LangChain, Selenium. Binary ~200MB, cached local sau lần tải đầu.

Đây thực chất là alternative self-hosted cho Multilogin, GoLogin, và AdsPower - với ưu điểm là open-source và không có phí subscription.

via github.com/CloakHQ/CloakBrowser

#8 - ViMax (+2.7K stars): Agentic video generation từ HKUDS

ViMax đến từ nhóm nghiên cứu HKUDS (Đại học Hong Kong), đặt mục tiêu tự động hóa toàn bộ pipeline làm video - từ ý tưởng đến video hoàn chỉnh - mà đảm bảo tính nhất quán của nhân vật và cảnh quay.

Kiến trúc multi-agent gồm các role riêng biệt:

  • RAG-based script engine: phân tích truyện dài, tự động chia thành multi-scene script, giữ nguyên plot và dialogue quan trọng
  • Shot-level storyboard: dùng ngôn ngữ điện ảnh (cinematography language) để tạo storyboard cho từng shot
  • Multi-camera simulation: duy trì consistent character positioning và background xuyên suốt các cảnh

Với nhu cầu tạo nội dung video tự động ngày càng tăng, ViMax nhắm vào use case tạo video từ long-form content (sách, truyện, kịch bản dài) - điều mà các tool video AI thông thường chưa xử lý tốt.

via github.com/HKUDS/ViMax

#9 - 12-factor-agents (+1.9K stars): Nguyên tắc xây LLM software production-grade

humanlayer đặt ra câu hỏi thực tế: tại sao phần lớn AI agent hoạt động tốt trong demo nhưng thất bại trong production? Câu trả lời của họ được tổng hợp thành 12 nguyên tắc, lấy cảm hứng từ 12 Factor Apps.

Một số nguyên tắc đáng chú ý:

  • Own Your Prompts: prompt là interface chính giữa logic ứng dụng và LLM - không được delegate hoàn toàn cho framework
  • Tools as Structured Outputs: LLM quyết định cần làm gì, nhưng code của bạn kiểm soát cách thực thi - không phải lúc nào "gọi tool" cũng đồng nghĩa với "chạy ngay function đó"
  • Scoped Workflows: isolate tasks và context, giữ LLM tập trung vào 5-10 bước cụ thể thay vì workflow dài vô tận

Điểm mà nhiều developer đồng ý sau khi đọc: hầu hết sản phẩm gọi là "AI Agent" thực ra chỉ là deterministic code với LLM steps rải rác - và đó không hẳn là điều xấu. Thread Hacker News về repo này gần 500 comments. via Hacker News

#10 - bun (+2.0K stars): JavaScript runtime tiếp tục đà tăng

bun không phải tân binh - nhưng tiếp tục có mặt trong trending tuần này cho thấy community vẫn tăng trưởng đều. Đây là JavaScript runtime viết bằng Zig, dùng WebKit JavaScriptCore thay vì V8, và gộp vào một binary duy nhất: runtime + bundler + test runner + package manager.

Lý do bun vẫn thu hút star dù không có release lớn: số lượng project thực tế chuyển từ Node.js sang bun tăng lên, đặc biệt ở các team muốn giảm dependency và tăng tốc độ build. Drop-in compatibility với Node.js giúp migration không quá đau.

via github.com/oven-sh/bun

Nhận định chung: tuần của on-device và privacy-first

Kết hợp cả 2 phần, 10 repo tuần này kể một câu chuyện nhất quán: AI infrastructure đang dịch chuyển mạnh về hướng on-device, local-first, và privacy-first. Từ openhuman chạy Rust local, RuView không cần camera, supertonic TTS offline, đến agentmemory lưu memory tại chỗ - trend này không phải ngẫu nhiên.

Song song đó, nhóm tool về context efficiency (codegraph, agentmemory, 12-factor-agents) đang giải quyết vấn đề mà ai làm việc với LLM production đều hiểu: context window tốn kém, agent hay hallucinate khi thiếu context tốt, và framework hiện tại chưa đủ để scale.

Bookmark lại - tuần sau danh sách này sẽ hoàn toàn khác.