Sapiens2: Meta vừa thả ViT backbone human-vision chất lượng cao nhất trong public domain

TL;DR

Sapiens2 là family vision transformer từ Meta Reality Labs (Codec Avatars group), phát hành công khai trên GitHub trong tháng 4/2026 sau khi được nhận poster tại ICLR 2026. Dòng model trải từ 0.1B đến 5B params, native hỗ trợ resolution 1K và biến thể hierarchical 4K, pretrained trên ~1 tỷ ảnh người (Humans-750M sau lọc từ pool ~4B ảnh web-scale).

Astrid Wilde gọi thẳng: "highest quality ViT backbone that now exists in the public domain... first public release by a large lab that is non-trivial to replicate." Với chi phí training ở quy mô này, đây đúng là public service cho cả lĩnh vực human-centric vision.

Sapiens2 demo: pose, segmentation, depth, normal output trên cùng một ảnh

What's new

Family 6 model: 0.1B / 0.4B / 0.8B / 1B / 1B-4K / 5B — patch size 16, train ở 1024×768 (trừ 1B-4K train ở 4096×3072).
Objective pretraining lai: kết hợp Masked Autoencoder (MAE) cho chi tiết pixel + self-distilled contrastive loss cho semantics — mix tối ưu ở λ=0.6.
Architecture hiện đại: RMSNorm thay LayerNorm, Grouped-Query Attention, QK-Norm (quan trọng nhất cho stability ở 5B), SwiGLU FFN, PixelShuffle decoder. 4K variant dùng windowed + global attention, output resolution 2K.
Task mở rộng: ngoài 4 task cũ của Sapiens v1 (pose, segmentation, depth, normal), v2 thêm pointmap (geometry XYZ) và albedo estimation.
Open source code + weights dưới "Sapiens2 License" tại facebookresearch/sapiens2. Dataset 750M ảnh KHÔNG release vì privacy.

Why it matters

Trước Sapiens2, lĩnh vực human-centric vision bị chia nhỏ: mỗi task một model chuyên biệt, mỗi lab training riêng trên dataset nhỏ. Các general backbone như DINOv2 mạnh nhưng không tối ưu cho người; các model human-specific thường không đủ quy mô để làm foundation.

Sapiens2 là bước đầu tiên từ một lab lớn, với compute + data scale đủ lớn để không reproduce được bởi team nhỏ — và họ release công khai. Cụ thể: 750M ảnh người đã được filter từ ~4B ảnh web-scale, training ở 1024×768 với 5B params là thứ mà ngay cả startup series B cũng khó đuổi theo. Việc Meta mở cho cộng đồng nghĩa là ai cũng có thể fine-tune 1 head nhẹ và bật lên các ứng dụng avatar, motion capture, virtual try-on, relighting — không cần training from scratch.

Technical facts

Bảng model card chính thức từ repo:

Model	Params	TFLOPs	Embed	Layers	Heads
Sapiens2-0.1B	0.114 B	0.342	768	12	12
Sapiens2-0.4B	0.398 B	1.260	1024	24	16
Sapiens2-0.8B	0.818 B	2.592	1280	32	16
Sapiens2-1B	1.462 B	4.715	1536	40	24
Sapiens2-1B (4K)	1.607 B	6.43	1536	40	24
Sapiens2-5B	5.071 B	15.722	2432	56	32

Ablation cho thấy hybrid objective thật sự quan trọng: ở 5M ảnh subset, MAE+CL đạt 18.9 mAP pose (vs 16.8 MAE-only, 13.3 CL-only). CL một mình thì bất lực cho dense prediction; MAE một mình thiếu semantics. Kết hợp là key design.

Về tốc độ: Sapiens2-5B xử lý 1024-res ảnh ở ~15.72 TFLOPs/ảnh, ngang ViT-22B ở 224 (11.36 TFLOPs), nhưng output dense cho ảnh 5× lớn hơn.

Comparison với Sapiens v1

Axis	Sapiens v1 (ECCV 2024)	Sapiens2 (ICLR 2026)
Pretrain data	Humans-300M	Humans-750M (từ ~4B pool)
Objective	MAE only	MAE + self-distilled contrastive
Resolution	1K native	1K + 4K hierarchical (output 2K)
Model sizes	0.3B–2B	0.1B–5B
Task	pose, seg, depth, normal	+ pointmap, albedo
Pose	baseline	+4 mAP
Body-part seg	baseline	+24.3 mIoU
Normal angular error	baseline	−45.6%

Con số cụ thể: trên Hi4D normal estimation, Sapiens2-5B đạt 9.43 mean angular error (v1: 12.18, DaViD-Large: 15.37). Trên dense 308-keypoint in-the-wild, 5B đạt 82.3 mAP — SOTA mới. Zero-shot COCO-WholeBody, Sapiens2-1B đạt 57.9 mAP dù predict 308 điểm vs ViTPose++ chỉ 133 điểm.

Sapiens2 body-part segmentation — 29 classes với chi tiết môi, lưỡi, răng

Use cases

Avatar creation & Codec Avatars — chính là motivation gốc của dự án ở Meta Reality Labs.
3D human digitization in-the-wild — 308 keypoint (243 là facial: mắt, môi, mũi, tai) đủ chi tiết cho biểu cảm không cần multi-view studio.
Virtual relighting + material recovery — albedo tách được màu gốc khỏi lighting, cho phép chèn người vào môi trường ảo mới rồi relight.
Motion capture / VFX film — surface normals + pointmap (XYZ) cho geometry chính xác.
Virtual try-on fashion — 29-class segmentation phân biệt upper/lower limb, chi tiết môi trên/dưới.
Gaming + AR — backbone frozen + head nhẹ cho real-time inference (với 0.1B–0.4B variants).

Tác giả note rõ: sweet spot là ảnh có 1–4 người nổi bật. Crowd scenes (stadium, street crowd) sẽ degrade.

Limitations & pricing

Crowded scenes: hiệu năng giảm với >4 người — không ideal cho surveillance, sân bóng đông.
Sim-to-real gap: pointmap, normal, albedo được train hoàn toàn trên synthetic data (scan RenderPeople). Có rủi ro gap với in-the-wild.
Không đa dụng cho non-human: trên ADE20K / Cityscapes, Sapiens2 thua DINOv2 — model chuyên ngành, không phải general backbone.
Color augmentation penalty: albedo mất ~5 dB PSNR khi dùng color jitter mạnh.
License: code + weights dưới "Sapiens2 License" (research-friendly, không phải MIT/Apache). Paper là CC BY 4.0.
Dataset 750M ảnh không public vì privacy — không thể reproduce pretraining.
Requirements: Python ≥3.12, PyTorch ≥2.7. Forward pass standalone chỉ cần torch + safetensors.

What's next

Trong rebuttal reviewer, tác giả xác nhận 3 hướng roadmap:

AIGC synthetic data — thử dùng ảnh do generative model tạo để mở rộng domain coverage (body types, lighting, scene variety).
Multi-person modeling — kiến trúc mới để xử lý crowd/multi-agent interactions hiệu quả.
Scale data diversity — vượt qua bias "1–4 người nổi bật" hiện tại, thêm data đa dạng hơn.

Với việc Meta đã mở code + weights, khả năng cộng đồng build fine-tuned variants cho fashion, sports analytics, medical imaging sẽ bùng nổ trong 6 tháng tới. Nếu bạn đang làm avatar, motion capture, hoặc pose estimation — đây là backbone nên tích hợp ngay.

Sapiens2 surface normal prediction in-the-wild

Nguồn: GitHub facebookresearch/sapiens2, OpenReview ICLR 2026, Meta Reality Labs Sapiens, Astrid Wilde.

Sapiens2: Meta vừa thả ViT backbone human-vision chất lượng cao nhất trong public domain

TL;DR

What's new

Why it matters

Technical facts

Comparison với Sapiens v1

Use cases

Limitations & pricing

What's next

Tiếp tục lướt

Sherlock: công cụ OSINT mã nguồn mở quét username trên 400+ mạng xã hội trong vài giây

SideImpactor: ký và cài app iOS ngay trong trình duyệt qua WebUSB, không cần Sideloadly

OpenClaw v2026.4.24: Google Meet agents, full-agent voice, and DeepSeek V4 land in one release

qa-use: AI agents tự test E2E web app — viết test bằng tiếng Anh, chạy bằng Claude/GPT/Gemini

Faraday: nền tảng quản lý lỗ hổng mã nguồn mở dành cho red team