TL;DR

Sapiens2 là family vision transformer từ Meta Reality Labs (Codec Avatars group), phát hành công khai trên GitHub trong tháng 4/2026 sau khi được nhận poster tại ICLR 2026. Dòng model trải từ 0.1B đến 5B params, native hỗ trợ resolution 1K và biến thể hierarchical 4K, pretrained trên ~1 tỷ ảnh người (Humans-750M sau lọc từ pool ~4B ảnh web-scale).

Astrid Wilde gọi thẳng: "highest quality ViT backbone that now exists in the public domain... first public release by a large lab that is non-trivial to replicate." Với chi phí training ở quy mô này, đây đúng là public service cho cả lĩnh vực human-centric vision.

Sapiens2 demo: pose, segmentation, depth, normal output trên cùng một ảnh

What's new

  • Family 6 model: 0.1B / 0.4B / 0.8B / 1B / 1B-4K / 5B — patch size 16, train ở 1024×768 (trừ 1B-4K train ở 4096×3072).
  • Objective pretraining lai: kết hợp Masked Autoencoder (MAE) cho chi tiết pixel + self-distilled contrastive loss cho semantics — mix tối ưu ở λ=0.6.
  • Architecture hiện đại: RMSNorm thay LayerNorm, Grouped-Query Attention, QK-Norm (quan trọng nhất cho stability ở 5B), SwiGLU FFN, PixelShuffle decoder. 4K variant dùng windowed + global attention, output resolution 2K.
  • Task mở rộng: ngoài 4 task cũ của Sapiens v1 (pose, segmentation, depth, normal), v2 thêm pointmap (geometry XYZ) và albedo estimation.
  • Open source code + weights dưới "Sapiens2 License" tại facebookresearch/sapiens2. Dataset 750M ảnh KHÔNG release vì privacy.

Why it matters

Trước Sapiens2, lĩnh vực human-centric vision bị chia nhỏ: mỗi task một model chuyên biệt, mỗi lab training riêng trên dataset nhỏ. Các general backbone như DINOv2 mạnh nhưng không tối ưu cho người; các model human-specific thường không đủ quy mô để làm foundation.

Sapiens2 là bước đầu tiên từ một lab lớn, với compute + data scale đủ lớn để không reproduce được bởi team nhỏ — và họ release công khai. Cụ thể: 750M ảnh người đã được filter từ ~4B ảnh web-scale, training ở 1024×768 với 5B params là thứ mà ngay cả startup series B cũng khó đuổi theo. Việc Meta mở cho cộng đồng nghĩa là ai cũng có thể fine-tune 1 head nhẹ và bật lên các ứng dụng avatar, motion capture, virtual try-on, relighting — không cần training from scratch.

Technical facts

Bảng model card chính thức từ repo:

ModelParamsTFLOPsEmbedLayersHeads
Sapiens2-0.1B0.114 B0.3427681212
Sapiens2-0.4B0.398 B1.26010242416
Sapiens2-0.8B0.818 B2.59212803216
Sapiens2-1B1.462 B4.71515364024
Sapiens2-1B (4K)1.607 B6.4315364024
Sapiens2-5B5.071 B15.72224325632

Ablation cho thấy hybrid objective thật sự quan trọng: ở 5M ảnh subset, MAE+CL đạt 18.9 mAP pose (vs 16.8 MAE-only, 13.3 CL-only). CL một mình thì bất lực cho dense prediction; MAE một mình thiếu semantics. Kết hợp là key design.

Về tốc độ: Sapiens2-5B xử lý 1024-res ảnh ở ~15.72 TFLOPs/ảnh, ngang ViT-22B ở 224 (11.36 TFLOPs), nhưng output dense cho ảnh 5× lớn hơn.

Comparison với Sapiens v1

AxisSapiens v1 (ECCV 2024)Sapiens2 (ICLR 2026)
Pretrain dataHumans-300MHumans-750M (từ ~4B pool)
ObjectiveMAE onlyMAE + self-distilled contrastive
Resolution1K native1K + 4K hierarchical (output 2K)
Model sizes0.3B–2B0.1B–5B
Taskpose, seg, depth, normal+ pointmap, albedo
Posebaseline+4 mAP
Body-part segbaseline+24.3 mIoU
Normal angular errorbaseline−45.6%

Con số cụ thể: trên Hi4D normal estimation, Sapiens2-5B đạt 9.43 mean angular error (v1: 12.18, DaViD-Large: 15.37). Trên dense 308-keypoint in-the-wild, 5B đạt 82.3 mAP — SOTA mới. Zero-shot COCO-WholeBody, Sapiens2-1B đạt 57.9 mAP dù predict 308 điểm vs ViTPose++ chỉ 133 điểm.

Sapiens2 body-part segmentation — 29 classes với chi tiết môi, lưỡi, răng

Use cases

  • Avatar creation & Codec Avatars — chính là motivation gốc của dự án ở Meta Reality Labs.
  • 3D human digitization in-the-wild — 308 keypoint (243 là facial: mắt, môi, mũi, tai) đủ chi tiết cho biểu cảm không cần multi-view studio.
  • Virtual relighting + material recovery — albedo tách được màu gốc khỏi lighting, cho phép chèn người vào môi trường ảo mới rồi relight.
  • Motion capture / VFX film — surface normals + pointmap (XYZ) cho geometry chính xác.
  • Virtual try-on fashion — 29-class segmentation phân biệt upper/lower limb, chi tiết môi trên/dưới.
  • Gaming + AR — backbone frozen + head nhẹ cho real-time inference (với 0.1B–0.4B variants).

Tác giả note rõ: sweet spot là ảnh có 1–4 người nổi bật. Crowd scenes (stadium, street crowd) sẽ degrade.

Limitations & pricing

  • Crowded scenes: hiệu năng giảm với >4 người — không ideal cho surveillance, sân bóng đông.
  • Sim-to-real gap: pointmap, normal, albedo được train hoàn toàn trên synthetic data (scan RenderPeople). Có rủi ro gap với in-the-wild.
  • Không đa dụng cho non-human: trên ADE20K / Cityscapes, Sapiens2 thua DINOv2 — model chuyên ngành, không phải general backbone.
  • Color augmentation penalty: albedo mất ~5 dB PSNR khi dùng color jitter mạnh.
  • License: code + weights dưới "Sapiens2 License" (research-friendly, không phải MIT/Apache). Paper là CC BY 4.0.
  • Dataset 750M ảnh không public vì privacy — không thể reproduce pretraining.
  • Requirements: Python ≥3.12, PyTorch ≥2.7. Forward pass standalone chỉ cần torch + safetensors.

What's next

Trong rebuttal reviewer, tác giả xác nhận 3 hướng roadmap:

  1. AIGC synthetic data — thử dùng ảnh do generative model tạo để mở rộng domain coverage (body types, lighting, scene variety).
  2. Multi-person modeling — kiến trúc mới để xử lý crowd/multi-agent interactions hiệu quả.
  3. Scale data diversity — vượt qua bias "1–4 người nổi bật" hiện tại, thêm data đa dạng hơn.

Với việc Meta đã mở code + weights, khả năng cộng đồng build fine-tuned variants cho fashion, sports analytics, medical imaging sẽ bùng nổ trong 6 tháng tới. Nếu bạn đang làm avatar, motion capture, hoặc pose estimation — đây là backbone nên tích hợp ngay.

Sapiens2 surface normal prediction in-the-wild

Nguồn: GitHub facebookresearch/sapiens2, OpenReview ICLR 2026, Meta Reality Labs Sapiens, Astrid Wilde.