Phát hiện vật thể nhỏ với YOLO26 + SAHI: Combo chính xác nhất cho aerial & traffic

TL;DR

Khi ảnh drone hay camera giao thông chụp từ xa, mỗi chiếc xe chỉ còn 8-15px - đủ để YOLO bỏ sót hoàn toàn. SAHI (Slicing Aided Hyper Inference) giải quyết bằng cách cắt ảnh lớn thành các tile nhỏ, detect từng tile, rồi ghép kết quả lại. Kết hợp với YOLO26 - phiên bản có STAL chuyên xử lý object dưới 8px - đây là combo tốt nhất hiện tại cho bài toán cần độ chính xác tuyệt đối, không cần real-time.

YOLO26 + SAHI phát hiện xe cộ từ drone - top: không SAHI, bottom: có SAHI

Khi vật thể nhỏ biến mất khỏi detector

Detector thông thường huấn luyện trên ảnh 640×640. Khi bạn đưa vào một frame từ drone ở độ cao 100m, mỗi chiếc xe chỉ còn chiếm 8-15px. Kiến trúc YOLO đời cũ dùng TAL (Task Alignment Learning) để gán nhãn - và trong quá trình này, object nhỏ hơn 8px thường bị bỏ qua hoàn toàn: không có anchor assignment nào, model không học được, không detect được.

Vấn đề có hai mặt: inference pipeline không thiết kế cho ảnh rất lớn, và bản thân model thiếu supervision cho tiny object trong training. YOLO26 + SAHI giải quyết cả hai đồng thời.

SAHI cắt ảnh - detect - ghép lại ra sao

SAHI chia ảnh đầu vào thành các slice nhỏ chồng nhau (overlapping tiles) - thường 512×512 hoặc 640×640 - rồi chạy YOLO26 trên từng slice độc lập. Mỗi object nhỏ trong ảnh gốc trở thành object bình thường trong tile của nó, với đủ pixel để detect.

Sau khi xử lý tất cả tile, SAHI ghép bounding box lại và dùng NMS thông minh để loại bỏ duplicate ở các vùng chồng nhau. Kết quả là bản đồ detection đầy đủ trên ảnh gốc.

Điểm mạnh quan trọng: pipeline này không cần fine-tune model - áp lên bất kỳ detector nào là chạy được. Đổi lại, tốc độ chậm hơn vì phải xử lý nhiều tile. Đây là combo dành cho accuracy-first, không phải real-time.

YOLO26 học tiny object như thế nào

YOLO26 (ra mắt 14/1/2026) mang ba cải tiến trực tiếp cho small object detection:

STAL (Small-Target-Aware Label Assignment): Bắt buộc tối thiểu 4 anchor assignment cho mọi object nhỏ hơn 8px. Không còn tiny object nào bị bỏ qua trong training.
ProgLoss (Progressive Loss Balancing): Đầu training ưu tiên one-to-many head để tăng recall; cuối training chuyển dần sang one-to-one head, align với inference behavior thực tế.
MuSGD optimizer: Kết hợp SGD với kỹ thuật Muon lấy cảm hứng từ Kimi K2 của Moonshot AI - hội tụ nhanh hơn, ổn định hơn đặc biệt trên edge hardware.

Ngoài ra, YOLO26 loại bỏ DFL và NMS khỏi inference pipeline, cho CPU nhanh hơn 43% so với YOLO đời trước - quan trọng khi SAHI cần chạy inference trên hàng chục tile liên tiếp.

Những con số biết nói

Hiệu quả SAHI đo trên VisDrone & xView (aerial detection datasets):

Detector	AP boost (inference only)	AP boost (+ fine-tuning)
FCOS	+6.8%	+12.7%
VFNet	+5.1%	+13.4%
TOOD	+5.3%	+14.5%

Hiệu năng YOLO26 theo model size (COCO val, T4 TensorRT10):

Model	mAP	Params	Speed T4
YOLO26n	40.9	2.4M	1.7ms
YOLO26s	48.6	9.5M	2.5ms
YOLO26m	53.1	20.4M	4.7ms
YOLO26x	57.5	55.7M	11.8ms

Ai nên dùng combo này ngay

Traffic monitoring & smart city: Detect xe, người đi bộ, xe đạp từ camera giao thông góc rộng đặt cao hoặc nhìn xa - đúng bài toán trong ảnh gốc của bài này.
Drone & aerial survey: Mapping nông nghiệp, đếm xe, giám sát công trình. SAHI được test trực tiếp trên VisDrone - dataset tiêu chuẩn ngành UAV.
Industrial inspection: Phát hiện lỗi nhỏ trên dây chuyền sản xuất, kiểm tra xếp pallet, planogram compliance trong logistics warehouse.
Medical imaging: Whole-slide pathology scan - detect bất thường cực nhỏ trên ảnh độ phân giải cao mà không cần GPU cao cấp.

Không phù hợp nếu bạn cần real-time dưới 30ms - SAHI thêm overhead đáng kể. Với real-time, dùng YOLO26 đơn thuần là đủ.

Bắt đầu trong 5 dòng code

pip install ultralytics sahi

from sahi import AutoDetectionModel
from sahi.predict import get_sliced_prediction

model = AutoDetectionModel.from_pretrained("ultralytics", model_path="yolo26n.pt")
result = get_sliced_prediction(
    "traffic.jpg", model,
    slice_height=640, slice_width=640,
    overlap_height_ratio=0.2
)
result.export_visuals(export_dir="output/")

SAHI là MIT license - miễn phí hoàn toàn. YOLO26 dùng AGPL-3.0 cho open-source và Enterprise license cho thương mại. Cả hai cài qua pip và chạy được trên CPU thông thường - không cần GPU để thử nghiệm.

Nguồn: Ultralytics Docs, SAHI Paper (ICIP 2022), SAHI GitHub, YOLO26 Docs.