Fine-tune một VLM 450M tham số trên ảnh vệ tinh - hướng dẫn từng bước

TL;DR

Bạn có thể fine-tune một Vision-Language Model (VLM) 450 triệu tham số để hiểu ảnh vệ tinh - với 3 khả năng: trả lời câu hỏi, phát hiện vật thể, và tự động caption. Công cụ: leap-finetune của Liquid AI + Modal (serverless GPU cloud). Chi phí: $30 credits miễn phí từ Modal account mới là đủ.

VLM fine-tune trên ảnh vệ tinh - grounding, VQA, captioning

Tại sao cần model nhỏ chạy trực tiếp trên vệ tinh?

Frontier model như GPT-5 hay Gemini hoàn toàn có thể hiểu ảnh vệ tinh - nhưng chúng phải chạy trên server dưới mặt đất. Để sử dụng, vệ tinh phải downlink ảnh thô xuống Trái Đất, đợi phản hồi, rồi mới hành động.

Đây là bài toán băng thông nghiêm trọng: ảnh vệ tinh có kích thước lớn (ma trận pixel đa chiều, đa kênh), nhân với hàng trăm lần chụp mỗi quỹ đạo. Truyền tất cả dữ liệu đó xuống đất = tắc nghẽn thực sự.

LFM2.5-VL-450M giải quyết vấn đề này: 450M tham số đủ nhỏ để chạy ngay trên phần cứng edge của vệ tinh. Inference xảy ra trong quỹ đạo - không cần downlink từng frame. Trên Jetson Orin, model xử lý ảnh 512x512 trong 242ms, đủ nhanh để cover mọi frame của video 4 FPS.

Tại sao phải fine-tune thay vì dùng thẳng?

LFM2.5-VL-450M là model đa năng, pre-trained trên 28 nghìn tỷ tokens. Nhưng ảnh vệ tinh là một distribution hoàn toàn khác: góc nhìn từ trên xuống (overhead), tỉ lệ vật thể xa lạ, vocabulary chuyên ngành.

Với 450M tham số, không thể kỳ vọng model cover tốt hàng nghìn domain cùng lúc. Fine-tuning giúp tập trung toàn bộ capacity vào đúng domain cần thiết - đây là cách để "vắt" tối đa tín hiệu từ một model nhỏ.

Một điểm kỹ thuật quan trọng: tutorial không dùng LoRA. LoRA chỉ áp dụng cho language backbone, bỏ qua vision encoder. Khi ảnh satellite khác xa pre-training data, cần fine-tune cả vision encoder lẫn language backbone mới đủ để model học domain mới.

Bộ công cụ & dataset

Tutorial dùng 3 thành phần chính:

LFM2.5-VL-450M - model nền, có sẵn miễn phí trên Hugging Face và LEAP platform
leap-finetune - thư viện open-source của Liquid AI, chỉ cần viết YAML config là chạy được
Modal - serverless GPU cloud, pay-per-second. Account mới được $30 credits miễn phí - đủ để chạy toàn bộ ví dụ này

Dataset: VRSBench (NeurIPS 2024) - bộ dữ liệu remote sensing vision-language với 3 task:

Task	Số mẫu	Ví dụ
Visual Question Answering	123K cặp QA	"How many aircraft are at the terminal?"
Visual Grounding	52K references	"Detect the large white ship" + bounding box
Captioning	29K mô tả	"An aerial view of an airport terminal with multiple parked aircraft"

Các bước thực hiện

Toàn bộ compute nặng chạy trên cloud, local chỉ cần submit job và stream log:

Chuẩn bị data: Script prepare_vrsbench.py download ~12 GB từ HuggingFace, convert sang JSONL format mà leap-finetune yêu cầu. Bounding box được normalize về tọa độ [x1, y1, x2, y2] trong khoảng 0-1. Chạy trên Modal CPU container, không cần GPU.
Fine-tuning: Viết YAML config (không cần code), submit job lên Modal H100. Checkpoint tự lưu vào Modal volume. Có thể monitor trên Weights & Biases hoặc Trackio.
Lấy checkpoint: Pull về local bằng modal volume get.

# Quickstart
uv run prepare_vrsbench.py --modal    # download + convert data
leap-finetune submit satellite.yaml   # kick off training on H100

Benchmark & so sanh

LFM2.5-VL-450M cải thiện lớn so với phiên bản trước và vượt SmolVLM2-500M (HuggingFace) dù ít tham số hơn:

Benchmark	LFM2.5-VL-450M	LFM2-VL-450M	SmolVLM2-500M
RefCOCO-M (grounding)	81.28	0	-
MMBench (vision)	60.91	56.27	52.32
RealWorldQA	58.43	52.03	49.90
MM-IFEval (instruction)	45.00	32.93	11.27
CountBench	73.31	47.64	61.81

Về edge latency trên Jetson Orin: 233ms (256x256) / 242ms (512x512) - đủ để xử lý stream 4 FPS full vision-language.

Ứng dụng thực tế

Fine-tune VLM nhỏ cho satellite mở ra nhiều ứng dụng high-impact:

Xử lý trong quỹ đạo: Vệ tinh tự phân tích ảnh, chỉ gửi structured data xuống đất - tiết kiệm hàng chục lần băng thông
Quản lý thảm họa: Phát hiện cháy rừng, lũ lụt, thiệt hại công trình theo thời gian thực
Giám sát môi trường: Theo dõi phá rừng, biến đổi sử dụng đất, ước tính sinh khối
Quy hoạch đô thị: Phát hiện mở rộng đô thị, xây dựng mới, thay đổi cơ sở hạ tầng
Nông nghiệp chính xác: Giám sát mùa vụ, ước tính sản lượng

Cùng model này cũng phù hợp cho edge deployment phi vũ trụ: kho logistics (theo dõi forklift, worker, hàng hóa), camera an ninh, thiết bị đeo - mọi use case cần privacy-preserving, on-device visual reasoning.

Tutorial này là starting point chính thức của AI in Space Hackathon - cuộc thi online toàn cầu 4 tuần do DPhi Space x Liquid AI tổ chức, mở cửa cho builders khắp thế giới. Task: xây dựng real-world app từ ảnh vệ tinh + VLM.

Model LFM2.5-VL-450M hiện có sẵn trên Hugging Face, LEAP platform, và Liquid Playground. Full tutorial tại docs.liquid.ai.

Nguon: Liquid AI Docs, Liquid AI Blog, Pau Labarta Bajo.