Tất cả bài viết

// Posts#efficient-ai

#10302026-05-07

TinyEngine: Tối Ưu AI Không Phải Chỉ Là "Dùng CUDA"

TinyEngine thay interpreter-based execution bằng code generation, giảm peak SRAM 3.4x và tăng tốc inference 1.7-3.3x so với TF-Lite Micro và CMSIS-NN. Loop reordering đơn thuần cho 12x speedup mà không cần đổi hardware - chỉ thay thứ tự vòng lặp. MCUNet đạt 70.7% ImageNet top-1 accuracy trên MCU giá $5, lần đầu tiên vượt ngưỡng 70% trên vi điều khiển thương mại. MIT License, open-source, chạy trên STM32 và OpenMV Cam H7.

tinyenginetinymlefficient-ai

7 phút đọc