#10302026-05-07
TinyEngine: Tối Ưu AI Không Phải Chỉ Là "Dùng CUDA"
TinyEngine thay interpreter-based execution bằng code generation, giảm peak SRAM 3.4x và tăng tốc inference 1.7-3.3x so với TF-Lite Micro và CMSIS-NN. Loop reordering đơn thuần cho 12x speedup mà không cần đổi hardware - chỉ thay thứ tự vòng lặp. MCUNet đạt 70.7% ImageNet top-1 accuracy trên MCU giá $5, lần đầu tiên vượt ngưỡng 70% trên vi điều khiển thương mại. MIT License, open-source, chạy trên STM32 và OpenMV Cam H7.