親指サイズのマイコンでのオンデバイス視覚学習、デプロイ、推論

arXiv cs.LG / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文は、データ取得から、Adam最適化による小型の2層CNN学習、そしてリアルタイム推論までを、15〜40ドル程度のマイコン級デバイス上で完結させるオンデバイス視覚MLパイプラインを提案しています。
Seeed Studio ESP32-S3 XIAO ML Kit（8MB PSRAM）での64×64の3クラス画像分類では、学習1回あたり約9分、推論は約6.3FPSを報告しています。
マイコン向けの実装面として、バッチ単位の勾配蓄積の正しさ、推論用のリサイズ事前計算ルックアップテーブル、PSRAMを意識したメモリ管理、ネットワーク再設定用の「定数1つ」インターフェースなどを重視しています。
SDカードなしでのデプロイを容易にするため、焼き込み（baked-in）用の重みエクスポートにデュアルフォーマット方式を採用し、起動時に重みの優先順位を自動解決（SDバイナリ > 焼き込みヘッダ > He初期化）する仕組みを備えています。
ソースコードと参照データセットはMITライセンスで公開されており、全MLライフサイクルを透明かつ再現可能に、約1,750行の読みやすいC++で実現し、Arduino IDEでのビルドは1分未満です。

要旨: 本論文は、データ取得、Adam最適化による2層CNNの学習、リアルタイム推論から成る、完全なエンドツーエンドのオンデバイス・ビジョン機械学習パイプラインを提示します。このパイプラインは、$15〜40 USDのマイクロコントローラ級デバイス上で、完全に実行されます。外部インフラを必要とし、計算パイプラインを実践者から隠してしまうクラウドベースのワークフローとは異なり、本システムは、読めるC++で約1,750行により、コアとなるMLライフサイクルのあらゆるステップを実装し、Arduino IDEで1分未満でコンパイルできます。さらに、外部のML依存関係はありません。Seeed Studio ESP32-S3 XIAO ML Kit（8 MB PSRAM）上で動作するファームウェアは、学習1回あたり約9分で3クラスの64x64画像分類を実現し、リアルタイム推論では6.3 FPSを達成します。主な貢献は以下のとおりです：正しいバッチ単位での勾配蓄積；推論用の事前計算済みリサイズ参照テーブル；SD不要の焼き込み展開のためのデュアル形式の重みエクスポート；ブート時に自動的に解決される三段階の重み優先度システム（SDバイナリ > 焼き込みヘッダ > He初期化）；単一の定数によるネットワーク再構成インターフェース；マイクロコントローラの制約に適したPSRAMを意識したメモリ管理。すべてのソースコードおよび参照データセットは、MIT Licenseのもとで https://github.com/webmcu-ai/on-device-vision-ai にて公開されています