要旨: 本論文は、データ取得、Adam最適化による2層CNNの学習、リアルタイム推論から成る、完全なエンドツーエンドのオンデバイス・ビジョン機械学習パイプラインを提示します。このパイプラインは、$15〜40 USDのマイクロコントローラ級デバイス上で、完全に実行されます。外部インフラを必要とし、計算パイプラインを実践者から隠してしまうクラウドベースのワークフローとは異なり、本システムは、読めるC++で約1,750行により、コアとなるMLライフサイクルのあらゆるステップを実装し、Arduino IDEで1分未満でコンパイルできます。さらに、外部のML依存関係はありません。Seeed Studio ESP32-S3 XIAO ML Kit(8 MB PSRAM)上で動作するファームウェアは、学習1回あたり約9分で3クラスの64x64画像分類を実現し、リアルタイム推論では6.3 FPSを達成します。主な貢献は以下のとおりです:正しいバッチ単位での勾配蓄積;推論用の事前計算済みリサイズ参照テーブル;SD不要の焼き込み展開のためのデュアル形式の重みエクスポート;ブート時に自動的に解決される三段階の重み優先度システム(SDバイナリ > 焼き込みヘッダ > He初期化);単一の定数によるネットワーク再構成インターフェース;マイクロコントローラの制約に適したPSRAMを意識したメモリ管理。すべてのソースコードおよび参照データセットは、MIT Licenseのもとで https://github.com/webmcu-ai/on-device-vision-ai にて公開されています
親指サイズのマイコンでのオンデバイス視覚学習、デプロイ、推論
arXiv cs.LG / 2026/4/28
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- この論文は、データ取得から、Adam最適化による小型の2層CNN学習、そしてリアルタイム推論までを、15〜40ドル程度のマイコン級デバイス上で完結させるオンデバイス視覚MLパイプラインを提案しています。
- Seeed Studio ESP32-S3 XIAO ML Kit(8MB PSRAM)での64×64の3クラス画像分類では、学習1回あたり約9分、推論は約6.3FPSを報告しています。
- マイコン向けの実装面として、バッチ単位の勾配蓄積の正しさ、推論用のリサイズ事前計算ルックアップテーブル、PSRAMを意識したメモリ管理、ネットワーク再設定用の「定数1つ」インターフェースなどを重視しています。
- SDカードなしでのデプロイを容易にするため、焼き込み(baked-in)用の重みエクスポートにデュアルフォーマット方式を採用し、起動時に重みの優先順位を自動解決(SDバイナリ > 焼き込みヘッダ > He初期化)する仕組みを備えています。
- ソースコードと参照データセットはMITライセンスで公開されており、全MLライフサイクルを透明かつ再現可能に、約1,750行の読みやすいC++で実現し、Arduino IDEでのビルドは1分未満です。




