概要: 現代のコンピュータビジョンは予測精度とリアルタイムの効率性のバランスを取ることを要求しますが、大規模ビジョンモデル(LVM)の高い推論コストは、資源制約のあるエッジデバイスへの展開を制限します。
進化的ニューラルアーキテクチャ探索(ENAS)は多目的最適化に適していますが、その実用的な利用は二つの問題により妨げられています:候補評価の高コストとサブネット間のランキング不整合。
これらに対処するため、我々は多目的進化的アーキテクチャ探索のための効率的な分散フレームワークである EvoNAS を提案します。
Vision State SpaceとVision Transformer(ViT)モジュールを統合したハイブリッド・スーパーネットを構築し、それを Cross-Architecture Dual-Domain Knowledge Distillation(CA-DDKD)戦略で最適化します。
VSSブロックの計算効率とViTモジュールの意味的表現力を結びつけることで、CA-DDKDは共有スーパーネットの表現能力を高め、ランキングの一貫性を強化し、追加の微調整を行うことなく進化の過程で信頼できる適応度推定を可能にします。
大規模検証のコストを削減するため、GPUリソースのプールと非同期スケジューリングに基づく分散型マルチモデル並列評価(DMMPE)フレームワークをさらに導入します。
従来のデータ並列評価と比較して、DMMPEは同時実行の複数GPU・複数モデル実行を通じて効率を70%超向上させます。
COCO、ADE20K、KITTI、NYU-Depth v2 を対象とした実験は、探索されたアーキテクチャを EvoNets と呼称し、精度と効率のパレート最適なトレードオフを一貫して達成することを示しています。
代表的なCNNベース、ViTベース、および Mambaベースのモデルと比較して、EvoNetsは厳格な計算予算の下で推論遅延を低くし、スループットを高めつつ、新規視点合成などの下流タスクにおいて強い一般化性能を維持します。
コードは https://github.com/EMI-Group/evonas で公開されています。
デュアルドメイン表現の整合性:ジオメトリ認識アーキテクチャ探索による2Dと3Dビジョンの橋渡し
arXiv cs.AI / 2026/3/23
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- EvoNAS は、候補評価コストを削減しつつ、パレート最適な精度と効率のトレードオフを維持する、マルチ目的進化的アーキテクチャ探索への効率的な分散アプローチを提供します。
- Vision State Space (VSS) ブロックと Vision Transformer (ViT) モジュールを組み合わせたハイブリッドスーパーネットを用い、共有表現容量とランキングの一貫性を高めるためにクロスアーキテクチャ・デュアルドメイン知識蒸留(CA-DDKD)を導入します。
- GPU プーリングと非同期スケジューリングを備えた分散型マルチモデル並列評価(DMMPE)フレームワークは、大規模検証の速度をさらに向上させ、従来のデータ並列手法と比較して70%超の効率化を達成します。
- COCO、ADE20K、KITTI、NYU-Depth v2 の実験により、EvoNets は固定予算下で推論レイテンシを抑え、スループットを向上させるパレート最適なトレードオフを達成するとともに、新規視点合成などの下流タスクにおいても高い一般化性能を維持します。
- 本研究は GitHub でコードを提供しており、資源制約下のデプロイメント環境で EvoNets の再現と導入を可能にします。