要旨: 現実的な環境に展開されるマルチモーダル深層ニューラルネットワークは、実行時の変動に対処しなければなりません。すなわち、モダリティの品質の変化、入力全体の複雑さ、利用可能なプラットフォーム資源の制約です。現行のネットワークはこうした変動に苦戦しています――適応型ネットワークは厳密な計算予算に従うことができず、コントローラベースのネットワークは入力複雑さを考慮しません。また、静的にプロビジョニングされたネットワークは上記すべてを満たせません。その結果、費やした計算資源から最大限の有用性を引き出せていません。私たちは、3つの目標すべてを達成する最初の適応型マルチモーダルネットワークであるSWAN(Sample and World-Aware Multimodal Network)を提案します。SWANは、変動するユーザ指定の最大予算に応じてモダリティ間で資源を割り当てる、品質を意識したコントローラを用います。この予算の範囲内で、適応的なゲーティングモジュールが、サンプル複雑さに応じて層の利用をスケールさせることで、さらに効率を最適化します。さらなる向上のために、SWANは検出を行う前に、意味的に無関係なマルチモーダル特徴をマスクするトークンドロップモジュールも採用しています。私たちは複雑なマルチオブジェクト3D検出を含む自動運転の領域でSWANを評価し、最小限の性能劣化でFLOPsを最大49%削減します。
SWAN:ランタイムの変動に対応する世界認識型アダプティブ・マルチモーダル・ネットワーク
arXiv cs.LG / 2026/4/30
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文では、SWAN(Sample and World-Aware Multimodal Network)という、現実の環境で起きるモダリティ品質の変化、入力複雑度の変動、利用可能計算資源の揺らぎといったランタイム変動に対応するアダプティブなマルチモーダル深層ネットワークを提案しています。
- SWANは、ユーザー指定の最大計算予算の範囲内でモダリティ間のリソース配分を行う品質認識型コントローラ、サンプルの複雑度に応じて層の利用を調整するアダプティブ・ゲーティング、検出処理前に意味的に無関係なマルチモーダル特徴をマスクするトークンドロップ機構を組み合わせています。
- 既存手法の「同時に」実現できていない課題、すなわち厳格な計算予算への遵守、入力複雑度の考慮、そして複数要因への適応の欠如を解決することが狙いです。
- 自動運転領域での、複雑な複数物体の3D検出において、FLOPsを最大49%削減しつつ性能劣化を最小限に抑えたことを示しています。
- 本研究は、制約下で費やした計算の価値を最大化するための、より頑健なマルチモーダル推論パイプラインへの初期の前進として位置づけられます。




