Abstract
言語整合型視覚基盤モデル(VFM)は、常時稼働の文脈対応AIに対して多用途な視覚理解を可能にしますが、エッジデバイスへの展開は厳しいレイテンシーと電力の制約によって妨げられています。私たちは、シーンの文脈とタスクの複雑さに応じて計算を動的に調整する、言語整合型VFMのオンデバイス推論を効率化するための適応的フレームワークであるAdaVFMを提案します。私たちの主要な洞察は、視覚アプリケーションにおいてモデルサイズを削減したときの性能への影響がタスクに依存することです。これに動機づけられ、実行時に適応する推論戦略を導入します。AdaVFMは、言語整合型VFMのバックボーンにニューラルアーキテクチャ探索(NAS)を組み込み、実行時に軽量なサブネットを実行できるようにします。クラウドに配備されたマルチモーダル大規模言語モデル(LLM)が、文脈を考慮したエージェントによって実行時の制御を可能にします。この相乗効果により、多様な条件下でも高い精度を維持しつつ、効率的なモデル適応を実現します。ゼロショット分類とオープンボキャブラリセグメンテーションに関する大規模な実験の結果、AdaVFMは最先端の精度—効率のトレードオフを達成し、同程度のVFMサイズの先行手法の中でも、IN1Kにおけるacc@1で最大7.9\%、ADE20KにおけるmIoUで最大5.2\%上回ります。さらに、精度が同程度のモデルにおいては、AdaVFMは平均FLOPsを最大77.9\%削減します。