AdaVFM:LLM駆動の実行によるエッジ・インテリジェンス向け適応型ビジョン基盤モデル

arXiv cs.CV / 2026/4/20

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • AdaVFMは、遅延や消費電力といった制約が厳しいエッジ端末上で、言語整合型ビジョン基盤モデルを効率よく動かすためのフレームワークとして提案されています。
  • アダプティブに計算量を調整する点が特徴で、シーン状況やタスクの複雑さに応じて推論時の計算を変えることを狙っています。
  • AdaVFMは、言語整合型VFMのバックボーンにニューラルアーキテクチャ探索(NAS)を組み込み、推論中に軽量なサブネットを実行できるようにします。
  • クラウド上のマルチモーダルLLMを用いて、文脈に応じたエージェントが実行を制御し、エッジ推論とクラウド支援を連携させる設計です。
  • 実験ではゼロショット分類とオープンボキャブラリ分割で精度と効率のトレードオフが向上し、IN1Kでacc@1が最大+7.9%、ADE20KでmIoUが最大+5.2%改善したほか、同程度の精度で平均FLOPsを最大77.9%削減できると報告されています。

Abstract

言語整合型視覚基盤モデル(VFM)は、常時稼働の文脈対応AIに対して多用途な視覚理解を可能にしますが、エッジデバイスへの展開は厳しいレイテンシーと電力の制約によって妨げられています。私たちは、シーンの文脈とタスクの複雑さに応じて計算を動的に調整する、言語整合型VFMのオンデバイス推論を効率化するための適応的フレームワークであるAdaVFMを提案します。私たちの主要な洞察は、視覚アプリケーションにおいてモデルサイズを削減したときの性能への影響がタスクに依存することです。これに動機づけられ、実行時に適応する推論戦略を導入します。AdaVFMは、言語整合型VFMのバックボーンにニューラルアーキテクチャ探索(NAS)を組み込み、実行時に軽量なサブネットを実行できるようにします。クラウドに配備されたマルチモーダル大規模言語モデル(LLM)が、文脈を考慮したエージェントによって実行時の制御を可能にします。この相乗効果により、多様な条件下でも高い精度を維持しつつ、効率的なモデル適応を実現します。ゼロショット分類とオープンボキャブラリセグメンテーションに関する大規模な実験の結果、AdaVFMは最先端の精度—効率のトレードオフを達成し、同程度のVFMサイズの先行手法の中でも、IN1Kにおけるacc@1で最大7.9\%、ADE20KにおけるmIoUで最大5.2\%上回ります。さらに、精度が同程度のモデルにおいては、AdaVFMは平均FLOPsを最大77.9\%削減します。