市販のビジョンモデルは画像操作のローカリゼーションに有効である

arXiv cs.CV / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、画像操作のローカリゼーション(IML)と一般的なビジョンタスクは連関した方向性として扱うべきであり、意味的な事前知識(セマンティック・プリア)によってIMLの性能が向上し得ると主張している。
  • 画像生成およびセグメンテーションのネットワークを含む市販の(既存の)ビジョンモデルを、基盤モデルを変更せずにIMLへ転用するための、学習可能なアダプタ「ReVi」を提案する。
  • ReViは、頑健な主成分分析に着想を得たアプローチで、意味的な冗長性から操作固有の信号を分離し、その後、操作に関連する成分を増幅する。
  • もとのビジョンモデルのパラメータを凍結し、軽量なアダプタのみを微調整することで、広範な再設計や全面的な再学習を回避できるため、本手法は展開(デプロイ)が効率的である。
  • 実験結果はIMLの改善を示しており、既存の汎用ビジョン・バックボーンにアダプタを組み込むことで、スケーラブルなIMLフレームワークを構築できる可能性を示唆している。

Abstract

画像操作ローカライゼーション(IML)および一般的な視覚タスクは、操作固有の特徴と意味論的特徴の間に本質的な違いがあるため、通常は2つの別々の研究分野として扱われます。しかし本論文では、このギャップを埋める新しい視点を導入します。すなわち、これら2つの方向性は本質的に結びついており、一般的な意味論的事前知識がIMLに役立つということです。この洞察に基づき、本論文では、既存の汎用ビジョンモデル(例:画像生成およびセグメンテーションネットワーク)をIML用に転用する、新しい学習可能なアダプタ(ReViと命名)を提案します。頑健な主成分分析に着想を得たこのアダプタは、これらのモデルに埋め込まれた意味の冗長性と操作固有の情報を分離し、後者を選択的に強化します。既存のIML手法が、広範なモデル再設計や全面的な再学習を必要とするのに対し、我々の手法は、パラメータを固定したオフ・ザ・シェルフの視覚モデルに依存し、提案するアダプタのみを微調整します。実験結果は、我々の手法が優れていることを示しており、スケーラブルなIMLフレームワークの可能性を裏付けています。