概要: 視覚のインコンテキスト学習モデルは、例となる入力-出力ペアの集合を活用することで新しいタスクに適応し、タスク固有の微調整なしに迅速な汎化を可能にするよう設計されています。 しかし、これらのモデルは本質的に静的なパラダイムで動作します。すなわち、新しいタスクに適応はできるものの、スクリブル(走り書き)、クリック、境界ボックスといったユーザーが与えるガイダンス信号を取り込んで予測プロセスを誘導または洗練する仕組みを欠いています。この制約は、特に実世界のアプリケーションでは大きく制限的です。というのも、ユーザーはモデルの予測を能動的にガイドしたいからです。たとえば、セグメンテーションのために対象物をハイライトすること、視覚的に変更されるべき領域を示すこと、あるいは複雑なシーン内で特定の人物を切り出して対象のポーズ推定を行うことなどです。本研究では、静的な視覚インコンテキスト学習器、特にDeLVMのアプローチを、高い制御性を備えたユーザー主導のシステムへと変換するシンプルな手法、すなわちインタラクティブDeLVMを提案します。これにより、スクリブル、クリック、ボックス描画といった自然な視覚的手がかりを通じてシームレスなインタラクションを可能にします。具体的には、相互作用を例の入力-出力ペアに直接エンコードすることで、視覚インコンテキスト学習の哲学をそのまま維持します。つまり、微調整なしに未見の相互作用でモデルにプロンプトでき、個別化された相互作用によってモデルの予測を動的に誘導できるようにする、という思想です。 我々の実験では、SOTAの視覚インコンテキスト学習モデルは相互作用の手がかりを効果的に活用できず、しばしばユーザーのガイダンスを完全に無視してしまうことが示されました。一方で、我々の手法は、制御可能でユーザー主導のシナリオにおいて優れており、インタラクティブなセグメンテーションで +7.95% IoU、指示付き超解像で +2.46 PSNR、インタラクティブな物体除去で -3.14% LPIPS の改善を達成しました。これにより、本研究は、硬い静的なタスク適応と、ユーザー中心の視覚インコンテキスト学習における流動的なインタラクティビティとのギャップを埋めます。
静的なものからインタラクティブへ:ユーザ主導タスクに適応する視覚イン・コンテキスト学習
arXiv cs.CV / 2026/4/9
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、視覚イン・コンテキスト学習モデルの重要な弱点に取り組む。すなわち、これらは新しいタスクに対して例によって適応できる一方で、予測を導くための走り書き、クリック、バウンディングボックスといったユーザのガイダンスを直接取り込むことができない。
- そこで、静的な視覚イン・コンテキスト学習器(特にDeLVM)を、ユーザが制御するインタラクティブなシステムであるInteractive DeLVMへ変換する手法を提案する。具体的には、ユーザのインタラクションを、例の入出力ペアへ符号化する。
- このアプローチは、タスク固有の微調整を行わずに、未見のインタラクションパターンを扱えるという視覚イン・コンテキスト学習の中核的な考え方を維持しつつ、ユーザが出力を動的に改善できるようにする。
- 実験の結果、最先端の視覚イン・コンテキスト学習モデルではインタラクションの手がかりがしばしば無視されることが示される。一方、Interactive DeLVMは、インタラクティブセグメンテーション(+7.95% IoU)、指示付き超解像(+2.46% PSNR)、インタラクティブな物体除去(-3.14% LPIPS)を改善する。
- 全体として本研究は、硬直した静的タスク適応と、現実のアプリケーションに必要な柔軟でユーザ中心の視覚インタラクティビティとのギャップを埋めることを目指している。



