事前学習済みビジョントランスフォーマーを用いたHuman-in-the-Loopによる物体検索の再検討

arXiv cs.CV / 2026/4/2

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ラベルなしの大規模な画像集合から、ユーザーが指定した物体カテゴリの多様な画像を、初期のクエリと反復的な関連性フィードバックのみを用いて見つけることを目的とし、事前にラベルを用意しないHuman-in-the-Loop物体検索を再検討する。
相互的な検索を、能動学習に基づく二値分類問題として定式化し、システムが各イテレーションで有益なサンプルを選択してユーザーが注釈を付与し、関連性の識別能力を段階的に向上させる枠組みを示す。
目標物が小さな領域にしか存在しない可能性があるため、純粋にグローバルな記述子ではなく、局所的でインスタンスを意識した表現が必要となるという、多物体・雑然としたシーンにおける追加的な難しさを強調する。
著者らは、事前学習済みのVision Transformer（ViT）表現を活用し、画像ごとにどの物体インスタンスを考慮するか、注釈の形式、能動サンプル選択戦略、そしてグローバルな文脈ときめ細かな局所詳細のバランスを取る表現方法といった設計上の選択肢を検討する。
多物体データセットでの実験により、複数の表現戦略を比較し、能動学習に駆動される効果的なインタラクティブ物体検索パイプラインを構築するための実践的な指針を提供する。

要旨: 既存のアプローチを踏まえて、ユーザーが提示するクエリによって関心のあるクラスの物体を特定し、そのクラスに属する物体を含む画像を反復的に取得するというタスクである、人間参加型（Human-in-the-Loop）物体検索を改めて検討します。ラベルのない大量の画像コレクションから出発し、事前のラベルを一切用いずに、初期クエリとユーザーによる関連度フィードバック（Relevance Feedback）のみに依存して、物体カテゴリの多様な実例を迅速に同定することが目的です。検索プロセスは二値分類タスクとして定式化されます。すなわち、反復的なユーザーとの対話を通じて、システムがクエリに対して関連のある画像と関連のない画像を継続的に区別するよう学習します。この対話は、能動学習（Active Learning）ループによって導かれます。各反復において、システムはユーザーの注釈のために有益なサンプルを選択し、それによって検索性能を改善します。本タスクは、複雑で雑然としたシーンの中で関心対象の物体が画像のごく小さな領域にしか存在しない可能性がある、多物体データセットにおいて特に困難です。物体中心の設定では大域的な記述子で事足りることが多いのに対し、多物体画像ではより適応的な局所的記述子が必要になります。本研究では、事前学習済みのViT表現を活用することで、人間参加型（Human-in-the-Loop）物体検索タスクを定式化し、再検討します。あわせて、画像内でどの物体インスタンスを考慮すべきか、注釈はどのような形式であるべきか、能動的選択（Active Selection）はどのように適用すべきか、そしてどの表現戦略が物体の特徴を最もよく捉えるか、といった重要な設計上の問いに取り組みます。多物体データセットにまたがって複数の表現戦略を比較し、大域的な文脈の把握と、微細な局所物体の詳細への焦点付けとの間に存在するトレードオフを示します。本研究の結果は、物体クラス検索のための能動学習に基づく、効果的なインタラクティブ検索パイプラインの設計に関する実践的な知見を提供します。