概要: 人と物体の相互作用(HOI)検出は、人間と物体の間の相互作用を予測することに関する、長年にわたるコンピュータビジョンの問題です。現在のHOIモデルは、学習時および推論時における相互作用の語彙に依存しており、それが静的環境への適用可能性を制限しています。マルチモーダル大規模言語モデル(MLLMs)の登場により、相互作用認識のためのより柔軟なパラダイムを探ることが現実的になってきました。本研究では、MLLMの観点からHOI検出を改めて見直し、野外(in-the-wild)HOI検出に適用します。私たちは、学習時と推論時の両方であらかじめ定義された相互作用リストを必要としない、新しいHOIドメインである制約なしHOI(U-HOI)タスクを定義します。この設定に対して、さまざまなMLLMを評価し、テスト時推論と、自由形式のテキストから構造化された相互作用を抽出するための言語からグラフへの変換を含むパイプラインを提案します。私たちの結果は、既存のHOI検出器の限界と、U-HOIにおけるMLLMの価値を浮き彫りにします。コードは https://github.com/francescotonini/anyhoi で公開予定です
制約のない人と物体の相互作用に向けて
arXiv cs.CV / 2026/4/16
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、人と物体の相互作用(HOI)の検出をコンピュータビジョンの問題として扱い、現行手法が学習時・推論時の双方で用いられる固定の相互作用語彙により制約されていると主張する。
- 事前に定義された相互作用リストの必要をなくす新しい「制約のないHOI(U-HOI)」タスクを提案し、より現実的な「実環境(in-the-wild)」での状況を対象とする。
- 著者らは、開かれた設定における相互作用認識のためにマルチモーダル大規模言語モデル(MLLM)を活用し、タスクに対して複数のMLLM候補を評価する。
- 彼らは、テスト時推論と、自由形式テキストから構造化された相互作用表現を抽出するための言語からグラフへの変換を含む処理パイプラインを導入する。
- 提案手法のコードを公開し、既存のHOI検出器には限界がある一方で、MLLMは制約のないHOI認識をより適切に支えることを報告する。




