2段階の人—物体インタラクション検出における失敗モードの研究

arXiv cs.AI / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、現在のHOIパイプラインで広く用いられている2段階の人—物体インタラクション(HOI)検出モデルにおける失敗モードを調査する。

Abstract

人-物体インタラクション(HOI)検出は、画像内の人間と物体の間の相互作用を検出することを目的としています。近年の進歩により既存のベンチマークにおける性能は向上していますが、その評価は主に全体的な予測精度に焦点を当てており、モデルの失敗の根本的な原因についての洞察は限られています。とりわけ、現代のモデルは、複数人が登場し、かつ珍しい相互作用の組み合わせを含むような複雑なシーンでしばしば困難に直面します。本研究では、現在の多くのHOI検出アプローチの基盤となっている二段階HOIモデルの失敗モードをよりよく理解するための調査を提示します。大規模なベンチマークを構築するのではなく、HOI検出を複数の解釈可能な視点に分解し、それらの次元にわたるモデルの挙動を分析して、さまざまな種類の失敗パターンを調べます。既存のHOIデータセットを、人-物体-相互作用の構成(例:複数人の相互作用、物体の共有)によって整理したものから画像の一部を厳選し、これらの構成のもとでモデルの挙動を分析することで、異なる失敗モードを検討します。この設計により、HOIモデルが異なるシーン構成のもとでどのように振る舞い、なぜ予測に失敗するのかを分析できます。重要なのは、全体としてのベンチマーク性能の高さが、人と物体の関係に関する頑健な視覚的推論を必ずしも反映しているとは限らないことです。本研究が、HOIモデルの限界に関する有用な示唆を提供し、この分野における今後の研究のための観察を提供できればと考えています。