広告

SHOE:意味論的 HOI オープンボキャブラリ評価指標

arXiv cs.CV / 2026/4/3

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、mAP のような従来の HOI 評価指標が、HOI ラベルを離散的な文字列として扱い、意味の同等性を無視するため、オープンボキャブラリ HOI 検出を十分に評価できないと主張している。
  • SHOE という意味論的評価フレームワークを提案し、各予測された HOI を動詞成分と目的語成分に分解して、予測と正解の間の意味類似度を計算する。
  • SHOE は、複数の大規模言語モデル(LLM)にまたがる平均化スコアリング手法により意味類似度を推定し、厳密な語彙一致に頼らず類似度ベースのスコアを算出する。
  • HICO-DET などの標準ベンチマークにおける実験では、SHOE が既存指標よりも人間の判断によりよく一致し、平均的な人間評価との一致率は 85.73% であると報告している。
  • 著者らは、意味に基づくオープンエンドなマルチモーダル相互作用理解に関する今後の研究を支援するため、SHOE の評価指標を公開すると述べている。

Abstract

オープン・ボキャブラリの人と物体の相互作用(HOI)検出は、現実世界の状況において未見の相互作用へと汎化する、スケーラブルなシステムを構築するための一歩であり、人と物体の関係について推論する、基盤化されたマルチモーダル・システムを支えるものです。しかし、平均精度(mAP)などの標準的な評価指標は、HOIクラスを離散的なカテゴリラベルとして扱うため、意味的に妥当だが語彙的に異なる予測(例:「lean on couch(ソファにもたれる)」と「sit on couch(ソファに座る)」)に対して評価上の信用を与えられず、あらかじめ定義されたHOIラベルの集合を超えるオープン・ボキャブラリ予測を評価する上での適用範囲を制限しています。そこで本研究では、SHOE(Semantic HOI Open-Vocabulary Evaluation:意味ベースHOIオープン・ボキャブラリ評価)という新しい評価フレームワークを提案します。SHOEは、予測されたHOIラベルと正解(グラウンドトゥルース)HOIラベルの間の意味的類似性を取り込むことで評価します。SHOEは、各HOI予測を動詞成分と物体成分に分解し、複数の大規模言語モデル(LLM)の平均を用いてそれらの意味的類似性を推定し、完全一致にとどまらない整合性を評価するための類似度スコアに統合します。これにより、HICO-DETのような標準ベンチマークを用いて、既存のHOI検出手法と、オープンエンドの生成モデルの両方を柔軟かつスケーラブルに評価できます。実験結果では、SHOEのスコアは、人間の判断とよりよく一致することが示されました。LLMベースおよび埋め込みベースの既存ベースラインを含め、より一層人間の評価に整合し、平均の人間評価との一致率は85.73%に達しました。本研究は、相互作用に対する人間の理解をより反映した、意味的に根拠づけられたHOI評価の必要性を強調します。将来の研究を促進するために、我々の評価指標を一般に公開します。

広告
SHOE:意味論的 HOI オープンボキャブラリ評価指標 | AI Navigate