文脈の感度が人間と機械の視覚的整合性を改善する

arXiv cs.CV / 2026/4/16

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、現在の埋め込みベースの機械学習における類似度指標は、人間が対象物や関係を認識する方法に比べて、文脈非依存になりがちだと主張する。
  • 提案手法では、アンカー画像を同時の文脈として与えたうえで、ニューラルネットワークの埋め込みを用いる文脈感度の高い類似度計算方法を提示する。
  • triplet odd-one-out(3者のうち1つだけ異なるものを選ぶ)タスクを用いることで、この手法は文脈非依存のベースラインに比べ最大15%の精度向上をもたらす。
  • この向上は、標準的な視覚基盤モデルと、「人間整合(human-aligned)」されたモデルの両方で一貫して報告されており、その利点が幅広く適用可能であることを示唆している。

要旨: 現代の機械学習モデルは典型的に、入力を高次元の埋め込み空間における固定点として表現します。このアプローチは幅広い下流タスクに対して強力であることが証明されていますが、根本的には、人間が情報を処理する方法とは異なっています。人間は環境に絶えず適応しているため、対象やそれらの関係を、非常に文脈依存的な仕方で表現します。このギャップに対処するために、本論文では、ニューラルネットワークの埋め込みに基づく文脈依存的な類似度計算の手法を提案します。これは、アンカー画像を同時の文脈として機能させる、トリプレットの「ひとりだけ違う(odd-one-out)」課題のモデリングに適用されます。文脈をモデル化することで、文脈非依存のモデルに比べて「ひとりだけ違う」の精度を最大15%向上させることができます。この改善は、元のビジョン基盤モデルと「人間整合(human-aligned)」されたビジョン基盤モデルの両方において、一貫していることを見出します。