単一のハブ文がCLIPを壊す:hubnessを用いたマルチモーダルエンコーダの脆弱性の特定

arXiv cs.CL / 2026/5/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、高次元の埋め込み空間で「ハブ埋め込み」が多くの無関係な例に近づいてしまうhubness問題が、埋め込みベースのタスクを損なう可能性があることを説明しています。
  • 画像とテキストを共有埋め込み空間に投影するクロスモーダルエンコーダ(CLIP系)に焦点を当て、ハブの存在が悪用されうると主張しています。
  • 著者らは、ハブ埋め込みとそれに対応するハブ文(hub text)を特定する手法を提案しています。
  • MSCOCOおよびnocapsでのキャプション評価、ならびにMSCOCOとFlickr30kでの画像→テキスト検索の実験により、この手法が多くの画像で単一のハブ文を見つけ、類似度スコアが人間が書いた参照キャプションと同等、あるいはそれ以上になることを示しました。
  • これらの結果は、クロスモーダルエンコーダの評価や検索パイプラインにおいて、hub文がメトリクスを「攻略」できる実務上の脆弱性があることを示唆しています。

Abstract

ハブネス問題(ハブ埋め込みが多くの無関係な例に近い状態になる)は、高次元の埋め込み空間でしばしば発生し、情報検索や自動評価指標などの目的に対して実務上の脅威となり得ます。特に、文字列マッチングのような直接の比較によっては、テキストと画像の間のクロスモーダル類似度を計算できないため、異なるモダリティを共有空間へ投影するクロスモーダルエンコーダは、さまざまなクロスモーダル応用に役立ちます。そのため、ハブの存在は実務上の脅威になり得ます。クロスモーダルエンコーダの脆弱性を明らかにするために、本研究ではハブ埋め込みと、それに対応するハブテキストを特定する手法を提案します。MSCOCOおよびnocapsにおける画像キャプション評価、ならびにMSCOCOおよびFlickr30kにおける画像からテキストへの検索タスクに関する実験により、本手法は、多くの画像において、人間が書いた参照キャプションと比べて不合理にも同等またはそれ以上の類似度スコアを達成する単一のハブテキストを特定できることが示され、それによってクロスモーダルエンコーダに内在する脆弱性が明らかになります。