単一のハブ文がCLIPを壊す:hubnessを用いたマルチモーダルエンコーダの脆弱性の特定
arXiv cs.CL / 2026/5/1
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は、高次元の埋め込み空間で「ハブ埋め込み」が多くの無関係な例に近づいてしまうhubness問題が、埋め込みベースのタスクを損なう可能性があることを説明しています。
- 画像とテキストを共有埋め込み空間に投影するクロスモーダルエンコーダ(CLIP系)に焦点を当て、ハブの存在が悪用されうると主張しています。
- 著者らは、ハブ埋め込みとそれに対応するハブ文(hub text)を特定する手法を提案しています。
- MSCOCOおよびnocapsでのキャプション評価、ならびにMSCOCOとFlickr30kでの画像→テキスト検索の実験により、この手法が多くの画像で単一のハブ文を見つけ、類似度スコアが人間が書いた参照キャプションと同等、あるいはそれ以上になることを示しました。
- これらの結果は、クロスモーダルエンコーダの評価や検索パイプラインにおいて、hub文がメトリクスを「攻略」できる実務上の脆弱性があることを示唆しています。




