弁別的なリレーショナル(関係)シグナルと適応的なセマンティック中心によって導かれる言語支援画像クラスタリング

arXiv cs.LG / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、視覚言語モデルを用いて画像にテキストを付加し、クラスタリング品質を向上させる新しい言語支援画像クラスタリング(LAIC)フレームワークを提案する。
  • 先行するLAIC手法の欠点、すなわちクラス間の識別可能性を低下させる、画像ごとのテキスト特徴が過度に類似してしまう点を対象とする。
  • 関係性の手がかりを用いて、より弁別的なクロスモーダルの自己教師ありシグナルを生成することで、ほとんどのVLMの学習メカニズムに対応できる。
  • プロンプト学習により、固定された既製の画像—テキスト整合に頼るのではなく、最終的なクラスタ割り当てを導くカテゴリごとの連続的なセマンティック中心を学習する。
  • 8つのベンチマークデータセットにまたがる実験では、最先端手法に対して平均2.6%の改善を示し、セマンティック中心が解釈可能であることが報告されている。

Abstract

言語支援による画像クラスタリング(LAIC)は、視覚言語モデル(VLM)を用いて入力画像に追加のテキストを付加し、クラスタリング性能を向上させます。近年の進展にもかかわらず、既存のLAIC手法はしばしば2つの問題を見落としています。(i)各画像のために構築されるテキスト特徴が非常に類似しており、その結果クラス間の識別性が弱い。(ii)クラスタリング手順が、あらかじめ作成された画像-テキストの対応関係に限定されており、テキストモダリティをより有効に活用する可能性が制限されている。これらの問題に対処するために、補完的な2つの要素を備えた新しいLAICフレームワークを提案します。まず、クロスモーダルな関係を活用して、クラスタリングのためのより識別的な自己教師あり信号を生成します。これは、ほとんどのVLMの学習メカニズムと互換性があります。次に、プロンプト学習によりカテゴリーごとの連続的な意味中心を学習し、それによって最終的なクラスタリング割り当てを生成します。8つのベンチマークデータセットに対する大規模な実験により、本手法が最先端手法に比べて平均2.6%の改善を達成し、学習された意味中心が強い解釈可能性を示すことを確認しました。コードは補足資料で利用可能です。