弁別的なリレーショナル(関係)シグナルと適応的なセマンティック中心によって導かれる言語支援画像クラスタリング
arXiv cs.LG / 2026/3/26
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、視覚言語モデルを用いて画像にテキストを付加し、クラスタリング品質を向上させる新しい言語支援画像クラスタリング(LAIC)フレームワークを提案する。
- 先行するLAIC手法の欠点、すなわちクラス間の識別可能性を低下させる、画像ごとのテキスト特徴が過度に類似してしまう点を対象とする。
- 関係性の手がかりを用いて、より弁別的なクロスモーダルの自己教師ありシグナルを生成することで、ほとんどのVLMの学習メカニズムに対応できる。
- プロンプト学習により、固定された既製の画像—テキスト整合に頼るのではなく、最終的なクラスタ割り当てを導くカテゴリごとの連続的なセマンティック中心を学習する。
- 8つのベンチマークデータセットにまたがる実験では、最先端手法に対して平均2.6%の改善を示し、セマンティック中心が解釈可能であることが報告されている。