弁別的なリレーショナル（関係）シグナルと適応的なセマンティック中心によって導かれる言語支援画像クラスタリング

arXiv cs.LG / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、視覚言語モデルを用いて画像にテキストを付加し、クラスタリング品質を向上させる新しい言語支援画像クラスタリング（LAIC）フレームワークを提案する。
先行するLAIC手法の欠点、すなわちクラス間の識別可能性を低下させる、画像ごとのテキスト特徴が過度に類似してしまう点を対象とする。
関係性の手がかりを用いて、より弁別的なクロスモーダルの自己教師ありシグナルを生成することで、ほとんどのVLMの学習メカニズムに対応できる。
プロンプト学習により、固定された既製の画像—テキスト整合に頼るのではなく、最終的なクラスタ割り当てを導くカテゴリごとの連続的なセマンティック中心を学習する。
8つのベンチマークデータセットにまたがる実験では、最先端手法に対して平均2.6%の改善を示し、セマンティック中心が解釈可能であることが報告されている。

Abstract

言語支援による画像クラスタリング（LAIC）は、視覚言語モデル（VLM）を用いて入力画像に追加のテキストを付加し、クラスタリング性能を向上させます。近年の進展にもかかわらず、既存のLAIC手法はしばしば2つの問題を見落としています。（i）各画像のために構築されるテキスト特徴が非常に類似しており、その結果クラス間の識別性が弱い。（ii）クラスタリング手順が、あらかじめ作成された画像-テキストの対応関係に限定されており、テキストモダリティをより有効に活用する可能性が制限されている。これらの問題に対処するために、補完的な2つの要素を備えた新しいLAICフレームワークを提案します。まず、クロスモーダルな関係を活用して、クラスタリングのためのより識別的な自己教師あり信号を生成します。これは、ほとんどのVLMの学習メカニズムと互換性があります。次に、プロンプト学習によりカテゴリーごとの連続的な意味中心を学習し、それによって最終的なクラスタリング割り当てを生成します。8つのベンチマークデータセットに対する大規模な実験により、本手法が最先端手法に比べて平均2.6%の改善を達成し、学習された意味中心が強い解釈可能性を示すことを確認しました。コードは補足資料で利用可能です。

CopilotのExcelエージェントを使う、売上集計や分析用ブックを自動生成

日経XTECH

VoxtralResearchVoxtral TTSについて：高速で、即座に適応可能で、音声エージェント向けに臨場感のある発話を生成する最前線のオープンウェイト音声合成モデル

Mistral AI Blog

クラウドAIから専用AIボックスに切り替えた理由（そしてあなたもそうすべき理由）

Dev.to

2026年にMiMo V2 APIを無料で使う方法：完全ガイド

Dev.to

誰も解けないエージェントのメモリ問題：永続的なコンテキストのための実践的アーキテクチャ

Dev.to

弁別的なリレーショナル（関係）シグナルと適応的なセマンティック中心によって導かれる言語支援画像クラスタリング

要点

Abstract

関連記事

CopilotのExcelエージェントを使う、売上集計や分析用ブックを自動生成

VoxtralResearchVoxtral TTSについて：高速で、即座に適応可能で、音声エージェント向けに臨場感のある発話を生成する最前線のオープンウェイト音声合成モデル

クラウドAIから専用AIボックスに切り替えた理由（そしてあなたもそうすべき理由）

2026年にMiMo V2 APIを無料で使う方法：完全ガイド

誰も解けないエージェントのメモリ問題：永続的なコンテキストのための実践的アーキテクチャ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer