概要: オープン語彙意味セグメンテーション(OVSS)は、オープン語彙プロンプトを用いて画像内の任意のカテゴリ領域を分割することを目指し、そのためには既存の手法がピクセルレベルの視覚言語アラインメント能力を備えている必要があります。通常、この能力は、視覚特徴と語彙特徴の間のコサイン類似度、すなわちログit(logits)を計算し、さらにログitと正解(GT)との間の分布の不一致を最小化することで行われます。これにより最適なログitが生成され、その後にセグメンテーションマップを構築するために用いられます。しかしながら、この方法は、時間のかかる反復的な学習、またはモデル固有の注意(attention)による調整に依存しています。本研究では、ログit最適化プロセスを回避し、セグメンテーションマップの解析解を直接導出する、より直接的なアプローチを提案します。重要な仮説として、分布の不一致は意味情報を符号化している、つまりこの不一致は同一カテゴリに属するパッチ間では一貫性を示す一方、異なるカテゴリ間では一貫性を示さないと考えます。この仮説に基づき、分布の不一致に対する解析解をそのまま意味マップとして直接利用します。言い換えると、分布の不一致の最適化を、その解析解を導出することとして再定式化することで、時間のかかる反復的な学習を不要にし、モデル固有の注意調整からも解放され、8つのベンチマークデータセットで最先端の性能を達成します。
ロジット最適化なしの直接セグメンテーション:学習不要のオープン語彙セマンティックセグメンテーション
arXiv cs.CV / 2026/4/10
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、コサイン類似度「ロジット」に基づく通常の画素レベルの視覚-言語アラインメント手順や、反復的な最適化を取り除くことで、オープン語彙セマンティックセグメンテーションを対象とする。
- 時間のかかる学習や、モデル固有の注意機構の変調によってロジットを最適化するのではなく、意味セグメンテーションマップについて解析的な解を導出する学習不要の手法を提案する。
- 中心となる仮説は、視覚特徴と言語特徴の分布の不一致が意味を符号化し、画像パッチ内では同一カテゴリの一貫性があり、カテゴリ間では不一致が生じるという点である。
- この分布の不一致に対する解析的解を直接用いることで、反復的な学習を回避しつつ、8つのベンチマークデータセットで最新水準の結果を達成する。


