要約: 視覚と言語モデル(VLMs)の最近の進展は、オープンボキャブラリの意味論と部位セグメンテーション(OSPS)に対して大きな注目を集めている。しかし、従来の手法は、コストボリュームから画像とテキストの整合性の手掛かりを、空間的およびクラスレベルの集約という直列構造を通じて抽出するため、クラスレベルの意味論と空間文脈の間で知識の干渉が生じる。したがって、本論文は上述の課題を緩和するために、単純でありながら効果的な並列コスト集約(PCA-Seg)パラダイムを提案し、コストボリュームからの視覚と言語の整合情報をより豊かに捉えられるようにする。具体的には、意味的および文脈的ストリームを効率的に統合する、専門家主導の知覚学習(EPL)モジュールを設計します。これには複数の観点から補完的な特徴を抽出するマルチエキスパートパーサを組み込みます。さらに、各特徴のピクセル特異的な重みを適応的に学習する係数マッパーを設計し、補完的な知識を統一された頑健な特徴埋め込みへ統合できるようにします。さらに、意味的および文脈的ストリーム間の冗長性を緩和するための特徴直交化デカップリング(FOD)戦略を提案し、EPLモジュールが直交化された特徴から多様な知識を学習できるようにします。8つのベンチマークにおける広範な実験は、PCA-Segの各並列ブロックがわずか0.35Mパラメータを追加するだけで、OSPSの最先端性能を達成することを示しています。
PCA-Seg: オープンボキャブラリのセマンティックおよびパーツセグメンテーションにおけるコスト集約の再検討
arXiv cs.CV / 2026/3/19
📰 ニュースModels & Research
要点
- PCA-Seg は、オープンボキャブラリのセマンティックおよびパーツセグメンテーションにおけるクラスレベルのセマンティクスと空間的文脈の間の知識干渉を緩和するために、並列コスト集約を導入します。
- 専門家主導の知覚学習(EPL)モジュールと、意味特徴と文脈特徴を融合するマルチエキスパート・パーサー、および適応的な特徴統合のためにピクセル固有の重みを学習する係数マッパを備えます。
- 特徴直交化デカップリング(FOD)戦略は、意味的ストリームと文脈ストリーム間の冗長性を低減し、直交化された補完的知識から学習できるようにします。
- 8つのベンチマークにおける広範な実験により、各並列ブロックは約0.35Mのパラメータを追加するにとどまりつつ、最先端のOSPS性能を実現します。
- 本手法は、オープンボキャブラリのセグメンテーションタスクにおける視覚と言語の整合性を改善する、軽量でスケーラブルな道筋を提供します。