要旨: オープンワード語彙意味セグメンテーションは、固定されたクラス集合を超えて物体や画像領域を分割できるようにすることで、動的な環境において柔軟性を提供します。しかし、既存の手法は多くの場合単一視点の画像に依存しており、特に遮蔽(オクルージョン)や物体境界の近傍において、空間的な精度が得られにくいという課題があります。私たちは、初めての「ステレオ・オープンワード語彙(Stereo OpEN Vocabulary)意味セグメンテーション」に関する研究であるSENSEを提案します。これは、ステレオ視覚と視覚-言語モデルを活用して、オープンワード語彙意味セグメンテーションを強化します。ステレオ画像ペアを取り入れることで、空間的推論とセグメンテーション精度を向上させる幾何学的手がかりを導入します。PhraseStereoデータセットで学習した本手法は、フレーズに基づく(phrase-grounded)タスクで強力な性能を達成し、ゼロショット設定における汎化も示します。PhraseStereoにおいて、ベースライン手法に対して平均精度(Average Precision)で+2.9%、最良の競合手法に対して+0.76%の改善を示します。さらにSENSEは、ベースライン研究と比較して、CityscapesでmIoUが+3.5%、KITTIで+18%の相対的な改善も提供します。意味と幾何を共同で推論することで、SENSEは自然言語からの正確なシーン理解を支援し、自律ロボットや高度道路交通システム(Intelligent Transportation Systems)にとって不可欠です。
SENSE:ステレオ・オープン・語彙セマンティックセグメンテーション
arXiv cs.CV / 2026/4/20
📰 ニュースModels & Research
要点
- 本論文は、ステレオ視覚とビジョン・ランゲージモデルを組み合わせて行う「ステレオ対応のオープン語彙セマンティックセグメンテーション」に特化した初めての手法として、SENSEを提案します。
- 既存手法の多くが単一視点入力に依存し、遮蔽や物体境界付近で空間的な精度を落としやすいという課題に対処します。
- PhraseStereoデータセットで学習し、SENSEはフレーズ・グラウンディングの性能向上と、ゼロショット設定での汎化の良さを示します。
- 具体的には、PhraseStereoでベースラインに対してAverage Precisionが+2.9%向上し、CityscapesでmIoUが+3.5%、KITTIで+18%改善したと報告しています。
- 本手法は、セマンティクスと幾何(ジオメトリ)を共同で推論することで、自己運転ロボットやITS(高度道路交通システム)に不可欠な自然言語による正確なシーン理解を支えることを目指します。
