ConInfer：学習不要のオープンボキャブラリー遠隔センシングセグメンテーションのための文脈認識型推論

arXiv cs.CV / 2026/4/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

ConInferは、視覚言語モデルを活用しつつ、画像全体における予測の連携方法を改善することで、学習不要のオープンボキャブラリー遠隔センシングセグメンテーションの枠組みとして提案される。
本手法は、従来手法の主要な制約に対処し、パッチ単位の独立した推論を超えて複数の空間単位を同時に予測し、それらの間の意味的な依存関係を明示的にモデル化することを目指す。
グローバルな文脈手がかりを組み込むことで、ConInferは、大規模な遠隔センシングシーン（強い空間的・意味的相関を持つ）のセグメンテーションの一貫性、頑健性、および汎化性能を向上させる。
複数のベンチマークデータセットでの実験により、従来の1画素ベースのVLM（視覚言語モデル）手法（例：SegEarth-OV）に対して一貫した改善が示される。報告されている平均改善は、オープンボキャブラリー意味セグメンテーションで2.80%、物体抽出で6.13%である。
著者らは、再現やさらなる検証を可能にする実装コードを公開GitHubリポジトリとして提供している。

要旨: 画像言語モデルによって強化された、学習不要のオープン語彙リモートセンシングセグメンテーション（OVRSS）は、リモートセンシング画像においてカテゴリに依存しない意味理解を実現するための有望なパラダイムとして登場してきました。既存の手法は主に、特徴表現の強化、またはモダリティ間の不一致の緩和に注力し、パッチ単位での予測精度を向上させています。しかし、こうした独立した予測方式は、本質的にリモートセンシングデータの固有の特性と根本的に整合していません。実運用の場面では、リモートセンシングのシーンは通常大規模であり、強い空間的相関および意味的相関を示すため、単独のパッチ単位の予測だけでは正確なセグメンテーションには不十分です。この制約に対処するため、複数の空間単位にわたる共同予測を行い、それらの単位間の意味的依存関係を明示的にモデル化する、OVRSS向けの文脈対応推論フレームワークであるConInferを提案します。グローバルな文脈手がかりを組み込むことで、本手法は複雑なリモートセンシング環境におけるセグメンテーションの一貫性、頑健性、ならびに汎化性能を大幅に向上させます。複数のベンチマークデータセットに対する大規模な実験により、本アプローチが、SegEarth-OVのような最先端のピクセル単位のVLMベースラインを常に上回ることが示されており、オープン語彙意味セグメンテーション課題およびオブジェクト抽出課題において、それぞれ平均で2.80%および6.13%の改善を達成しています。実装コードは以下で入手可能です: https://github.com/Dog-Yang/ConInfer