概要: オブジェクト検出の進歩にもかかわらず、航空画像は依然として難しい領域です。というのも、モデルが空間解像度、シーン構成、意味ラベルのカバレッジの違いにわたってうまく一般化できないことが多いためです。データセット間での地理的文脈、センサ特性、対象物分布の違いは、従来のモデルが一貫した移転可能な表現を学習する能力を制限します。このようなデータで訓練された共有手法は、本質的に異なるドメイン全体に対して統一された表現を押し付けがちで、その結果、地域固有の内容での性能が低下し、未知の対象カテゴリに対処する際の柔軟性も損なわれます。これに対処するために、航空検出における構造化された専門化を可能にする新しいモジュラー学習フレームワークを提案します。本手法では、モジュラリティを2段階持つ階層的ルーティング機構を導入します。具体的には、潜在地理埋め込みを用いてデータセットを専門的な処理モジュールへルーティングするグローバルなエキスパート割当層と、画像の部分領域を地域固有のサブモジュールへ割り当てるローカルなシーン分解機構です。これにより、我々の手法はデータセット間だけでなく、複雑なシーンの内部でも専門化できます。さらに、フレームワークには条件付きエキスパートモジュールが含まれており、推論時に外部の意味情報(例: カテゴリ名やテキスト記述)を用いることで、再学習や微調整なしに未知の対象カテゴリの検出を可能にします。単一の表現(モノリシックな表現)を超えることで、本手法はリモートセンシングにおけるオブジェクト検出のための適応的なフレームワークを提供します。4つのデータセットに対する包括的な評価により、多データセットの一般化、地域の専門化、オープンカテゴリ検出における改善が示されています。
HMR-Net:空中画像におけるドメイン横断物体検出のための階層型モジュラー・ルーティング
arXiv cs.CV / 2026/4/22
📰 ニュースModels & Research
要点
- この論文は、空中画像の物体検出モデルが空間解像度、シーン構成、センサー特性、ラベル/カテゴリのカバー範囲の違いによって、データセット間で一般化しにくい点を指摘しています。
- HMR-Netは、潜在的な地理埋め込みを用いてグローバルなエキスパートへデータをルーティングする層と、シーンを分解してサブ領域を地域固有のモジュールへ割り当てる層の、2段階の階層型モジュラー機構を提案しています。
- さらに、カテゴリ名やテキスト記述などの外部セマンティック情報を用いるconditional expertにより、推論時に新しい物体カテゴリを再学習や微調整なしで検出可能にします。
- 4つの空中画像データセットでの評価により、複数データセットでの汎化、地域別の専門化、オープンカテゴリ(新規カテゴリ)検出における改善が示されています。


