HELM: 階層的で明示的なラベルモデリングとグラフ学習によるマルチラベル画像分類

arXiv cs.CV / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

HELMは、リモートセンシングにおける複雑なラベル依存関係に対処する、多ラベル画像分類の階層的で明示的なラベルモデリングフレームワークを導入します。これにはマルチパスの階層と、ラベルなしデータを用いた半教師付き学習が含まれます。
本手法は Vision Transformer 内で階層固有のクラス・トークンを使用し、ラベル間のニュアンスのある相互作用を捉えます。
グラフ畳み込みネットワークを用いて階層構造を明示的にエンコードし、階層を意識した埋め込みを生成します。
自己教師ありブランチがラベルなしの画像を効果的に活用できるようにし、ラベルが少ない場合の性能を向上させます。
4つの RSI データセット（UCM、AID、DFC-15、MLRSNet）で、HELMは教師ありおよび半教師あり設定の双方で最先端の性能を発揮し、特にラベルが乏しい場合に強いことを示します。

Hierarchical multi-label classification (HMLC) は、リモートセンシングにおける複雑なラベル依存関係のモデリングに不可欠です。既存の手法は、複数のブランチにまたがるマルチパス階層に対処するのに苦労するほか、ラベルなしデータをほとんど活用できません。私たちは、これらの制約を克服する新しいフレームワーク HELM (\textit{階層的で明示的ラベルモデリング}) を提案します。HELM: (i) Vision Transformer 内で階層固有のクラス・トークンを用いて、ラベル間のニュアンスのある相互作用を捉える; (ii) グラフ畳み込みネットワークを用いて階層構造を明示的にエンコードし、階層を意識した埋め込みを生成する; (iii) 自己教師付きブランチを統合し、ラベルなし画像を効果的に活用する。私たちは、4つのリモートセンシング画像（RSI）データセット（UCM、AID、DFC-15、MLRSNet）で包括的な評価を実施します。HELMは教師あり・半教師あり設定の両方で最先端の性能を達成し、強力なベースラインを一貫して上回り、特にラベルが少ない状況で顕著な強さを示します。