画像分類のためのグラフ畳み込みネットワークで強化された階層型ビジョントランスフォーマー

arXiv cs.CV / 2026/4/21

📰 ニュースModels & Research

要点

  • GCN-HViTは、画像分類の精度向上を目的として、グラフ畳み込みネットワークで強化した階層型ビジョントランスフォーマーを提案しています。
  • パッチサイズの選択に関するViTの重要な制約に対し、階層設計により小さなパッチと大きなパッチの情報を複数レベルで統合することで対応しています。
  • GCNを用いて局所的なパッチ同士のつながりを捉え、各パッチの2D位置埋め込みを生成することで、ViTの1D位置エンコーディングの弱点を補います。
  • 局所と全体のモデリングの補完ギャップにも対処しており、GCNが局所表現を抽出し、トランスフォーマーがパッチ間の大域的な関係を学習します。
  • 3つの実世界データセットで、GCN-HViTが画像分類において最先端(state-of-the-art)の性能を示したと報告されています。

概要: Vision Transformer(ViT)は自己注意機構を導入し、Graph Convolutional Networks(GCN)がデータ表現と解析に提案されて成功裏に適用されたことで、画像分類分野に新たなブレークスルーをもたらしました。しかし、さらなる発展を制限する重要な課題があります: (1)ViTが選択するパッチサイズは正確な予測にとって重要であり、自然な疑問が生じます。つまり、パッチのサイズを適切に選ぶ方法、または小さなパッチとより大きなパッチを包括的にどのように組み合わせるか、です。 (2)視覚タスクにおいて空間構造情報は重要ですが、1Dの位置埋め込みではパッチの空間構造情報をより正確に捉えられません。 (3)GCNは画像ノード間の局所的な結合関係を捉えることができますが、グローバルなグラフ構造情報を捉える能力が不足しています。対照的に、ViTの自己注意機構は画像パッチ間のグローバルな関係を導き出せますが、画像の局所構造をモデル化できません。これらの制限を克服するために、画像分類のためのGraph Convolutional Network(GCN)によって強化された階層型Vision Transformer(GCN-HViT)を提案します。具体的には、設計した階層型ViTは、各レベル内でグローバルなスケールにおけるパッチ単位の情報相互作用をモデル化でき、さらに複数レベルにわたって小さなパッチと大きなパッチの階層的な関係をモデル化できます。加えて、提案するGCN手法はローカル特徴抽出器として機能し、各画像パッチの局所表現を取得します。これは2次元空間における各パッチの2D位置埋め込みとして機能します。同時に、各レベル内のローカルなスケールでのパッチ単位の情報相互作用もモデル化します。3つの実世界データセットに対する大規模な実験により、GCN-HViTが最先端の性能を達成することを示します。