大規模言語モデルを用いた視覚エンコーダの階層的事前学習

arXiv cs.AI / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、視覚エンコーダとLLMを独立したモジュールとして扱うのではなく、それらの間に階層的なクロス注意（cross-attention）を追加することで、視覚と言語のアラインメントを改善する枠組みHIVE（Hierarchical Pre-Training of Vision Encoders）を提案する。
HIVEは複数層にわたって構造化された視覚特徴を融合し、画像埋め込みを単純に平坦化するアプローチと比較して表現学習を強化し、勾配伝播（gradient flow）も改善すると著者らは主張している。
視覚エンコーダを段階的にLLMへと整合させるための3段階の学習戦略を提案し、安定した最適化と、より効果的なマルチモーダル融合を目指す。
画像分類および複数の視覚言語ベンチマーク（MME、GQA、OK-VQA、ScienceQAを含む）で実験を行った結果、HIVEは自己注意（self-attention）ベースの手法よりも優れた性能を示した。
結果は、階層的な視覚特徴の統合が、より効率的で表現力の高い視覚言語モデルにつながり得ることを示唆しており、今後の構造化されたクロスモーダル・アーキテクチャに関する研究を動機づける。

要旨: コンピュータビジョンの分野は、スケーラブルな視覚エンコーダとマルチモーダル事前学習フレームワークによって大きな進歩を遂げてきました。しかし、既存のアプローチの多くは、視覚エンコーダと大規模言語モデル（LLM）を独立したモジュールとして扱うため、階層的な視覚特徴の統合が制限されます。本研究では、視覚エンコーダとLLMの間に階層的なクロス・アテンションを導入することで、視覚と言語のアラインメントを強化する新しい枠組みHIVE（Hierarchical Pre-Training of Vision Encoders）を提案します。画像埋め込みを単にフラット化する従来手法とは異なり、HIVEは複数層にわたる構造化された特徴融合を可能にし、勾配の流れと表現学習を改善します。この相互作用を最適化するために、視覚エンコーダをLLMと段階的に整合させる3段階の学習戦略を導入し、安定した最適化と効果的なマルチモーダル融合を保証します。実験評価の結果、HIVEは画像分類だけでなく、MME、GQA、OK-VQA、ScienceQAといったベンチマーク上のさまざまな視覚-言語タスクでも優れた性能を達成し、自己注意ベースの手法を上回ります。これらの結果は、階層的な特徴統合の利点を示しており、より効率的で表現力の高い視覚-言語モデルへの道を切り拓きます。