FLARE:視覚言語表現の完全統合による深いクロスモーダル理解

arXiv cs.CV / 2026/4/30

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • FLAREは、単純なMLPプロジェクタに頼って後段のLLMデコーディングへクロスモーダル相互作用を委ねるのではなく、パイプライン全体で視覚と視覚言語を完全にアラインし深く統合する新しいVLMファミリーです。
  • 具体的には、ピクセルレベルのアラインメントを実現するテキストガイド付き視覚エンコーディング、テキストに条件付けて視覚特徴を集約する文脈対応のアラインメントデコーディング、そしてモダリティ間の橋渡しを促すデュアル意味マッピング損失を組み込みます。
  • さらに、テキスト駆動のVQAシンセシスにより高品質なVQAペアと対応する画像を生成し、データレベルで最適化できるようにしています。
  • FLAREは3Bおよび8Bスケールで固定・動的解像度の両設定にて学習され、既存手法に対して大幅な性能向上を示し、Cambrian-1 8BやFlorence-VL 8Bのようなより大きなベースラインを上回るなど、汎化性能も保っています。
  • 著者らはコード、モデル重み、データセットを公開しており、再現や発展的な研究が進めやすい環境を提供しています。

Abstract

私たちは、完全なビジョン‐言語アライメントと統合パラダイムを備えた視覚言語モデル(VLM)のファミリーであるFLAREを導入します。モダリティのアライメントを単一のMLPプロジェクタに依存し、モダリティ間の相互作用をLLMのデコーディングに委ねる既存の手法とは異なり、FLAREはパイプライン全体にわたって深く動的に統合を実現します。主な貢献は次のとおりです。(1)ピクセルレベルのアライメントを達成するために、視覚エンコーディング中にテキスト情報を取り込むテキストガイド付き視覚エンコーディング。(2)デコーディング時にテキストの文脈に条件付けて視覚特徴を集約し、クエリレベルの統合を可能にする文脈認識型アライメント・デコーディング。(3)両モダリティからの特徴マッピングを監督し、モダリティ間のブリッジングを可能にするデュアルセマンティクス・マッピング損失。(4)高品質なテキストを活用してVQAペアを生成し、対応する画像を合成するテキスト駆動のVQA合成により、データレベルでの最適化を可能にします。私たちは、固定および動的解像度の両設定で、3Bおよび8BスケールにおいてFLAREを学習し、完全モダリティ・アライメントが既存手法を大幅に上回りつつ、高い汎化性能を維持できることを示します。FLARE 3Bは、630個の視覚トークンのみを用いてCambrian-1 8BおよびFlorence-VL 8Bを上回ります。アブレーション研究では、FLAREが最小限の計算コストで既存手法よりも優れた性能を達成することが明らかになっています。動的解像度がなくても、FLAREはLLaVA-NeXTを上回り、提案アプローチの有効性を裏付けます。私たちはコード、モデル重み、データセットを https://github.com/starriver030515/FLARE で公開します。