FLARE:視覚言語表現の完全統合による深いクロスモーダル理解
arXiv cs.CV / 2026/4/30
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- FLAREは、単純なMLPプロジェクタに頼って後段のLLMデコーディングへクロスモーダル相互作用を委ねるのではなく、パイプライン全体で視覚と視覚言語を完全にアラインし深く統合する新しいVLMファミリーです。
- 具体的には、ピクセルレベルのアラインメントを実現するテキストガイド付き視覚エンコーディング、テキストに条件付けて視覚特徴を集約する文脈対応のアラインメントデコーディング、そしてモダリティ間の橋渡しを促すデュアル意味マッピング損失を組み込みます。
- さらに、テキスト駆動のVQAシンセシスにより高品質なVQAペアと対応する画像を生成し、データレベルで最適化できるようにしています。
- FLAREは3Bおよび8Bスケールで固定・動的解像度の両設定にて学習され、既存手法に対して大幅な性能向上を示し、Cambrian-1 8BやFlorence-VL 8Bのようなより大きなベースラインを上回るなど、汎化性能も保っています。
- 著者らはコード、モデル重み、データセットを公開しており、再現や発展的な研究が進めやすい環境を提供しています。




