FineViT: 密な再キャプションを用いて高精細知覚を段階的に解き放つ
arXiv cs.CV / 2026/3/19
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- FineViTは、粗いウェブデータを密度の高い再キャプションに置換することで、従来のCLIPベースのエンコーダで生じる情報損失を低減し、細粒度の知覚を目指すビジョンエンコーダを導入します。
- このモデルは、グローバルな再キャプション付き画像とテキストペアを高解像度のネイティブ解像度でゼロから学習し、豊かな意味的基盤を構築した上で、LLMsとの整合性を通じて局所的な知覚を改善します。
- 高品質な局所キャプションを4億5000万以上含む精選データセットFineCap-450Mを用いて、LLMアラインメントを通じて局所的なディテールを強化します。
- 実験結果は、ゼロショット認識と長文脈のリトリーブで最先端を示し、FineViTはSigLIP2やQwen-ViTのようなマルチモーダルエンコーダを、MLLMsに統合した際に上回ることを示しています。
- 本研究は、マルチモーダル系における高精細視覚知覚の新たなベースラインとしてFineViTを提案し、下流のAI知覚タスクやモデル設計に影響を与える可能性があります。