要旨:Vision-language models (VLMs) は通常、ネイティブの高解像度で画像を処理し、精度と計算効率の間のトレードオフを強いる。高解像度の入力は細かなディテールを捉えるが、計算コストが大きくなる。一方、低解像度の入力は効率を促進するが、小さな文字のような重要な視覚情報を見逃す可能性がある。私たちは AwaRes を提示する。これは空間オンデマンドのフレームワークで、低解像度のグローバルビューで動作し、ツール呼出しを用いて特定のクエリに必要な高解像度セグメントのみを取得することにより、精度と効率のトレードオフを解決する。私たちは教師ありデータを自動的に構築します。ジャッジが低解像度と高解像度の回答を比較して切り抜きが必要かどうかをラベル付けし、オラクル・グラウンディング・モデルが正解の証拠を局在化します。これを離散的なクロップ集合にマッピングして、マルチターンのツール使用の軌道を形成します。私たちは、コールドスタートの SFT に続く複数ターンの GRPO を用いた訓練を行い、意味的な回答の正確さと明示的なクロップコストペナルティを組み合わせた複合報酬を適用します。プロジェクトページ: https://nimrodshabtay.github.io/AwaRes
肝心な部分を見極める: 効率的なVLMのための高解像度クロップ取得
arXiv cs.CV / 2026/3/19
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- AwaResは、視覚-言語モデル(Vision-Language Models)向けの空間オンデマンドフレームワークで、低解像度のグローバルビューで動作し、クエリに必要な箇所でのみ高解像度クロップを選択的に取得することで、高い精度を保ちつつ効率的にします。
- 本アプローチは、低解像度と高解像度の回答を比較してクロップが必要か自動的に判断するジャッジと、証拠を局在化するオラクル・グラウンディングモデルを使用して、マルチターンのツール利用経路向けに結果を離散的なクロップ集合へマッピングします。
- トレーニングはコールドスタートの教師あり微調整(SFT)を組み合わせ、その後、複合報酬を用いたマルチターンGRPOを適用します。報酬はクロップコストを抑制しつつ、意味論的正確性を報いるものです。
- この手法は、VLMsにおける小さくても重要なディテール(例:テキスト)を保持しつつ計算コストを削減することを目指しており、プロジェクトページが提供されています。