肝心な部分を見極める: 効率的なVLMのための高解像度クロップ取得

arXiv cs.CV / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

AwaResは、視覚-言語モデル（Vision-Language Models）向けの空間オンデマンドフレームワークで、低解像度のグローバルビューで動作し、クエリに必要な箇所でのみ高解像度クロップを選択的に取得することで、高い精度を保ちつつ効率的にします。
本アプローチは、低解像度と高解像度の回答を比較してクロップが必要か自動的に判断するジャッジと、証拠を局在化するオラクル・グラウンディングモデルを使用して、マルチターンのツール利用経路向けに結果を離散的なクロップ集合へマッピングします。
トレーニングはコールドスタートの教師あり微調整（SFT）を組み合わせ、その後、複合報酬を用いたマルチターンGRPOを適用します。報酬はクロップコストを抑制しつつ、意味論的正確性を報いるものです。
この手法は、VLMsにおける小さくても重要なディテール（例：テキスト）を保持しつつ計算コストを削減することを目指しており、プロジェクトページが提供されています。

要旨：Vision-language models (VLMs) は通常、ネイティブの高解像度で画像を処理し、精度と計算効率の間のトレードオフを強いる。高解像度の入力は細かなディテールを捉えるが、計算コストが大きくなる。一方、低解像度の入力は効率を促進するが、小さな文字のような重要な視覚情報を見逃す可能性がある。私たちは AwaRes を提示する。これは空間オンデマンドのフレームワークで、低解像度のグローバルビューで動作し、ツール呼出しを用いて特定のクエリに必要な高解像度セグメントのみを取得することにより、精度と効率のトレードオフを解決する。私たちは教師ありデータを自動的に構築します。ジャッジが低解像度と高解像度の回答を比較して切り抜きが必要かどうかをラベル付けし、オラクル・グラウンディング・モデルが正解の証拠を局在化します。これを離散的なクロップ集合にマッピングして、マルチターンのツール使用の軌道を形成します。私たちは、コールドスタートの SFT に続く複数ターンの GRPO を用いた訓練を行い、意味的な回答の正確さと明示的なクロップコストペナルティを組み合わせた複合報酬を適用します。プロジェクトページ: https://nimrodshabtay.github.io/AwaRes

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

日経XTECH

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

日経XTECH

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

日経XTECH

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

肝心な部分を見極める: 効率的なVLMのための高解像度クロップ取得

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か 米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも