Q-Zoom:効率的なマルチモーダル大規模言語モデルのための、クエリ認識型アダプティブ知覚

arXiv cs.CV / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • Q-Zoomは、マルチモーダルLLMに対して高解像度画像処理を常時行わず、クエリ(要求)に応じて粗視的→精密のcoarse-to-fineで知覚を切り替える枠組みを提案している。
  • 軽量なDynamic Gating Networkが、粗い全体特徴で十分な場合は高解像度処理を迂回し、自己注意の計算コスト増大を抑える設計になっている。
  • 微細なタスクが必要な場合は、Self-Distilled Region Proposal Network(SD-RPN)が中間特徴からタスク関連のRoIを自己教師ありで高精度にローカライズする。
  • 一貫性に基づく生成戦略で決定的なルーティングラベルを作り、さらに連続的な時空間アラインメントとターゲット微調整で、RoIの高密度情報を全体レイアウトに融合する。

要旨: MLLMは、ドキュメント理解や緻密なシーン認識といった細粒度タスクのために、高解像度の視覚入力を必要とします。しかし、現在のグローバルな解像度スケーリングのパラダイムは、空間的な疎性やクエリの意図を無視しつつ、冗長な視覚トークンを二次の自己注意機構に無差別に大量投入してしまい、推論スループットを深刻にボトルネック化します。これを克服するために、本研究では、クエリを意識した適応的高解像度知覚フレームワークであるQ-Zoomを提案します。これは効率的なcoarse-to-fine(粗から精へ)の方式で動作します。まず、軽量なDynamic Gating Networkが、粗いグローバル特徴で十分な場合には安全に高解像度処理を迂回します。次に、細粒度の知覚を要求するクエリに対しては、Self-Distilled Region Proposal Network(SD-RPN)が中間特徴空間からタスクに関連するRegion-of-Interest(RoI)を正確に直接ローカライズします。これらのモジュールを効率的に最適化するために、ゲーティングネットワークは整合性を考慮した生成戦略を用いて決定論的なルーティングラベルを導出し、SD-RPNは完全自己教師ありの蒸留パラダイムを採用します。さらに、連続的な時空間アラインメント手法と、狙いを定めた微調整によって、密なローカルRoIを粗いグローバルなレイアウトへシームレスに融合します。大規模な実験の結果、Q-Zoomは支配的なパレートフロンティアを確立することが示されました。主要なテストベッドとしてQwen2.5-VL-7Bを用いると、Q-ZoomはDocument & OCRベンチマークで推論を2.52倍加速し、高解像度シナリオでは4.39倍加速しながら、ベースラインの最高精度と一致します。さらに、知覚的忠実度を最大化するように設定すると、これらの各ベンチマークにおいてQ-Zoomはベースラインの最高性能をそれぞれ1.1%および8.1%上回ります。これらの堅牢な改善は、Qwen3-VL、LLaVA、ならびに登場しつつあるRLベースの「thinking-with-image」モデルへもシームレスに移植できます。プロジェクトページはhttps://yuhengsss.github.io/Q-Zoom/ で利用可能です。