Q-Zoom：効率的なマルチモーダル大規模言語モデルのための、クエリ認識型アダプティブ知覚

arXiv cs.CV / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

Q-Zoomは、マルチモーダルLLMに対して高解像度画像処理を常時行わず、クエリ（要求）に応じて粗視的→精密のcoarse-to-fineで知覚を切り替える枠組みを提案している。
軽量なDynamic Gating Networkが、粗い全体特徴で十分な場合は高解像度処理を迂回し、自己注意の計算コスト増大を抑える設計になっている。
微細なタスクが必要な場合は、Self-Distilled Region Proposal Network（SD-RPN）が中間特徴からタスク関連のRoIを自己教師ありで高精度にローカライズする。
一貫性に基づく生成戦略で決定的なルーティングラベルを作り、さらに連続的な時空間アラインメントとターゲット微調整で、RoIの高密度情報を全体レイアウトに融合する。

要旨: MLLMは、ドキュメント理解や緻密なシーン認識といった細粒度タスクのために、高解像度の視覚入力を必要とします。しかし、現在のグローバルな解像度スケーリングのパラダイムは、空間的な疎性やクエリの意図を無視しつつ、冗長な視覚トークンを二次の自己注意機構に無差別に大量投入してしまい、推論スループットを深刻にボトルネック化します。これを克服するために、本研究では、クエリを意識した適応的高解像度知覚フレームワークであるQ-Zoomを提案します。これは効率的なcoarse-to-fine（粗から精へ）の方式で動作します。まず、軽量なDynamic Gating Networkが、粗いグローバル特徴で十分な場合には安全に高解像度処理を迂回します。次に、細粒度の知覚を要求するクエリに対しては、Self-Distilled Region Proposal Network（SD-RPN）が中間特徴空間からタスクに関連するRegion-of-Interest（RoI）を正確に直接ローカライズします。これらのモジュールを効率的に最適化するために、ゲーティングネットワークは整合性を考慮した生成戦略を用いて決定論的なルーティングラベルを導出し、SD-RPNは完全自己教師ありの蒸留パラダイムを採用します。さらに、連続的な時空間アラインメント手法と、狙いを定めた微調整によって、密なローカルRoIを粗いグローバルなレイアウトへシームレスに融合します。大規模な実験の結果、Q-Zoomは支配的なパレートフロンティアを確立することが示されました。主要なテストベッドとしてQwen2.5-VL-7Bを用いると、Q-ZoomはDocument & OCRベンチマークで推論を2.52倍加速し、高解像度シナリオでは4.39倍加速しながら、ベースラインの最高精度と一致します。さらに、知覚的忠実度を最大化するように設定すると、これらの各ベンチマークにおいてQ-Zoomはベースラインの最高性能をそれぞれ1.1%および8.1%上回ります。これらの堅牢な改善は、Qwen3-VL、LLaVA、ならびに登場しつつあるRLベースの「thinking-with-image」モデルへもシームレスに移植できます。プロジェクトページはhttps://yuhengsss.github.io/Q-Zoom/ で利用可能です。

Black Hat Asia

AI Business

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

日経XTECH

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

日経XTECH

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

日経XTECH

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

日経XTECH

Q-Zoom：効率的なマルチモーダル大規模言語モデルのための、クエリ認識型アダプティブ知覚

要点

関連記事

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画 テラファブ「製造技術を刷新」

エプソン、インクジェットで半導体製造 ラピダスに出資「連携深める」

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」