SpecEyes:推論的知覚と計画によってエージェンティックなマルチモーダルLLMを加速する

arXiv cs.CL / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • SpecEyesは、知覚→推論→ツール呼び出しのループが連鎖することによって生じる、エージェンティックなマルチモーダルLLMにおける高い遅延(“agentic depth”)に着目する。
  • この手法では、軽量でツール不要のMLLMを推論的プランナー(speculative planner)として用い、実行の軌跡を予測することで、高コストなツール連鎖が不要になる可能性が高い場合に早期終了できるようにする。
  • さらに、自己検証をいつ信頼するかを、回答の分離可能性(answer separability)に基づく認知ゲーティング機構として導入し、オラクルラベルへの依存を回避する。
  • SpecEyesは、異種並列ファンネル(heterogeneous parallel funnel)を追加し、小型モデルの推論的ステップを大モデルが逐次のままである一方、並行して実行することで、エンドツーエンドのスループットを向上させる。
  • V* Bench、HR-Bench、POPEでの実験では、精度を維持または改善しつつ(最大+6.7%)、1.1〜3.35倍の高速化が報告されており、特に並行サービングのワークロードで効果が大きい。

Abstract

エージェント型マルチモーダル大規模言語モデル(MLLM)(例:OpenAI o3、Gemini Agentic Vision)は、反復的な視覚ツール呼び出しによって目覚ましい推論能力を達成します。しかし、知覚・推論・ツール呼び出しのループがカスケードされることで、重要な逐次的オーバーヘッドが生じます。このオーバーヘッドはエージェント的デプス(agentic depth)と呼ばれ、許容しがたいレイテンシを引き起こし、システム全体の同時実行性を深刻に制限します。そこで本研究では、この逐次的なボトルネックを打ち破るエージェント級の推論加速フレームワークであるSpecEyesを提案します。主要な洞察は、軽量でツール不要のMLLMが、実行の軌跡(trajectory)を予測する推論計画(speculative planner)として機能できるという点です。これにより、精度を犠牲にせずに、高価なツール連鎖の早期終了を可能にします。推論計画を制御するために、オラクルとなるラベルを必要としない自己検証におけるモデルの自信を定量化する、答えの分離可能性(answer separability)に基づく認知ゲーティング機構を導入します。さらに、異種並列フィンネル(heterogeneous parallel funnel)を設計し、小型モデルのステートレスな並行性を活用して、大型モデルのステートフルな逐次実行をマスクし、システムのスループットを最大化します。V* Bench、HR-Bench、POPEに関する大規模な実験により、SpecEyesはエージェント型ベースラインに対して1.1〜3.35倍の高速化を達成し、精度を維持するか、あるいは改善さえすること(最大+6.7%)が示されました。これにより、同時実行ワークロード下での提供(serving)スループットが向上します。