SpecEyes：推論的知覚と計画によってエージェンティックなマルチモーダルLLMを加速する

arXiv cs.CL / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

SpecEyesは、知覚→推論→ツール呼び出しのループが連鎖することによって生じる、エージェンティックなマルチモーダルLLMにおける高い遅延（“agentic depth”）に着目する。
この手法では、軽量でツール不要のMLLMを推論的プランナー（speculative planner）として用い、実行の軌跡を予測することで、高コストなツール連鎖が不要になる可能性が高い場合に早期終了できるようにする。
さらに、自己検証をいつ信頼するかを、回答の分離可能性（answer separability）に基づく認知ゲーティング機構として導入し、オラクルラベルへの依存を回避する。
SpecEyesは、異種並列ファンネル（heterogeneous parallel funnel）を追加し、小型モデルの推論的ステップを大モデルが逐次のままである一方、並行して実行することで、エンドツーエンドのスループットを向上させる。
V* Bench、HR-Bench、POPEでの実験では、精度を維持または改善しつつ（最大+6.7%）、1.1〜3.35倍の高速化が報告されており、特に並行サービングのワークロードで効果が大きい。

Abstract

エージェント型マルチモーダル大規模言語モデル（MLLM）（例：OpenAI o3、Gemini Agentic Vision）は、反復的な視覚ツール呼び出しによって目覚ましい推論能力を達成します。しかし、知覚・推論・ツール呼び出しのループがカスケードされることで、重要な逐次的オーバーヘッドが生じます。このオーバーヘッドはエージェント的デプス（agentic depth）と呼ばれ、許容しがたいレイテンシを引き起こし、システム全体の同時実行性を深刻に制限します。そこで本研究では、この逐次的なボトルネックを打ち破るエージェント級の推論加速フレームワークであるSpecEyesを提案します。主要な洞察は、軽量でツール不要のMLLMが、実行の軌跡（trajectory）を予測する推論計画（speculative planner）として機能できるという点です。これにより、精度を犠牲にせずに、高価なツール連鎖の早期終了を可能にします。推論計画を制御するために、オラクルとなるラベルを必要としない自己検証におけるモデルの自信を定量化する、答えの分離可能性（answer separability）に基づく認知ゲーティング機構を導入します。さらに、異種並列フィンネル（heterogeneous parallel funnel）を設計し、小型モデルのステートレスな並行性を活用して、大型モデルのステートフルな逐次実行をマスクし、システムのスループットを最大化します。V* Bench、HR-Bench、POPEに関する大規模な実験により、SpecEyesはエージェント型ベースラインに対して1.1〜3.35倍の高速化を達成し、精度を維持するか、あるいは改善さえすること（最大+6.7%）が示されました。これにより、同時実行ワークロード下での提供（serving）スループットが向上します。

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

日経XTECH

機械学習・ディープラーニングにおける数学の必要性

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

Santa Augmentcode Intent Ep.6

Dev.to

あなたのエージェントが別のエージェントを雇った。出力はゴミだった。金も消えた。

Dev.to

SpecEyes：推論的知覚と計画によってエージェンティックなマルチモーダルLLMを加速する

要点

Abstract

関連記事

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

機械学習・ディープラーニングにおける数学の必要性

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

Santa Augmentcode Intent Ep.6

あなたのエージェントが別のエージェントを雇った。出力はゴミだった。金も消えた。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer