SpecEyes:推論的知覚と計画によってエージェンティックなマルチモーダルLLMを加速する
arXiv cs.CL / 2026/3/25
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- SpecEyesは、知覚→推論→ツール呼び出しのループが連鎖することによって生じる、エージェンティックなマルチモーダルLLMにおける高い遅延(“agentic depth”)に着目する。
- この手法では、軽量でツール不要のMLLMを推論的プランナー(speculative planner)として用い、実行の軌跡を予測することで、高コストなツール連鎖が不要になる可能性が高い場合に早期終了できるようにする。
- さらに、自己検証をいつ信頼するかを、回答の分離可能性(answer separability)に基づく認知ゲーティング機構として導入し、オラクルラベルへの依存を回避する。
- SpecEyesは、異種並列ファンネル(heterogeneous parallel funnel)を追加し、小型モデルの推論的ステップを大モデルが逐次のままである一方、並行して実行することで、エンドツーエンドのスループットを向上させる。
- V* Bench、HR-Bench、POPEでの実験では、精度を維持または改善しつつ(最大+6.7%)、1.1〜3.35倍の高速化が報告されており、特に並行サービングのワークロードで効果が大きい。
