要旨: 多段ズームインパイプラインはGUIグラウンディングで広く利用されているものの、それらが生成する中間予測は通常、座標のリマッピング後に破棄されます。私たちは、これらの中間出力には、無償で利用できる有用な信頼度のシグナルが含まれていることを観察します。それがズーム整合性であり、モデルのステップ2予測とクロップ中心の距離です。対数確率やトークン単位の不確実性とは異なり、ズーム整合性は共有座標空間における幾何学的な量であるため、校正なしに、構造の異なるVLM同士で直接比較可能です。私たちは、この量が理想化した条件(完璧なステップ2、クロップ内にターゲットが存在)下でステップ1の空間誤差の線形推定量であることを証明し、さらに2つのVLMにおいて予測の正しさと相関することを示します(AUC = 0.60; Spearman のρ = -0.14、p < 10^{-6}(KV-Ground-8B); ρ = -0.11、p = 0.0003(Qwen3.5-27B))。この相関は小さいものの、モデル、アプリケーションカテゴリ、動作OSにわたって一貫しています。概念実証として、ズーム整合性を用いて専門家モデルと汎用家モデルの間をルーティングし、それらの間にあるオラクルの余裕(oracle headroom)の16.5%を取り込むことに成功します(+0.8%、McNemar p = 0.19)。コードは https://github.com/omxyz/zoom-consistency-routing で利用可能です。
Zoomの一貫性:マルチステップの視覚グラウンディング・パイプラインにおける無料の信頼性シグナル
arXiv cs.AI / 2026/4/20
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、マルチステップのズームイン・パイプラインにおける中間出力には、「zoom consistency」と呼ばれる無料の信頼性シグナルが含まれており、これはステップ2の予測とクロップ中心の幾何学的距離として定義できると主張している。
- zoom consistencyは、共通の座標空間上の幾何学的量であるため校正不要の不確実性指標になり、異なるアーキテクチャのVLM間で直接比較できると提案されている。
- 理想化した条件下ではzoom consistencyがステップ1の空間誤差の線形推定量になることを示し、さらに実験的に2つのVLMにおいて正解性と相関することを報告している。
- 概念実証として、zoom consistencyを用いて専門モデルと汎用モデルの間で入力をルーティングし、オラクルの余地の16.5%を取り込む(+0.8%、McNemar p = 0.19)ことを示している。
- ルーティング手法のコードはGitHubで公開されている。



