職場でエージェント型の RAG システムを構築しており、同じ問題に直面し続けています。すなわち、エージェントが長く生産性の低いツール呼び出しのループに陥ってしまうことです。だから、MiroThinker の論文(arXiv: 2603.15726)が、新しいモデルは前世代と比べて約17%の性能向上を、対話ラウンド数を約43%減らして達成していると主張しているのを見て、実際の仕組みを理解したいと思いました。答えは彼らの "検証中心の推論" アーキテクチャにあることが分かりました。論文で最も面白い部分だと思います。
システムは二つのレベルで動作します。Local Verifier は私が最も魅力的だと感じる部分です。エージェントが最も高い確率の軌道を貪欲に追うのを許す代わりに、Local Verifier はモデルにその道筋を越えて積極的に探索し、意思決定を下す前に環境からのフィードバックを収集させます。最初の仮説を単に確認するのではなく、各ステップで反証となる証拠を求めるようエージェントを促す、という見方です。前のモデル(MiroThinker 1.7)が頻繁に失敗した BrowseComp の難関サブセット295問では、Local Verification を追加しただけで Pass@1 が約32から58.5へ改善しました(+26ポイント)。しかし、私の関心を引いたのはここです:対話ステップ数が概ね1200から約210へと、約6分の1に減少した点です。著者はこのステップ削減が設計上の目的ではなく副産物として生じたと明示しています。彼らの解釈は、決定を下す前に検証を強制されると、デッドエンドの探索に費やすステップがはるかに少なくなるということです。なお、この検証動作は、解の検証済みの成功軌跡のみを用い、個々の意思決定点での単回 supervision を用いて訓練される点に留意しておくべきです。私が考えるのは、もし失敗した中間ステップのノイズも含む全軌跡で訓練したら、モデルはそれらの生産性の低いパターンを再現することを学習してしまうかもしれない、ということです。
Global Verifier はより粗いレベルで動作し、彼らが呼ぶ「生成検証の非対称性」を活用します。エピソードの後、完全な証拠チェーンを整理し、証拠が不十分なら再サンプリングを要求し、最も完全な証拠で裏付けられた回答を選択します。これは制御可能な計算予算の下で動作し、BrowseComp の精度はその予算に対して概ね対数線形にスケールします(16x で約86、64x で約88)。Global Verifier は BrowseComp でさらに +14 ポイント、探索集約型タスクの SEAL 0 で +8、推論重視のタスクの FrontierScience Olympiad で +7.5、HLE で +4.8 を追加します。
この数値自体を超えて私が興味深いのは、対話の質と長さに関するより広い主張です。これまで私が目にしてきたほとんどのエージェント規模拡張の研究は、エージェントにより多くのステップ、より多くのツール、より長い文脈を与えることに焦点を当てています。ここでの主張は本質的に正反対です。エージェントに反証となる証拠を集めさせる検証メカニズムは、軌跡を圧縮しつつ精度を向上させます。もし検証メカニズムが本当に大きな効果を発揮しているのなら、より小さなモデルでも不均等に恩恵を受けると予想されます。MiroThinker 1.7 mini(総 MoE 30B、実際に活性化されるのは 3B)の結果はこれと一致しているように見えます。サイズの割には BrowseComp ZH および GAIA で GPT-5 や DeepSeek V3.2 を上回っており、規模だけの話ではない可能性を示唆しています。
ただし気になる点がいくつかあります:
- 最も印象的なアブレーション結果(32 → 58.5 の Local Verifier のジャンプ、Global Verifier の利得)は、オンラインサービスとしてのみ提供されるフラグシップの MiroThinker H1 でデモされているように見えます。論文は H1 の重み公開を明示的には述べていません。オープンソースのモデル(MiroThinker 1.7 および 1.7 mini、コードは GitHub、重みは HuggingFace)も競争力がありますが、検証機構の影響を示す主要なアブレーションは最も強力なモデルでは独立に再現できません。それが、アーキテクチャを本質とするこの論文の中心的貢献にとっては苛立たしい点です。現実的には、オープンソースのモデルですら推論時のコンテキスト長が 256K、温度 1.0、トップ p 0.95 で動作する必要があり、実際に動かすには相当なハードウェアが要ります。
- 約 1200 → 約 210 のステップ削減はあまりにも劇的で、ベースラインが病的にループしていたのではないかと疑問に思います。もし前のモデルが既に多くの生産性の低い循環をしていたとすれば、改善は検証が効率を高めるという一般原理というより、退化した挙動を修正したことを部分的に反映している可能性があります。論文は、約1000の削除されたステップが実際に何をしていたのかの詳細な内訳を提供していません。
- 対数線形の計算スケーリングはどこで飽和するのでしょうか。64x までテストしていますが、16x から 64x への曲線はわずか 2 ポイント程度です。これで既に限界利得に近づいているのでしょうか?
Local Verifier が、指導的探索に関する既存研究とどのように関係しているかについて、みなさんの意見を探っています。表面的には、ToT(Tree of Thoughts)のように、コミットする前に代替案を検討させる点が似ていますが、構造上の大きな違いは ToT が自己評価を通じて複数の推論分岐を並列に探索するのに対し、Local Verifier はツール使用ループ内で逐次的に動作し、環境的なフィードバック(実際のツール呼び出し結果)に依存する点です。環境が実際の信号を提供するエージェント的タスクにとっては意味のある区別のように感じますが、推論重視のベンチマークでは「環境」が実質的にモデル同士の自問自答に等しい場合、その区別が論文が示唆するほど重要かどうか、意見を伺いたいです。
[link] [comments]


