ZEBRAARENA: ツール拡張LLMsにおける推論-行動結合を研究する診断シミュレーション環境

arXiv cs.AI / 2026/3/20

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

ZebraArena は、ツール拡張LLMsにおける推論-行動結合を研究するための、難易度を制御可能な手続き的に生成される診断環境であり、記憶獲得を抑制する知識を最小限に抑える設計を特徴とする。
ZebraArena のタスクは、狙いを定めたツールの使用を通じてのみ入手可能な情報を必要とし、外部情報取得と演繹的推論の間に解釈可能なインターフェースを作り出す。
この環境は、一意解を持つ決定論的評価と、効率的なツール使用を測るための理論的最適クエリ回数を提供する。実験では、GPT-5 や Gemini 2.5 Pro のような先端モデルが難問の事例で約60％の正答率を達成した。
本研究は、理論的最適性と実際のツール使用の間のギャップを浮き彫りにし、GPT-5 が理論上の最適値より70〜270％多くのツール呼び出しを行うことを指摘している。LLM における推論と行動の組み合わせに関する研究をさらに進める必要性を強調している。

要旨: ツールを組み込んだ大規模言語モデル（LLMs）は、複数のステップにわたる推論を外部アクションと密接に結び付けなければならない。しかし、既存のベンチマークはこの相互作用を、複雑な環境ダイナミクス、記憶された知識、またはデータセット汚染と混同しがちである。本論文では ZebraArena を導入する。 ZebraArena は、ツールを組み込んだ LLM の推論と行動の結合を研究するための、難易度を制御可能で知識を最小限に抑えた設計を持つ手続き的生成診断環境であり、記憶やデータセット汚染からの利得を制限する。 ZebraArena の各タスクは、目的を絞ったツールの使用によってのみ得られる一連の重要情報を必要とし、外部情報取得と演繹的推論の間に解釈可能なインターフェースを生み出す。この設計は、一意解を通じた決定論的評価と、効率的なツール使用を測定するための理論上の最適クエリ回数を提供する。 ZebraArena には、深い推論と正確な外部ツール呼び出しの組み合わせが必要であり、GPT-5 や Gemini 2.5 Pro のような最前線の推論モデルでも難解なインスタンスで60%の精度しか達成できていないという課題が残る。私たちはまた、理論的最適性と実用的なツール使用の間には持続的なギャップがあることを観察する。例えば、GPT-5 は理論上の最適値より70〜270%多くのツール呼び出しを使用する。私たちは評価の主要な発見を強調し、ZebraArena が内部推論と外部行動の相互作用に関するさらなる研究を刺激することを期待します。