AI Navigate

マルチエージェントLLMルーティングにおける来歴パラドックス: LDPにおける委任契約と認証済みアイデンティティ

arXiv cs.AI / 2026/3/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 研究は、代理人が自己申告の品質スコアを過大評価すると、品質ベースのルーティングが来歴パラドックスを生み出し、ランダムルーティングよりも性能が劣ることを示している。
  • LLMデリゲート・プロトコル(LDP)を、権限を明示的な目標、予算、失敗ポリシーによって拘束する委任契約で拡張する。
  • 自己申告の品質と検証済み品質を区別する、主張ベースと検証済みアイデンティティモデルを導入し、さらに自動回復を可能にする型付き故障意味論を組み込む。
  • 10のシミュレートされたデリゲートと実在のClaudeモデルを用いた実験では、自己申告ルーティングはランダムルーティングに比べて劣る一方、検証済みルーティングはほぼ最適な性能を達成し(d = 9.51、p < 0.001)、検証オーバーヘッドを最小限に抑えつつ、構成間で幅広い堅牢性を示す。

要約: 複数エージェントのLLMシステムは信頼境界を越えてタスクを委任しますが、現在のプロトコルは検証不能な品質主張の下での委任を規定していません。委任者が自己申告の品質スコアを過大評価できる場合、品質ベースのルーティングは出所のパラドックスを生み出します: 最悪の委任者を体系的に選択し、ランダムよりも悪い性能を示します。我々は LLM Delegate Protocol (LDP) を、権限を明示的な目標、予算、失敗ポリシーを通じて制限する委任契約で拡張します;自己申告の品質と検証済み品質を区別する claimed-vs-attested identity モデル;および自動回復を可能にする型付きの失敗セマンティクス。10 のシミュレートされた委任者を用いた統制実験を、実際の Claude モデルで検証した結果、自己申告品質スコアによるルーティングはランダム選択よりも悪い性能を示します(シミュレーション: 0.55 対 0.68; 実モデル: 8.90 対 9.30)、一方で検証済みルーティングはほぼ最適な性能を達成します(d = 9.51, p < 0.001)。感度分析は36 通りの構成に渡って、このパラドックスが不正直な委任者が存在する場合に信頼性高く現れることを確認します。すべての拡張はサブマイクロ秒の検証オーバーヘッドで後方互換性を持ちます。

返却形式: {"translated": "翻訳されたHTML"}