Code-Space Response Oracles: 大規模言語モデルを用いて解釈可能なマルチエージェント方針を生成する

arXiv cs.AI / 2026/3/12

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

CSROは、ブラックボックスな RL オラクルを LLM に置換し、方針を人間が読めるコードとして生成することで、マルチエージェント環境における解釈可能性と信頼性を向上させます。
最適応答計算をコード生成タスクとして再定義し、ゼロショットプロンプティング、反復的な洗練、および \\emph{AlphaEvolve}（分散型LLMベースの進化システム）を探索します。
このアプローチは、ベースラインと競争力のある性能を達成しつつ、多様で説明可能な方針の集合を生み出し、不透明な方針パラメータから解釈可能なアルゴリズム挙動へ焦点を移します。
事前学習済みの LLM 知識を活用することで、CSROは検査・デバッグ・推論が容易な、複雑で人間のような戦略を発見できます。

Abstract

最近のマルチエージェント強化学習の進展、特に Policy-Space Response Oracles (PSRO) は、ますます複雑な領域において近似的なゲーム理論的均衡の計算を可能にしてきました。しかし、これらの方法は、ブラックボックスなニューラルネットワークポリシーを生み出す深層強化学習オラクルに依存しており、解釈・信頼・デバッグが難しくなっています。私たちは Code-Space Response Oracles (CSRO) を導入します。これは RL オラクルを Large Language Models (LLMs) に置き換えることでこの課題に対処する新しいフレームワークです。CSRO は最適応答の計算をコード生成タスクとして再構成し、LLM に人間が読めるコードとして直接ポリシーを生成させます。このアプローチは、本質的に解釈可能なポリシーを生み出すだけでなく、LLM の事前学習済み知識を活用して複雑で人間らしい戦略を発見します。我々は、LLM ベースのオラクルを構築・強化する複数の方法を探ります：ゼロショット・プロンプティング、反復的改良、および \emph{AlphaEvolve}、分散型 LLM ベースの進化システム。CSRO がベースラインと競合する性能を達成しつつ、説明可能なポリシーの多様なセットを生み出すことを示します。我々の研究は、多エージェント学習に新しい視点を提示し、不透明なポリシー・パラメータの最適化から、解釈可能なアルゴリズム的挙動の合成へと焦点を移します。