Code-Space Response Oracles: 大規模言語モデルを用いて解釈可能なマルチエージェント方針を生成する
arXiv cs.AI / 2026/3/12
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- CSROは、ブラックボックスな RL オラクルを LLM に置換し、方針を人間が読めるコードとして生成することで、マルチエージェント環境における解釈可能性と信頼性を向上させます。
- 最適応答計算をコード生成タスクとして再定義し、ゼロショットプロンプティング、反復的な洗練、および \\emph{AlphaEvolve}(分散型LLMベースの進化システム)を探索します。
- このアプローチは、ベースラインと競争力のある性能を達成しつつ、多様で説明可能な方針の集合を生み出し、不透明な方針パラメータから解釈可能なアルゴリズム挙動へ焦点を移します。
- 事前学習済みの LLM 知識を活用することで、CSROは検査・デバッグ・推論が容易な、複雑で人間のような戦略を発見できます。




