マルチターンLLMエージェントのための非対称アクター・クリティック

arXiv cs.AI / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、リトライが不可能なマルチターンのLLMエージェント会話において、確実な振る舞いを実現するという課題に取り組み、オープンエンドなやり取りでの一発成功を目指す。
独自の大規模LLMを固定した「アクター」とし、小型のオープンソースのクリティックが実行時の監督を行い、同一のインタラクション軌跡の中で介入できる非対称なアクター・クリティック構成を提案する。
生成と検証の非対称性を用いてアクターの学習を回避する。具体的には、大規模モデルは高品質な応答を生成し、小型のクリティックは行動を効果的に監視・監督できる。
クリティックの微調整に用いる監督信号を作成するデータ生成パイプラインを含み、さらに信頼性とタスク成功率を向上させる。
tau-benchおよびUserBenchでの実験では、強力な単一エージェントのベースラインに比べて大きな改善が報告されており、微調整した軽量クリティックがクリティック役としてより大きな独自モデルと同等、あるいは上回る性能を示す。

概要: 大規模言語モデル（LLM）は強い推論能力や会話能力を示しますが、多ターンのやり取りにおいて信頼できる挙動を保証することは依然として難題です。多くの実運用アプリケーションでは、エージェントはリトライが不可能なワンショット設定で成功する必要があります。既存の手法は、追加の試行を必要とするリフレクションや事後評価に依存しているか、あるいは、独自のLLMを活用できないために完全に学習可能なモデルを前提としています。そこで本研究では、信頼できる会話エージェントのための非対称なアクター・クリティック枠組みを提案します。強力な独自LLMをアクターとして用い、一方でより小型のオープンソースのクリティックが実行時の監督（runtime supervision）を提供し、同一の相互作用の軌跡（interaction trajectory）内でアクターの行動を監視し、介入します。学習ベースのアクター・クリティック手法とは異なり、私たちの枠組みは、開放的な会話環境において動作する固定されたアクターを監督します。設計は、生成と検証の非対称性を活用しています。すなわち、高品質な生成には大規模モデルが必要である一方で、効果的な監督はより小型のモデルで実現できる場合が多いのです。さらに、アクターを変更せずにクリティックの微調整（fine-tuning）を行うための監督信号を生成するデータ生成パイプラインも導入します。 $tau$ -benchおよびUserBenchでの実験では、本アプローチが強力な単一エージェントのベースラインに比べて、信頼性とタスク成功率を大幅に向上させることが示されています。加えて、軽量なオープンソースのクリティックは、クリティック役割において大規模な独自モデルと互角、あるいはそれを上回ります。また、クリティックの微調整によって、いくつかの最先端手法に比べて追加の改善が得られます。