データ・インフルエンス志向ツリー探索による効率的なマルチエージェントシステム学習

arXiv cs.CL / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、MCTSに基づく合成データ生成でLLMベースのマルチエージェントシステムの自己学習を強化する際、データ選定をQ値だけに頼ると非効率になり得ると主張しています。
データ・インフルエンス志向ツリー探索（DITS）を提案し、インフルエンススコアでツリー探索と、学習に用いる合成データの選択の両方を導く枠組みを示しています。
微分不可能な指標に対してもインフルエンススコアを推定する手法を導出し、推論時の計算を活用することで計算コストを大幅に削減しています。
8つのマルチエージェントデータセットでの実験によりDITSの頑健性と有効性が確認され、データ合成時にQ値ではなくインフルエンススコア推定へ推論リソースを多く割り当てる方が、学習の効率と性能をより高められることが示されています。

Abstract

モンテカルロ木探索（MCTS）に基づく手法は、大規模言語モデル（LLM）ベースのマルチエージェントシステム（MAS）の自己学習を強化するための合成データ生成に有望なアプローチを提供します。これらの手法は、Q値を活用して各エージェントの貢献を推定します。しかし、情報価値のあるデータを特定するためにQ値のみに依存すると、データ合成の目的と整合しない可能性があります。というのも、焦点は、モデル学習を最もよく改善するデータを選択することにあるべきだからです。この不一致に対処するために、本稿ではデータ影響（Data Influence）志向のツリー探索（DITS）という新しい枠組みを提案します。DITSは、影響スコアを組み込むことで、ツリー探索とデータ選択の両方を導きます。影響スコアを活用することで、システム改善に最も大きく寄与するデータを効果的に特定でき、それによってモデル性能が向上します。さらに、微分不可能な指標に合わせた影響スコア推定手法を導出し、推論計算を利用することで計算オーバーヘッドを大幅に削減します。8つのマルチエージェントデータセットに対する大規模な実験により、提案手法の頑健性と有効性が示されます。特に、本研究の結果は、データ合成の際にQ値ではなく影響スコアを推定するために推論リソースをより多く割り当てることが、より効果的かつ効率的にモデル学習を改善できることを明らかにしています。