データ・インフルエンス志向ツリー探索による効率的なマルチエージェントシステム学習
arXiv cs.CL / 2026/4/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、MCTSに基づく合成データ生成でLLMベースのマルチエージェントシステムの自己学習を強化する際、データ選定をQ値だけに頼ると非効率になり得ると主張しています。
- データ・インフルエンス志向ツリー探索(DITS)を提案し、インフルエンススコアでツリー探索と、学習に用いる合成データの選択の両方を導く枠組みを示しています。
- 微分不可能な指標に対してもインフルエンススコアを推定する手法を導出し、推論時の計算を活用することで計算コストを大幅に削減しています。
- 8つのマルチエージェントデータセットでの実験によりDITSの頑健性と有効性が確認され、データ合成時にQ値ではなくインフルエンススコア推定へ推論リソースを多く割り当てる方が、学習の効率と性能をより高められることが示されています。




