AI Navigate

交渉を学ぶ: LLMsにおける集合的価値整合のための多エージェント熟議

arXiv cs.CL / 2026/3/12

📰 ニュースModels & Research

要点

  • 新しい多エージェント交渉ベースのフレームワークが提案され、LLMsを集合的エージェンシー(CA)へ整合させ、複数の利害関係者が関与する環境での価値衝突の取り扱い能力を改善する。
  • 同じLLMの2つの自己対話インスタンスを、対立するペルソナに割り当て、構造化されたターン制対話を介して相互に利益となる解決策を合成する。
  • 学習は、人間のフィードバックからのRL(RLAIF)とGRPO、および外部報酬モデルを組み合わせ、最終的なCAスコアに基づいて対話トークンへ勾配を適用する。
  • 実証的な結果は、モデルが単一エージェントのベースラインと同程度のCA整合性を達成しつつ、対立解決の性能を大幅に改善し、一般的な言語能力を損なわないことを示している。
  • 本研究は、価値衝突シナリオで集合的意思決定をより支援するLLMsへの現実的な道として、交渉主導の熟議訓練を提案している。
要旨: 大規模言語モデル(LLMs)の整合性は、RLHFや憲法AIなどの単一エージェント設定の枠組みを通じてかなり進展してきたが、最近ではRLAIFのようなスケーラブルな代替案や整合性目的の進化を探究している。しかし、これらのアプローチは、価値が衝突し、熟議的な交渉能力が求められるマルチステークホルダー環境では依然として限界がある。本研究は、LLMsを集合的エージェンシー(CA)へ整合させつつ、対立解決能力を同時に向上させる、マルチエージェント交渉ベースの整合フレームワークを提案する。CAはエージェンシーの継続的拡大を促進するために導入された既存の整合目標であり、同時に対立解決能力を改善することを目的とする。スケーラブルな訓練を可能にするため、同じLLMの2つの自己対話インスタンスに対立するペルソナを割り当て、構造化されたターンベースの対話を行い、互恵的な解決策を構成する。我々は合成的な道徳的ジレンマのプロンプトと対立するペルソナのペアを生成し、GRPOを外部LLM報酬モデルとともに用いたRLAIFを用いてポリシーを最適化する。報酬は最終完成物に割り当てられたCAスコアから計算される一方で、勾配は対話トークンへ直接適用され、熟議的な対話ダイナミクスを改善する。実験は、得られたモデルが単一エージェントのベースラインと同程度のCA整合性を達成する一方で、対立解決性能を大幅に改善し、一般的な言語能力を損なわないことを示している。これらの結果は、価値衝突のシナリオで集合的意思決定をよりよく支援するLLMsへの現実的な道として、交渉主導の熟議訓練を提案している。