AI Navigate

マルチエージェントシステムと組合的融合分析による大規模言語モデルの価値整合性の向上

arXiv cs.CL / 2026/3/13

💬 オピニオンModels & Research

要点

  • 本論文は、LLMsを人間の価値観と整合させることの課題を強調し、単一の評価者に依存し、狭い報酬信号に留まる現行のRLHFアプローチを批判しています。
  • 複数の道徳的エージェントを用い、それぞれ異なる規範的視点を表現するようファインチューニングしたうえで、CFAを用いて出力を順位ベースおよびスコアベースの集約で融合する、Value Alignment System using Combinatorial Fusion Analysis(VAS-CFA)を提案します。
  • この設計は、エージェント間の認知的多様性を活用することで、衝突と冗長性を緩和し、人間の価値観をより反映した応答の生成を目指します。
  • 実証的評価の結果、VAS-CFAは単一エージェントのベースラインおよび既存の集約法を標準指標で上回ることが示され、マルチエージェント融合がLLMsの価値整合性を高める有効な手法であることを裏付けています。
要旨: 大規模言語モデル(LLMs)を人間の価値観に整合させることは、信頼性の高い安全な展開を保証するうえで重要な課題です。従来のRLHF(人間のフィードバックによる強化学習)などの手法は整合性を改善してきましたが、しばしば単一の評価者に依存するか、狭義の報酬信号にとどまるため、倫理的多元性を十分に捉えられません。本研究では、組合的融合分析(CFA)を用いた価値整合システム(VAS-CFA)という、マルチエージェント融合整合を実現するフレームワークを提案します。複数の道徳的エージェントを実体化し、それぞれ異なる規範的視点を表現するようファインチューニングし、CFAによる順位ベースおよびスコアベースの集約で出力を融合します。この設計は、エージェント間の認知的多様性を活用することで、複数エージェント間の衝突と冗長性を緩和し、人間の価値観をよりよく反映した応答を生み出します。実証評価は、VAS-CFAが単一エージェントのベースラインおよび既存の集約手法を標準指標で上回ることを示し、多エージェント融合がLLMsの価値整合性を進展させる堅牢で効果的な機構であることを示唆します。