AI Navigate

VC-Soup: 大規模言語モデルの価値の一貫性に基づく多価値アライメント

arXiv cs.LG / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、異なる人間の価値観全体にわたる価値の一貫性を強調することで、LLMsにおける多価値アライメントに対処するデータフィルタリングとパラメータ統合のフレームワークである VC-Soup を提案する。
  • 各好みペアの報酬差ベクトルと、成分がすべて1のベクトルとのコサイン類似度に基づく価値の一貫性指標を導入し、低い一貫性を示すデータをフィルタリングするために用いる。
  • 残された価値の一貫性が保たれたデータでの訓練は、線形モード連結性をよりよく保持するポリシーを生み出す。
  • このアプローチは、これらの価値別ポリシーを線形結合し、価値間で Pareto フィルタリングを適用して、多価値の性能をバランスさせる。
  • 実験結果と理論分析は、VC-Soup が価値衝突を緩和し、既存の多価値アライメント手法を上回ることを示している。

要旨:大規模言語モデル(LLMs)がウェブ全体のコンテンツ生成、対話、意思決定をますます形作る中、人間の価値観と一致させることは、信頼できるAIの中心的な目標となっています。複数の、潜在的に対立する可能性のある人間の価値観を整合させる場合、この課題はさらに顕著になります。報酬の重み付けの再調整、プロンプトベースの監督付きファインチューニング、モデル統合といった近年のアプローチは、マルチバリュー整合を解決しようと試みているものの、依然として2つの主要な制約に直面しています:(1)各価値の組み合わせごとに別々のモデルを訓練することは途方もなく高価である;(2)価値の衝突は整合性能を著しく低下させる。これらの制約は、多様な人間の価値観間で良好なトレードオフを実現することを困難にします。これらの課題に対処するため、データにおける価値の整合性という観点からマルチバリュー整合を再検討し、価値整合学習に基づくデータフィルタリングとパラメータ結合のフレームワークであるVC-soupを提案します。まず、各嗜好ペアの報酬ギャップベクトルと全1ベクトルとのコサイン類似度に基づく価値整合性指標を設計し、それが異なる価値間の一貫性を定量化します。次に、各値データセット内の低一貫性の嗜好ペアをフィルタリングし、残りのデータで学習して、線形モード連結性をよりよく保持する滑らかな、価値整合性のあるポリシーモデルを得ます。最後に、これらのポリシーを線形結合し、値間でパレートフィルタリングを適用して、バランスの取れた多値性能を持つ解を得ます。広範な実験と理論分析は、VC-soupが対立を効果的に緩和し、従来のマルチバリュー整合手法を一貫して上回ることを示しています。返却形式: {"translated": "翻訳されたHTML"}