適応的プラリスティック・アライメント:動的な人工民主主義のためのパイプライン
arXiv cs.LG / 2026/5/5
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、社会規範が時間とともに変化してもAIの「価値の固定化(value lock-in)」を防ぐことを目的として、Adaptive Pluralistic Alignment(APA)を提案している。
- APAは3段階のモジュール型パイプラインであり、(1) 低ランクの報酬基底分解によってコンパクトな個別化報酬モデルを学習し、(2) それらを「陪審(jury)」として社会選択理論に基づく投票で候補出力を選び、(3) 報酬基底を固定したまま新しい注釈者の重みを更新して陪審を時系列で適応させる。
- この手法は高コストな追加事前学習や大規模データ収集を繰り返さずに更新を可能にすることを狙い、効率性・説明可能性・操縦可能性・モジュール性を備える設計になっている。
- PRISMのマルチユーザーアライメントデータセットを用い、過去の注釈者をシミュレーションして行ったプロトタイプでは、特に陪審の嗜好が不均一な場合に、陪審構成や投票ルールが結果に大きく影響することが示された。
- 著者らは、提供リンクから完全なコードと嗜好データセットを公開しており、再現可能性を担保している。




