適応的プラリスティック・アライメント:動的な人工民主主義のためのパイプライン

arXiv cs.LG / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、社会規範が時間とともに変化してもAIの「価値の固定化(value lock-in)」を防ぐことを目的として、Adaptive Pluralistic Alignment(APA)を提案している。
  • APAは3段階のモジュール型パイプラインであり、(1) 低ランクの報酬基底分解によってコンパクトな個別化報酬モデルを学習し、(2) それらを「陪審(jury)」として社会選択理論に基づく投票で候補出力を選び、(3) 報酬基底を固定したまま新しい注釈者の重みを更新して陪審を時系列で適応させる。
  • この手法は高コストな追加事前学習や大規模データ収集を繰り返さずに更新を可能にすることを狙い、効率性・説明可能性・操縦可能性・モジュール性を備える設計になっている。
  • PRISMのマルチユーザーアライメントデータセットを用い、過去の注釈者をシミュレーションして行ったプロトタイプでは、特に陪審の嗜好が不均一な場合に、陪審構成や投票ルールが結果に大きく影響することが示された。
  • 著者らは、提供リンクから完全なコードと嗜好データセットを公開しており、再現可能性を担保している。

Abstract

既存のアライメント手法の多くは、固定された一連の嗜好を対象としているため、社会規範が時間とともに変化していくなかで、価値のロックインを強制してしまうリスクがあります。私たちは、価値の変化に追随しつつ、コストの高い事前学習や大規模なデータ収集を繰り返すことなく価値のロックインを回避する、複数主義的アライメントのための適応型手法(Adaptive Pluralistic Alignment; APA)を提案します。APAは、複数主義的に整合したAIシステムを更新するためのモジュール型パイプラインであり、次の3段階から成ります:(1) 低ランクの報酬基底分解によって、コンパクトな個別化された報酬モデルを学習する、(2) これらのモデルを「陪審(jury)」として用い、社会選択理論に基づく投票により候補となる出力の中から共同で選択する、(3) 価値が移り変わる際に、固定された報酬基底上で新しいアノテータ重みを当てはめることで、時間とともに効率的に陪審を適応させる。得られるシステムは、効率的で、説明可能で、操縦(steer)可能であり、かつモジュール化されています。私たちは、PRISM のマルチユーザー・アライメントデータセットと、シミュレートした過去のアノテータを用いて、実証的な概念実装を行い、さらに予備的な分析として、陪審の構成や投票ルールの選択が、特に陪審の嗜好が異質である場合に、結果に大きく影響し得ることを示します。完全なコードと、得られた嗜好データセットは https://anonymous.4open.science/r/apa にて提供しています。