APPA:LLMsのための、公正なフェデレーテッドRLHFに向けた適応的嗜好の多元的アラインメント

arXiv cs.LG / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • Gemma 2、Llama 3.2、Qwen3を用いて、GLOBALQAおよびOQA上でPPOベースのFedRLHFパイプラインによる実験を行い、平均集約に対して最悪グループのアラインメントで最大28%の改善を達成し、また多くの設定において全体のアラインメントでmin集約を上回った。

要旨: 大規模言語モデル(LLM)を多様な人間の嗜好に適合させるには、多元的なアラインメントが必要です。すなわち、単一のモデルが複数の異なるグループの価値観を同時に尊重しなければなりません。人間のフィードバックに基づく分散強化学習(FedRLHF)では、これらのグループが嗜好データを中央集権化することなく共有ポリシーをアラインします。そのため、公正な報酬集約が不可欠です。既存の集約手法には明確なトレードオフがあります。平均ベースの集約は、最も性能の低いグループを体系的に十分にアラインしない一方で、最小値(min)集約は全体のアラインメントを犠牲にして最悪のグループの性能を優先します。本研究では、過去のアラインメント報酬に基づいてグループ別報酬の重みを動的に再調整する、適応的嗜好多元アラインメント(APPA)という枠組みを提案します。我々の手法は、十分にアラインされていないグループを優先しつつ、十分にアラインされているグループを損なわないことを目指し、生の嗜好データへのアクセスを一切必要としません。近位ポリシー最適化(PPO)ベースのFedRLHFパイプラインに統合し、3つのモデルファミリー(Gemma 2 2B、Llama 3.2 3B、Qwen3 0.6B)にわたってGLOBALQAおよびOQAで評価したところ、APPAは強力な公平性アラインメントのトレードオフを実現し、平均集約に対して最悪グループのアラインメントを最大28%改善しながら、ほとんどの設定においてmin集約よりも高い全体アラインメントを維持します。