要旨: フェデレーテッドラーニング(FL)における人間の嗜好をLLMsと整合させることは、分散化、プライバシー感受性、そして高度に非IIDな嗜好データの存在のため難しい。Direct Preference Optimization(DPO)は、人間のフィードバックを用いた強化学習(RLHF)に対する効率的な代替手段を提供するが、FLへの直接適用は非IIDデータ下での性能劣化が著しく、暗黙的報酬の一般化も限定的である。ギャップを埋めるべく、私たちはFedPDPO(Federated Personalized Direct Preference Optimization)、LLMsの嗜好整合のためのパーソナライズされたフェデレーテッドフレームワークを提案する。これは、各クライアントが凍結済みの事前学習済みLLMバックボーンをLow-Rank Adaptation(LoRA)アダプターで拡張したパラメータ効率の高いファインチューニングアーキテクチャを採用し、通信効率の高いアグリゲーションを可能にする。非IIDのヘテロジニティに対処するため、(1) グローバルに共有されたLoRAアダプターと個別クライアント固有のLLMヘッドを組み合わせる。さらに、(2) 暗黙的報酬を補完し非IIDヘテロ性をさらに緩和する、クライアント固有の明示的報酬ヘッドを備えたパーソナライズDPOトレーニング戦略を導入し、(3) グローバルとローカルの特徴をバランスするボトルネックアダプターを導入する。我々は確率的基盤と健全性を確立する理論分析を提供する。複数の嗜好データセットにおける広範な実験は、最先端の性能を示し、フェデレーテッド内ドメインおよびドメイン間設定で平均精度が最大4.80%向上する。
FedPDPO: 大規模言語モデルの整合のための連邦化パーソナライズド直接嗜好最適化
arXiv cs.LG / 2026/3/23
📰 ニュースModels & Research
要点
- 本論文は、連邦学習(FL)において大規模言語モデル(LLMs)を人間の嗜好と整合させることに取り組む中で、分散・プライバシー保護・非IIDデータに起因する課題を浮き彫りにし、FLへの直接的な嗜好最適化の適用には限界があることを指摘している。
- FedPDPOは、凍結された事前学習済みLLMのバックボーンとLoRAアダプタを用いて、通信効率の高い集約を可能にするパラメータ効率の高い連邦化パーソナライズフレームワークを提案する。
- このアプローチには、グローバルに共有されたLoRAアダプタとクライアント固有のLLMヘッド、クライアント固有の明示的な報酬ヘッド、そしてグローバルとローカルの特徴表現のバランスを取るボトルネックアダプタが含まれる。
- 著者らは理論的分析を提供し、広範な実験を通じて最先端の性能を示し、連邦内ドメインおよび跨域設定の両方で平均精度が最大で4.80%改善されることを報告している。