One Model for All:マルチ目的の制御可能な言語モデル

arXiv cs.LG / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、標準的なRLHF(強化学習による人間のフィードバック)がしばしば単一の平均化された報酬信号を最適化してしまうため、LLMが異なるユーザへの適応や、複数目的における嗜好のトレードオフをどれだけうまく扱えるかが制限されると主張する。
  • そこで提案されるのがMulti-Objective Control(MOC)であり、ユーザが指定する競合する複数目的の配合に対応する、パレートフロント上の領域にわたって出力を生成できるように、嗜好条件付きの1つのモデルを学習する。
  • MOCは、LLMを嗜好条件付きのポリシーネットワークとして扱うことで、マルチ目的最適化の考え方をRLHF型のパイプラインへと取り込む。
  • 著者らは、ポリシーレベルでマルチ目的最適化を適用することで効率を高め、単一のNVIDIA A6000 GPU上で7Bモデルのファインチューニングを可能にしている。
  • 実験では、ベースライン手法と比べて、制御性の向上、ハイパーボリューム指標による質と多様性の改善、さらに未見の嗜好に対する汎化性能の強さが報告されている。

要旨: 大規模言語モデル(LLM)を人間の嗜好(preferences)に合わせることは、LLMの安全性、有用性、ユーモア、忠実性(faithfulness)などを高めるうえで極めて重要です。現在の人間のフィードバックからの強化学習(RLHF)は主に、平均的な人間の評価から学習された固定報酬に焦点を当てていますが、これでは多様な嗜好に対する適応力や制御可能性が弱まる可能性があります。しかし、パーソナライズされたLLMを作るには、個々の人間の嗜好にLLMを整合させる必要があり、これは自明ではありません。理由は、ユーザごとのデータが乏しいこと、また複数の目的(多目的)のトレードオフにおけるユーザ嗜好の多様性があることです。たとえば、ある文脈では共感性を強調することが求められる一方で、別の文脈では効率や正確性を要求される、といったように嗜好が変わります。パレートフロント上の異なるユーザ嗜好に対して、1つのLLMでパーソナライズされた出力を生成できるでしょうか。本論文では、Multi-Objective Control(MOC)を提案します。これは、パレートフロント上の嗜好定義された領域において、単一のLLMが直接応答を生成するよう訓練します。提案手法では、嗜好条件付きポリシーネットワークとしてLLMを学習するために、RLHFに多目的最適化(MOO)の原理を導入します。さらに、ポリシーレベルでMOOを適用することで、MOCの計算効率を改善し、単一のA6000 GPU上でパラメータ数70億(7B)のモデルを微調整できるようにします。大規模な実験により、MOCがベースラインに対して3つの観点で優れていることが示されます:(i)複数の報酬間のトレードオフにおける、ユーザ嗜好に対するLLM出力の制御可能性。(ii)達成された複数解のハイパーボリューム(hyper-volume)によって測定される、LLM出力の品質と多様性。(iii)未観測の嗜好への汎化。これらの結果は、スケーラブルでカスタマイズ可能なLLMを必要とする実世界の応用における、MOCの可能性を示しています。