スムーズ・チェビシェフのスカラー化によるパレート最適なオフライン強化学習

arXiv cs.AI / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、単一目的および線形スカラー化では適切に捉えられない、相反する人間の嗜好に大規模言語モデルの出力を整合させるためのマルチ目的オフライン強化学習に取り組む。
  • パレートフロントの非凸領域において、線形報酬スカラー化が持つ証明可能な失敗を克服するため、スムーズなチェビシェフに基づくスカラー化手法を導入する。
  • 著者らは、新しいオフラインRLアルゴリズムであるSTOMP(Smooth Tchebysheff Optimization of Multi-Objective Preferences)を提案し、観測データ分布から標準化された報酬を用いて、直接嗜好最適化をマルチ目的設定へ拡張する。
  • 実験では、タンパク質工学タスクにおいて3つの研究室データセットを用い、複数の自己回帰型タンパク質言語モデルを整合させる。オフラインのオフポリシー評価および生成評価のほとんどの設定で、STOMPがハイパーボリュームの上位結果を達成することを示す。
  • 本研究はSTOMPを、タンパク質最適化を超えて、チャットの安全性と有用さのトレードオフのような他の複数基準領域にも一般化し得る、頑健なマルチ属性のポストトレーニング整合手法として位置づける。

要旨: 大規模言語モデルは、小規模なラベル付きデータセットに対するオフライン強化学習(RL)によって、人間の嗜好に整合させることができます。単一目的の整合はよく研究されていますが、多くの実世界のアプリケーションでは、たとえばタンパク質工学において触媒活性と特異性の両方を最適化するといったような、複数の相反する報酬を同時に最適化することが求められます。また、チャットボットでは、有用性と無害性を同時に最適化する必要があります。従来の研究は主に線形報酬スカラー化に依拠してきましたが、このアプローチはパレート最適解の前線の非凸領域を回復できないことが証明されています。本論文では、報酬を直接スカラー化する代わりに、滑らかなテチェビシェフ(Tchebysheff)スカラー化によってスカラー化する最適化問題として、多目的RL自体を定式化します。これは線形スカラー化の欠点を克服する、近年の手法です。この定式化により、個々の報酬を観測された分布に基づいて標準化することで、直接嗜好最適化(direct preference optimization)を多目的設定へ原理的に拡張する新しいオフラインRLアルゴリズムである、Smooth Tchebysheff Optimization of Multi-Objective Preferences(STOMP)を導出します。さらに、STOMPを、タンパク質適応度に関する3つの実験室データセットで、3つの自己回帰型タンパク質言語モデルを整合させることにより、幅広いタンパク質工学タスクに対して実証的に検証します。最先端のベースラインと比較して、STOMPは、オフラインのオフポリシー評価と生成評価の両方において、9つの設定のうち8つで最大のハイパーボリュームを達成します。したがって本研究は、STOMPが、複数属性のタンパク質最適化やそれ以外の領域に対して、ポストトレーニングされたモデルを意味のある形で改善できる、強力で頑健な多目的整合アルゴリズムであることを示します。

スムーズ・チェビシェフのスカラー化によるパレート最適なオフライン強化学習 | AI Navigate