概要: 嗜好(プリファレンス)ベースの強化学習(PbRL)は、洗練された報酬設計を回避し、人間の意図とよりよく整合させるのに役立ち、さまざまな実世界のアプリケーションにおいて大きな期待が持たれています。しかし、嗜好に関する人間のフィードバックを得ることは費用も時間もかかり、これがPbRLに対する強い障壁となっています。本研究では、オフラインPbRLにおけるクエリ効率の低さという問題に取り組み、その主な理由として2点、すなわち非効率な探索と、学習した報酬関数の過剰最適化を特定します。これらの課題に対し、新しいアルゴリズム
\textbf{O}ffline \textbf{P}b\textbf{R}L via \textbf{I}n-\textbf{D}ataset \textbf{E}xploration(OPRIDE) を提案し、オフラインPbRLのクエリ効率を高めることを目的とします。OPRIDE は2つの重要な特徴から成ります。1つは、クエリの情報量を最大化するための原理に基づいた探索戦略であり、もう1つは、学習した報酬関数の過剰最適化を緩和することを狙いとした割引スケジューリング機構です。実験的評価を通じて、OPRIDE が先行手法を大幅に上回り、特筆すべき少ないクエリ数で高い性能を達成することを示します。さらに、本アルゴリズムの効率に関する理論的保証も提示します。さまざまな移動(ロコモーション)、操作(マニピュレーション)、ナビゲーションのタスクにまたがる実験結果は、提案手法の有効性と汎用性を裏づけています。
OPRIDE:データセット内探索によるオフライン嗜好(パーキュフレンス)ベース強化学習
arXiv cs.AI / 2026/4/6
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、人間の嗜好フィードバックが高コストである状況において、クエリ効率を改善することを目的とした、オフライン嗜好(パーキュフレンス)ベース強化学習手法であるOPRIDEを提案する。
- オフラインPbRLにおけるクエリ効率が低い主な原因として、非効率な探索と、学習した報酬関数の過剰最適化(オーバーオプティマイズ)を2点挙げ、提案アルゴリズムでそれらの両方を直接的に対処する。
- OPRIDEは、嗜好クエリをより情報量の多いものにするための、原理に基づくデータセット内探索戦略を用い、さらに報酬の過学習/過最適化を抑えるためのディスカウント・スケジューリング機構を組み込む。
- 身体移動(ロコモーション)、操作(マニピュレーション)、ナビゲーションの各タスクにわたる実験により、OPRIDEは従来手法よりも強い性能を達成しつつ、必要なクエリ数を大幅に削減できることが示される。
- 著者らは、OPRIDEに関する理論的な効率保証も併せて提示しており、オフラインPbRLにおけるより信頼性が高く拡張可能なアプローチとしてOPRIDEの主張を強固にする。



