OPRIDE：データセット内探索によるオフライン嗜好（パーキュフレンス）ベース強化学習

arXiv cs.AI / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、人間の嗜好フィードバックが高コストである状況において、クエリ効率を改善することを目的とした、オフライン嗜好（パーキュフレンス）ベース強化学習手法であるOPRIDEを提案する。
オフラインPbRLにおけるクエリ効率が低い主な原因として、非効率な探索と、学習した報酬関数の過剰最適化（オーバーオプティマイズ）を2点挙げ、提案アルゴリズムでそれらの両方を直接的に対処する。
OPRIDEは、嗜好クエリをより情報量の多いものにするための、原理に基づくデータセット内探索戦略を用い、さらに報酬の過学習／過最適化を抑えるためのディスカウント・スケジューリング機構を組み込む。
身体移動（ロコモーション）、操作（マニピュレーション）、ナビゲーションの各タスクにわたる実験により、OPRIDEは従来手法よりも強い性能を達成しつつ、必要なクエリ数を大幅に削減できることが示される。
著者らは、OPRIDEに関する理論的な効率保証も併せて提示しており、オフラインPbRLにおけるより信頼性が高く拡張可能なアプローチとしてOPRIDEの主張を強固にする。

概要: 嗜好（プリファレンス）ベースの強化学習（PbRL）は、洗練された報酬設計を回避し、人間の意図とよりよく整合させるのに役立ち、さまざまな実世界のアプリケーションにおいて大きな期待が持たれています。しかし、嗜好に関する人間のフィードバックを得ることは費用も時間もかかり、これがPbRLに対する強い障壁となっています。本研究では、オフラインPbRLにおけるクエリ効率の低さという問題に取り組み、その主な理由として2点、すなわち非効率な探索と、学習した報酬関数の過剰最適化を特定します。これらの課題に対し、新しいアルゴリズム
\textbf{O}ffline \textbf{P}b\textbf{R}L via \textbf{I}n-\textbf{D}ataset \textbf{E}xploration（OPRIDE）を提案し、オフラインPbRLのクエリ効率を高めることを目的とします。OPRIDE は2つの重要な特徴から成ります。1つは、クエリの情報量を最大化するための原理に基づいた探索戦略であり、もう1つは、学習した報酬関数の過剰最適化を緩和することを狙いとした割引スケジューリング機構です。実験的評価を通じて、OPRIDE が先行手法を大幅に上回り、特筆すべき少ないクエリ数で高い性能を達成することを示します。さらに、本アルゴリズムの効率に関する理論的保証も提示します。さまざまな移動（ロコモーション）、操作（マニピュレーション）、ナビゲーションのタスクにまたがる実験結果は、提案手法の有効性と汎用性を裏づけています。

Black Hat Asia

AI Business

隠れた産業の心臓部ネオジム磁石、AIデータセンターやEV向けで需給逼迫

日経XTECH

キオクシアHD次期社長に太田裕雄氏、「AI時代に応えるメモリー強化」

日経XTECH

キオクシア、酸化物半導体で3次元DRAM サムスンと競う

日経XTECH

キオクシアHD社長に技術畑の太田裕雄副社長早坂社長はアドバイザーに

日経XTECH

OPRIDE：データセット内探索によるオフライン嗜好（パーキュフレンス）ベース強化学習

要点

関連記事

Black Hat Asia

隠れた産業の心臓部ネオジム磁石、AIデータセンターやEV向けで需給逼迫

キオクシアHD次期社長に太田裕雄氏、「AI時代に応えるメモリー強化」

キオクシア、酸化物半導体で3次元DRAM サムスンと競う

キオクシアHD社長に技術畑の太田裕雄副社長早坂社長はアドバイザーに

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

隠れた産業の心臓部ネオジム磁石、AIデータセンターやEV向けで需給逼迫

キオクシアHD次期社長に太田裕雄氏、「AI時代に応えるメモリー強化」

キオクシア、酸化物半導体で3次元DRAM サムスンと競う

キオクシアHD社長に技術畑の太田裕雄副社長 早坂社長はアドバイザーに

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

キオクシアHD社長に技術畑の太田裕雄副社長早坂社長はアドバイザーに