嗜好ベース強化学習における視覚・言語埋め込みでオラクルのフィードバックを削減する

arXiv cs.LG / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

嗜好（プレファレンス）ベース強化学習は、比較から報酬関数を学習するために必要となるオラクル（教師）フィードバックのコストが高いことによってしばしば制限される。
本論文では、ROVEDというハイブリッド手法を提案し、軽量な視覚・言語埋め込みを用いてセグメント単位の嗜好を作成し、さらに不確実性が高いサンプルのみをオラクルにルーティングして狙いを定めた教師付けを行う。
ROVEDは、パラメータ効率の高い微調整戦略を追加し、VLEをオラクルフィードバックを用いて段階的に適応させることで、スケーラビリティを損なうことなく時間の経過とともに性能を向上させる。
複数のロボット操作タスクに関する実験により、ROVEDは先行手法に匹敵、または上回る性能を示しつつ、オラクル問い合わせ数を最大80%削減し、さらに適応したVLEのタスク横断の汎化により累積のアノテーション節約を最大90%も達成することが示される。

AI Business

日経XTECH

Reddit r/MachineLearning

Dev.to

Dev.to