要旨: 効果的な報酬関数を設計することは強化学習(RL)の基礎を成しますが、従来手法に内在する非効率性や不整合のために、依然として困難で労力のかかるプロセスとなっています。既存の手法はしばしば、広範な手作業による設計と評価の手順に依存しますが、これは冗長性を招きやすく、さらに中間の意思決定点における局所的な不確実性を見落としがちです。これらの課題に対処するために、Chain of Uncertain Rewards(CoUR)という新しい枠組みを提案します。CoURは、大規模言語モデル(LLM)を統合することで、RL環境における報酬関数の設計と評価を効率化します。具体的には、CoURは、テキスト分析と意味解析を組み合わせて最も関連性の高い報酬関数コンポーネントを特定し、再利用するための類似度選択メカニズムとともに、コード不確実性の定量化を導入します。冗長な評価を削減し、切り離された報酬項に対してベイズ最適化を活用することで、CoURは最適な報酬フィードバックを探索する際の、より効率的で頑健な探索を可能にします。CoURを、IsaacGymのオリジナル環境9つと、Bidexterous Manipulationベンチマークの全20タスクにわたって体系的に評価します。実験結果は、CoURがより良い性能を達成するだけでなく、報酬評価のコストを大幅に低減できることを示しています。
強化学習のための大規模言語モデルによる、不確実な報酬の連鎖(CoUR)
arXiv cs.LG / 2026/4/16
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、報酬関数の設計に必要な作業量を削減するために、冗長性を減らし、中間の意思決定ポイントにおける不確実性に対処する「Chain of Uncertain Rewards(CoUR)」フレームワークを提案する。
- CoURはLLMを用いてコードの不確実性を定量化し、テキストとセマンティクス(意味)に基づく分析を融合した類似度選択メカニズムにより、関連する報酬コンポーネントを再利用する。
- この選択アプローチと、分離した報酬項に対するベイズ最適化を組み合わせることで、有効な報酬フィードバックをより効率的に探索する。
- 著者らは、IsaacGymの9つの環境およびBidexterous Manipulationベンチマークの全20タスクに対してCoURを評価し、性能の向上と、報酬評価コストの大幅な削減を報告している。
- 全体として、本研究は、不確実性を考慮したLLM支援型の報酬エンジニアリングを、より頑健でスケーラブルなRLトレーニング手順への道筋として位置づけている。