大規模言語モデルによる強化学習インターフェースの発見

arXiv cs.LG / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文は、強化学習（RL）のタスク・インターフェースを自動的に発見する課題に取り組み、観測（オブザベーション）マッピングと報酬関数の両方を生のシミュレータ状態から構築します。
提案手法LIMENは、LLMに導かれた進化的フレームワークで、候補となるインターフェースを実行可能なプログラムとして生成し、方策学習から得られるフィードバックで反復的に改善します。
離散グリッドワールド課題と、歩行・操作といった連続制御領域にまたがる実験では、軌道レベルの成功指標のみで、観測と報酬を共同で進化させることで有効なインターフェースが見つかることを示します。
観測マッピングだけ、または報酬関数だけを最適化すると少なくとも1つの領域で失敗するため、両者の共同設計（コデザイン）の重要性が示唆されています。
著者らは、生の状態からRLインターフェースを自動構築できることで、新しいRLタスクに対する手作業の工数を大幅に削減できると主張しています。