目標条件付き強化学習による指示追従タスクのための自己ガイド型計画抽出

arXiv cs.AI / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文では、事前に定義された下位タスクに依存せず、言語モデルが高レベルの計画を生成して反復的に洗練できる指示追従タスク向けフレームワーク「SuperIgor」を提案する。
ゴール条件付き強化学習（RL）と組み合わせ、生成された計画に従うようにRLエージェントを学習しつつ、言語モデルがRLのフィードバックや嗜好（preferences）に基づいて計画を適応・修正する「反復型の共同学習」を行う。
手作業の注釈付きデータセットへの依存を減らし、自己生成した計画で代替することで、指示追従ベンチマークにおけるアノテーション負担の削減を狙っている。
複雑で確率的（stochastic）な環境での実験では、ベースラインよりも指示への忠実度が高く、これまで見たことのない指示にも強く汎化できることが示された。

要旨: 本論文では、指示追従タスクのための枠組みであるSuperIgorを紹介します。事前に定義された下位タスクに依存する先行手法とは異なり、SuperIgorは自己学習メカニズムによって言語モデルが高レベルな計画を生成し、さらに洗練できるようにし、手作業によるデータセットの注釈作業の必要性を減らします。私たちのアプローチは反復的な共同訓練（co-training）から成ります。すなわち、RLエージェントを生成された計画に従うよう訓練しながら、言語モデルは、RLのフィードバックと嗜好（preferences）に基づいてこれらの計画を適応・修正します。これにより、エージェントとプランナーの双方が共同で改善するフィードバックループが形成されます。私たちは、複雑なダイナミクスと確率的挙動を備えた環境において、本枠組みを検証します。その結果、SuperIgorエージェントはベースライン手法よりも指示に厳密に従うことが示されるとともに、これまで見たことのない指示に対しても強力な汎化性能を示すことが確認されました。