要旨: 本論文では、指示追従タスクのための枠組みであるSuperIgorを紹介します。事前に定義された下位タスクに依存する先行手法とは異なり、SuperIgorは自己学習メカニズムによって言語モデルが高レベルな計画を生成し、さらに洗練できるようにし、手作業によるデータセットの注釈作業の必要性を減らします。私たちのアプローチは反復的な共同訓練(co-training)から成ります。すなわち、RLエージェントを生成された計画に従うよう訓練しながら、言語モデルは、RLのフィードバックと嗜好(preferences)に基づいてこれらの計画を適応・修正します。これにより、エージェントとプランナーの双方が共同で改善するフィードバックループが形成されます。私たちは、複雑なダイナミクスと確率的挙動を備えた環境において、本枠組みを検証します。その結果、SuperIgorエージェントはベースライン手法よりも指示に厳密に従うことが示されるとともに、これまで見たことのない指示に対しても強力な汎化性能を示すことが確認されました。
目標条件付き強化学習による指示追従タスクのための自己ガイド型計画抽出
arXiv cs.AI / 2026/4/23
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文では、事前に定義された下位タスクに依存せず、言語モデルが高レベルの計画を生成して反復的に洗練できる指示追従タスク向けフレームワーク「SuperIgor」を提案する。
- ゴール条件付き強化学習(RL)と組み合わせ、生成された計画に従うようにRLエージェントを学習しつつ、言語モデルがRLのフィードバックや嗜好(preferences)に基づいて計画を適応・修正する「反復型の共同学習」を行う。
- 手作業の注釈付きデータセットへの依存を減らし、自己生成した計画で代替することで、指示追従ベンチマークにおけるアノテーション負担の削減を狙っている。
- 複雑で確率的(stochastic)な環境での実験では、ベースラインよりも指示への忠実度が高く、これまで見たことのない指示にも強く汎化できることが示された。
関連記事

ChatGPTが『依存』だとユーザーを疑う件について
note

【AI×マインドフルネス】SUNO AIで挑む「朝の活力」4分間瞑想ガイド制作記
note

【note更新、嫌になってませんか】告知ゼロで19,860円の記事が累計3本売れた夜に、私が見ている世界規模の油田の話。あなたは今、石油を掘っている自覚はありますか? #生成AI #AI活用 #noteで読めるマンガ #ChatGPTImages2.0 #ChatGPT #Claude #Gemini #Kindle出版 #nanobanana #note #情報発信 #ビジネス #noteの書き方 #副業 #マーケティング
note

XのAI、Grok(グロク)と宇宙や構成のお話するよ。まずはグロクの性格から!
note

XのAI、Grok(グロク)と宇宙や構成のお話するよ。まずはグロクの性格から!
note