主導的なユーザー—LLM相互作用のための、暗黙のターン別方策最適化

arXiv cs.LG / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、中間報酬が疎でありユーザー応答が非常に確率的(stochastic)な、多ターンの人間—AI協調における強化学習を改善するために、暗黙のターン別方策最適化(ITPO)を提案する。
  • ITPOは、暗黙のプロセス報酬モデルを用いて、疎な到達結果シグナルをより信頼性の高い、ターンレベル(プロセス)報酬へと変換する。これらはトークンレベル報酬よりも安定しており、追加の学習安定性のために正規化できる。
  • 数学チュータリング、文書作成、医療レコメンデーションに関する実験により、ITPOはPPO、GRPO、RLOOなどの手法と組み合わせることで、既存のベースラインよりも収束が改善されることが示される。
  • トラジェクトリ(軌跡)レベルの分析では、ITPOが人間の判断と意味的に整合する、ターン別の嗜好を学習していることが示される。
  • 著者らはコードを公開しており、再現性の向上と、主導的なユーザー—LLM相互作用に取り組む研究者の導入を支援していると報告している。