主導的なユーザー—LLM相互作用のための、暗黙のターン別方策最適化

arXiv cs.LG / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、中間報酬が疎でありユーザー応答が非常に確率的（stochastic）な、多ターンの人間—AI協調における強化学習を改善するために、暗黙のターン別方策最適化（ITPO）を提案する。
ITPOは、暗黙のプロセス報酬モデルを用いて、疎な到達結果シグナルをより信頼性の高い、ターンレベル（プロセス）報酬へと変換する。これらはトークンレベル報酬よりも安定しており、追加の学習安定性のために正規化できる。
数学チュータリング、文書作成、医療レコメンデーションに関する実験により、ITPOはPPO、GRPO、RLOOなどの手法と組み合わせることで、既存のベースラインよりも収束が改善されることが示される。
トラジェクトリ（軌跡）レベルの分析では、ITPOが人間の判断と意味的に整合する、ターン別の嗜好を学習していることが示される。
著者らはコードを公開しており、再現性の向上と、主導的なユーザー—LLM相互作用に取り組む研究者の導入を支援していると報告している。

日経XTECH

日経XTECH

日経XTECH

日経XTECH

日経XTECH