要約:一般的なオープンエンド生成タスクとして、創作的な執筆は検証可能な参照解答を欠く。これは長い間、報酬モデリングと自動評価を制約してきた原因となっており、高い人間のアノテーションコスト、評価の偏り、および粗いフィードバック信号が要因である。これらの課題に対処するため、本論文はまずグラウンデッド・セオリーに基づくマルチエージェント協調ワークフローを設計し、問題の次元分解と階層的帰納を実行して、動的に解釈可能で再利用可能な細粒度の基準を生成する。さらに、Memory-augmented Replay Policy Optimization(MRPO)アルゴリズムを提案する。一方、追加訓練なしで MRPO は動的な基準に基づいてモデルの自己反省を促し、制御可能な反復的改善を可能にする。他方、監視付きファインチューニングと強化学習を組み合わせた訓練パラダイムを採用して、評価基準を報酬信号へ変換し、エンドツーエンドの最適化を実現する。実験結果は、自動的に構築された基準が人間の注釈と同等の性能向上を達成することを示している。Writer-R1-4B モデルはこのアプローチで訓練され、複数の創作執筆タスクでベースラインを上回り、パラメータが1000億を超えるオープンソースモデルの中にはこれを上回るものもある。返却形式: {"translated": "翻訳されたHTML"}
Writer-R1: メモリ拡張リプレイポリシー最適化によるLLMの生成的執筆の強化
arXiv cs.CL / 2026/3/17
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本手法は、Grounded Theoryに基づくマルチエージェントのワークフローを用いて、再利用可能な評価基準を動的に生成する。
- MRPOは、これらの動的基準を用いて追加のトレーニングを行うことなく、モデルの自己反省を促し、反復的な改善を導く。
- このトレーニングは、教師付きファインチューニングと強化学習を組み合わせて、評価基準をエンドツーエンドの最適化の報酬信号へと変換する。
- 実験の結果、MRPOで訓練された執筆用モデルは、いくつかの創造的な執筆タスクでベースラインを上回り、さらに1000億以上のパラメータを持つオープンソースモデルの中にはそれらを上回るものもある。