Writer-R1: メモリ拡張リプレイポリシー最適化によるLLMの生成的執筆の強化

arXiv cs.CL / 2026/3/17

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本手法は、Grounded Theoryに基づくマルチエージェントのワークフローを用いて、再利用可能な評価基準を動的に生成する。
MRPOは、これらの動的基準を用いて追加のトレーニングを行うことなく、モデルの自己反省を促し、反復的な改善を導く。
このトレーニングは、教師付きファインチューニングと強化学習を組み合わせて、評価基準をエンドツーエンドの最適化の報酬信号へと変換する。
実験の結果、MRPOで訓練された執筆用モデルは、いくつかの創造的な執筆タスクでベースラインを上回り、さらに1000億以上のパラメータを持つオープンソースモデルの中にはそれらを上回るものもある。

要約：一般的なオープンエンド生成タスクとして、創作的な執筆は検証可能な参照解答を欠く。これは長い間、報酬モデリングと自動評価を制約してきた原因となっており、高い人間のアノテーションコスト、評価の偏り、および粗いフィードバック信号が要因である。これらの課題に対処するため、本論文はまずグラウンデッド・セオリーに基づくマルチエージェント協調ワークフローを設計し、問題の次元分解と階層的帰納を実行して、動的に解釈可能で再利用可能な細粒度の基準を生成する。さらに、Memory-augmented Replay Policy Optimization（MRPO）アルゴリズムを提案する。一方、追加訓練なしで MRPO は動的な基準に基づいてモデルの自己反省を促し、制御可能な反復的改善を可能にする。他方、監視付きファインチューニングと強化学習を組み合わせた訓練パラダイムを採用して、評価基準を報酬信号へ変換し、エンドツーエンドの最適化を実現する。実験結果は、自動的に構築された基準が人間の注釈と同等の性能向上を達成することを示している。Writer-R1-4B モデルはこのアプローチで訓練され、複数の創作執筆タスクでベースラインを上回り、パラメータが1000億を超えるオープンソースモデルの中にはこれを上回るものもある。返却形式: {"translated": "翻訳されたHTML"}

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

Qiita

エッジコンピューティングとローカル処理への大規模な移行

Dev.to

仕様駆動開発における自己改良エージェント

Dev.to

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

Dev.to

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

Dev.to

Writer-R1: メモリ拡張リプレイポリシー最適化によるLLMの生成的執筆の強化

要点

関連記事

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

エッジコンピューティングとローカル処理への大規模な移行

仕様駆動開発における自己改良エージェント

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer