R2-Write:深い推論を伴うオープンエンドな文章作成のための反省と改稿

arXiv cs.CL / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、主流の深い推論を行うLLMアプローチが、数学のような検証可能な領域では大きな改善を示す一方で、オープンエンドな文章作成タスクでは限定的な向上にとどまることを見出す。
  • その差は、執筆プロセス中に深い反省(reflection)と改稿(revision)の振る舞いが欠けていることに起因し、創作や研究スタイルの出力における進歩が制約されると分析している。
  • 著者らは、作成者(writer)と判定者(judge)を反復的に組み合わせることで、反省と改稿のパターンを明示的に取り込んだ高品質な推論の軌跡を生成する自動化フレームワーク「R2-Write」を提案する。
  • 反復的または価値の低い自己反省を避けるため、強化学習の過程で反省の質を監督するプロセス報酬メカニズムを加え、性能とトークン効率の両方を改善する。
  • 複数の創作文章および深いリサーチのベンチマークに対する実験では大幅な改善が確認され、「明示的な反省/改稿がオープンエンドな文章作成においてより深い推論を可能にする」という主張を支持する。

要旨: 長い推論の連鎖(chain-of-thought)を用いた深い推論は、数学のような検証可能な領域において大規模言語モデルを劇的に改善してきましたが、文章作成のようなオープンエンドのタスクに対してその有効性は未だ解明されていません。本論文では、既存の主流な推論モデルがオープンエンドの文章作成タスクに対して得られる向上が限定的であることを明らかにする、体系的な調査を行います。さらに分析すると、これらのモデルはオープンエンドの文章作成において深い省察と改稿(revision)のパターンを欠いており、その結果、数学的推論タスクに比べて改善幅が大幅に小さくなっていることが分かります。この制約に対処するため、R2-Write を提案します。R2-Write は、自動化された枠組みであり、反復的なライター・ジャッジの相互作用を通じて、明示的な省察と改稿のパターンを豊富に含む高品質な思考軌跡を合成します。冗長な省察を防ぐために、強化学習中に省察の質を監督するプロセス報酬メカニズムを設計し、性能とトークン効率の両方を向上させます。複数の創作ライティングおよびディープリサーチのベンチマークにわたる大規模な実験により、大幅な改善が示され、反省と改稿のパターンを明示的に組み込むことで、オープンエンドの文章作成タスクにおける深い推論能力が開放されることを検証します。