要旨: 創造的な文章作成における基本的な課題は、長編の物語においてグローバルな一貫性を維持するという本質的な緊張と、短文における局所的な表現力を保つという要求とを両立させることにあります。長い文脈の生成では明示的な大局的計画が必要となる一方で、短文の創造性はしばしば、思いつくままの制約のない表現を必要とします。しかし、既存のアラインメントのパラダイムは通常、静的な報酬信号を用い、高品質な教師ありデータに強く依存しますが、それは費用がかかり、スケールさせるのが難しいです。そこで本研究では、
\textbf{UniCreative}、参照なしの統一的強化学習フレームワークを提案します。まず、
\textbf{AC-GenRM} を導入します。これは、適応的で制約を意識した報酬モデルであり、クエリ固有の基準を動的に合成して、きめ細かな嗜好判断を提供します。これらの信号を活用し、
\textbf{ACPO} という方策最適化アルゴリズムを提案します。これにより、教師ありの微調整やグラウンドトゥルースの参照なしで、内容の品質と構造的パラダイムの両方にわたって、人間の嗜好にモデルを整合させます。実験結果は、AC-GenRM が専門家評価と非常に良く整合することを示し、また ACPO が多様な執筆タスク全体で性能を大幅に向上させることを示します。重要なのは、本分析が創発的なメタ認知能力を明らかにする点です。すなわち、モデルは、厳密な計画を要するタスクと、直接的な生成を好むタスクとを自律的に区別することを学びます。これは、我々の直接整合アプローチの有効性を裏付けます。
UniCreative:参照なし強化学習によって長文の論理性と短文のきらめきを統合する
arXiv cs.AI / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、創作執筆において長文の物語的な一貫性と短文の表現力を統合することを目的とした、参照なし強化学習フレームワーク「UniCreative」を提示する。
- さらに、AC-GenRM(Adaptive Constraint-aware Reward Model)を導入し、静的な報酬や正解の参照を必要とせずに、クエリ固有の基準を生成することで、きめ細かな嗜好(preference)に基づく評価を実現する。
- 併せて、ACPO(Adaptive Constraint-aware Policy Optimization)と呼ばれる方策最適化手法を提案し、教師あり微調整や参照データを用いずに、内容の質と構造的なパラダイムの両面で、人間の嗜好にモデル出力を整合させる。
- 実験の結果、AC-GenRMは専門家評価と高い相関を示し、ACPOは多種多様な執筆タスクにおいて性能を向上させることが報告されている。
- 著者らは、タスクが厳密な計画を要するのか、それとも直接生成で十分なのかをモデルが自律的に判断するという、創発的な能力が生じると主張しており、提案する直接アラインメント手法の有効性を裏づけるとしている。



