強化学習によって不適切な議論の人間らしい編集をLLMに教える

arXiv cs.CL / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

論文では、LLMと人間の編集行動が異なることを明らかにしている。LLMは意味を変える編集を複数回、散発的に行うことが多いのに対し、人間は意味を保ったまま自己完結的に編集内容をカプセル化する傾向がある。
不適切さを改善する、より人間らしい編集を生成するようにLLMを訓練するための強化学習手法を提案する。
この手法では、文単位で独立した編集提案を生成し、各提案を個別に採用または却下できるようにすることで、編集を制御可能にしつつ文脈整合性を保つことを目指す。
学習では、意味的類似性、流暢さ、パターンの適合性、そして議論全体としての適切さをバランスさせる複数の報酬成分を用い、グループ相対ポリシー最適化（group relative policy optimization）を行う。
実験（自動評価と人手評価、複数ラウンドの編集を含む）では、ベースラインより性能が向上し、編集の人間らしい特徴を維持しながら、ほぼ完全な書き換えに近い適切さまで到達することが報告されている。

要旨: 人が書いた文章の編集は、大規模言語モデル（LLM）の標準的なユースケースになってきています。たとえば、自分の主張を議論により適したものにするためです。しかし、人による編集とLLMが生成した編集を比較すると、編集戦略に不一致があることが分かります。LLMはしばしば複数の散らばった編集を行い、意味を大きく変える傾向があるのに対し、人は依存関係のある変更をむしろ自己完結的で意味を保つ編集として内包します。本論文では、主張の適切さを高めるために、人のような編集を行うようLLMに教える強化学習アプローチを提案します。提案手法は、自己完結的な文単位の編集提案を生成し、それぞれが独立して受け入れ／却下できるようにします。このアプローチでは、編集単位の意味的類似性、流暢性、パターンの適合性、ならびに主張単位の適切さを共同で最適化する、多コンポーネントの報酬関数を用いたグループ相対方策最適化によって学習します。自動評価および人手評価のいずれにおいても、競合するベースラインおよび人間らしい編集における最先端手法を上回り、多段階の編集では適切さがほぼ全面的な書き直しに近い水準まで達成されます。