要旨: 強化学習(RL)は、ポストトレーニングおよび大規模言語モデル(LLMs)の整合の標準的なパラダイムとなっていますが、最近の証拠は、それが持続的な「能力の天井」に直面していることを示唆しています。古典的なRLシステムが新規の戦略を発見するのに対し、LLM向けのRLは、事前学習済みウェイトにすでに潜在しているパターンを単なる改良・洗練するだけの役割に終わることが多いです。
本研究では、根本的な構造的ボトルネックを特定します。古典的なRLがコンパクトで有益なマルコフ状態に依存する一方、現在のLLMのポストトレーニング定式は、絶えず拡大する行動の履歴に縛られています。
長い間 RL の中心的原理を再検討します。LLMのポストトレーニングには欠けていたもの:明示的なマルコフ状態。
理論的には、推定されたマルコフ状態を活用することで、サンプル複雑性を著しく低減できることを厳密な保証として示します。実証的には、マルコフ状態を導入することが、複雑な論理パズルの一連の課題において、標準的なRLポストトレーニングの性能境界を一貫して破ることを示しています。私たちの知見は、履歴を状態として扱うモデリングを超え、構造化されたマルコフ的表現へと移行することが、オープンエンドの発見と真に新しい推論能力を生成AIにおいて解き放つために不可欠であることを示唆しています。
返却形式: {"translated": "翻訳されたHTML"}