マルコフ状態の再導入によるLLMポストトレーニングの能力上限の打破

arXiv cs.LG / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 論文は、RLが拡張される履歴に依存しているというLLMのポストトレーニングにおけるボトルネックを特定する。
  • 明示的なマルコフ状態を再検討し、それらを使用することでサンプル複雑性を低減できるという理論的保証を提供する。
  • 実証的には、マルコフ状態の導入が標準的なRLポストトレーニングの限界を超え、多様な論理パズルで一貫して改善をもたらす。
  • 著者らは、構造化されたマルコフ的表現を採用することが、生成AIにおけるオープンエンドな推論と発見を解き放つために不可欠だと主張している。

要旨: 強化学習(RL)は、ポストトレーニングおよび大規模言語モデル(LLMs)の整合の標準的なパラダイムとなっていますが、最近の証拠は、それが持続的な「能力の天井」に直面していることを示唆しています。古典的なRLシステムが新規の戦略を発見するのに対し、LLM向けのRLは、事前学習済みウェイトにすでに潜在しているパターンを単なる改良・洗練するだけの役割に終わることが多いです。

本研究では、根本的な構造的ボトルネックを特定します。古典的なRLがコンパクトで有益なマルコフ状態に依存する一方、現在のLLMのポストトレーニング定式は、絶えず拡大する行動の履歴に縛られています。

長い間 RL の中心的原理を再検討します。LLMのポストトレーニングには欠けていたもの:明示的なマルコフ状態。
理論的には、推定されたマルコフ状態を活用することで、サンプル複雑性を著しく低減できることを厳密な保証として示します。実証的には、マルコフ状態を導入することが、複雑な論理パズルの一連の課題において、標準的なRLポストトレーニングの性能境界を一貫して破ることを示しています。私たちの知見は、履歴を状態として扱うモデリングを超え、構造化されたマルコフ的表現へと移行することが、オープンエンドの発見と真に新しい推論能力を生成AIにおいて解き放つために不可欠であることを示唆しています。

返却形式: {"translated": "翻訳されたHTML"}