マルコフ状態の再導入によるLLMポストトレーニングの能力上限の打破

arXiv cs.LG / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

論文は、RLが拡張される履歴に依存しているというLLMのポストトレーニングにおけるボトルネックを特定する。
明示的なマルコフ状態を再検討し、それらを使用することでサンプル複雑性を低減できるという理論的保証を提供する。
実証的には、マルコフ状態の導入が標準的なRLポストトレーニングの限界を超え、多様な論理パズルで一貫して改善をもたらす。
著者らは、構造化されたマルコフ的表現を採用することが、生成AIにおけるオープンエンドな推論と発見を解き放つために不可欠だと主張している。

要旨: 強化学習（RL）は、ポストトレーニングおよび大規模言語モデル（LLMs）の整合の標準的なパラダイムとなっていますが、最近の証拠は、それが持続的な「能力の天井」に直面していることを示唆しています。古典的なRLシステムが新規の戦略を発見するのに対し、LLM向けのRLは、事前学習済みウェイトにすでに潜在しているパターンを単なる改良・洗練するだけの役割に終わることが多いです。

本研究では、根本的な構造的ボトルネックを特定します。古典的なRLがコンパクトで有益なマルコフ状態に依存する一方、現在のLLMのポストトレーニング定式は、絶えず拡大する行動の履歴に縛られています。

長い間 RL の中心的原理を再検討します。LLMのポストトレーニングには欠けていたもの：明示的なマルコフ状態。
理論的には、推定されたマルコフ状態を活用することで、サンプル複雑性を著しく低減できることを厳密な保証として示します。実証的には、マルコフ状態を導入することが、複雑な論理パズルの一連の課題において、標準的なRLポストトレーニングの性能境界を一貫して破ることを示しています。私たちの知見は、履歴を状態として扱うモデリングを超え、構造化されたマルコフ的表現へと移行することが、オープンエンドの発見と真に新しい推論能力を生成AIにおいて解き放つために不可欠であることを示唆しています。

返却形式: {"translated": "翻訳されたHTML"}

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

マルコフ状態の再導入によるLLMポストトレーニングの能力上限の打破

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer