LoopRPT:ループ型言語モデルのための強化事前学習

arXiv cs.CL / 2026/3/23

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • LoopRPTは、次トークン予測をLoopLMsにおける次トークン推論タスクとして再定義し、EMA教師参照とノイズのある潜在ロールアウトを介して潜在ステップへ直接強化信号を適用できるようにする。
  • このアプローチは中間の潜在表現を対象とし、有効な推論をより少ない反復に圧縮し、各ステップの表現品質を向上させる。
  • 複数のモデルスケールにまたがるOuroアーキテクチャでの実験は、LoopRPTが精度と計算量のトレードオフにおいてパレート優越を達成し、難トークンで顕著な利得をもたらすことを示し、初期段階の推論の改善を浮き彫りにする。
  • 本研究は、ループ型言語モデルにおける効率的な潜在推論を学習するための体系的なパラダイムとして、強化事前学習を提案する。