要旨: 大規模言語モデル(LLM)は、環境の探索を通じた強化学習(RL)によって推論能力を大きく向上させてきました。環境の内在的な性質が、LLMが学習できる能力を決定するため、環境はRLの微調整プロセスにおいて重要な役割を果たします。理想的なLLMの推論環境は、スケーラビリティ、汎化可能な推論、検証可能性という3つの中核的特性を備えるべきです。しかし、既存の数学およびコーディング環境は、専門家による注釈への強い依存のためにスケールさせることが困難であり、一方でゲームベース環境で学習される技能は汎化するには特化されすぎています。このギャップを埋めるために、
\textbf{S}tructured \textbf{I}n-context \textbf{E}nvironment(SIE)フレームワークを提案します。SIEは、大規模な構造化データから推論環境を自動的に構築することでスケーラビリティを実現します。そこで得られる豊富な合成(コンポジショナル)パターンは、自然に汎化可能な推論を支えます。さらに、構造化データ内の明示的なスキーマと推論チェーンは、ルールベースの検証可能性の基盤を提供します。実験結果は、SIEフレームワークがドメイン内の構造化推論において大幅な改善を達成するだけでなく、学習された合成的推論スキルがドメイン外の数学的・論理的推論タスクにも効果的に汎化できることを示しています。加えて、情報が限られた部分的なSIEにおける学習も検討し、LLMが環境を探索することで欠落した情報を推論できることを見出しました。これにより、頑健な推論の改善と汎化性能の向上がもたらされます。
大規模言語モデルの推論のための構造化されたインコンテキスト環境スケーリング
arXiv cs.CL / 2026/5/4
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、強化学習(RL)による環境探索を通じてLLMの推論が向上する一方で、環境の内在的な性質がモデルが学べる内容を強く左右すると論じています。
- 既存環境の課題として、数学・コーディング環境は専門家による注釈への依存が大きくスケールしにくいこと、またゲームベース環境で得られる技能は汎化しにくいことを指摘しています。
- 提案するStructured In-context Environment(SIE)フレームワークは、大規模な構造化データから推論環境を自動構築し、スケーラビリティと合成的な汎化可能推論を支えることを狙います。
- SIEは、構造化データに含まれる明示的なスキーマと推論チェーンを根拠に、ルールベース検証の基盤としても機能するよう設計されています。
- 実験では、SIEがインドメインの構造化推論を大きく改善するだけでなく、学習した合成的推論能力がアウト・オブ・ドメインの数学・論理推論タスクにも効果的に汎化することが示されています。
- 情報が欠けた部分的SIEでの学習についても調べられており、LLMが環境探索によって不足情報を推定することで、頑健な推論改善と汎化性能の向上が得られると報告されています。



