物理シミュレータ上での強化学習により物理オリンピックを解く

arXiv cs.RO / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMの推論の進歩が大規模なインターネットのQAデータセット(例:数学)によって恩恵を受けてきた一方で、物理分野には同規模の監督信号が欠けているため、異なる学習ソースを動機づけると主張する。
  • 物理シミュレータを用いて合成シーンを生成し、シミュレーション上の相互作用から合成の問題と解答ペアを導出することで、強化学習の訓練に活用することを提案する。
  • 実験結果として、ゼロショットのsim-to-real(シミュレーションから実世界への)転移が示される。つまり、合成のシミュレーションデータのみで訓練したモデルは、IPhOを含む実際の物理ベンチマークで、モデルサイズを問わず5〜10パーセンテージポイント改善する。
  • 著者らは、物理シミュレータを、希少な実物理のQAデータに依存せずに、より深い物理的推論スキルを学習させられるスケーラブルなデータ生成器として提示し、コードを公開している。

要旨: DeepSeek-R1の登場により、LLMの推論能力には注目すべき進歩が見られました。しかし、この進展の多くは、インターネット上の質問応答(QA)ペアの豊富さによって支えられてきました。これは大きなボトルネックとなる可能性があります。なぜなら、そのようなデータは規模が限られており、主に数学のような領域に集中しているからです。これに対して、物理学のような他の科学分野では、推論能力を備えたモデルを効果的に訓練するための大規模なQAデータセットが存在しません。本研究では、物理シミュレータが、物理的推論のためにLLMを訓練する際の強力な代替的な教師データ源になり得ることを示します。物理エンジン上でランダムな場面を生成し、シミュレーションされた相互作用から合成の質問応答ペアを作成し、これらの合成データに対して強化学習を用いてLLMを訓練します。提案モデルは、現実世界の物理ベンチマークに対してゼロショットのsim-to-real(シミュレーションから現実への)転移を示します。例えば、合成のシミュレートデータのみによる訓練でも、モデルサイズを問わず、IPhO(国際物理オリンピック)の問題における性能が5〜10パーセントポイント向上します。これらの結果は、物理シミュレータがスケーラブルなデータ生成器として機能し、インターネット規模のQAデータという制約を超えて、LLMが深い物理的推論スキルを獲得できることを示しています。コードは以下で入手可能: https://sim2reason.github.io/。