自己実行シミュレーションがコーディングモデルを改善する

arXiv cs.CL / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、生成されたコードがどのように実行されるかの予測が失敗する問題に対処するため、コーディング用LLMを「プログラム実行」をステップごとに推定しシミュレーションするよう訓練することを提案する。
実行トレースに対する教師あり微調整と、検証可能な報酬を用いる強化学習を組み合わせ、真の実行に基づいて説明を根拠づける。
この手法は2つの目的を用いる。すなわち、コードと入力から出力を予測すること、さらに、競技プログラミング問題を解くことを、正解の実行結果または自己予測した実行フィードバックのいずれかを用いて行うこと。
実行をシミュレーションすることで、モデルは複数の候補解に対して自己検証ができ、テスト実行ループを通じて反復的に自己修正できる。
複数の競技プログラミングのベンチマークに対する実験では、標準的な推論アプローチに比べて一貫した改善が見られ、実行シミュレーションの利点と限界の両方を示すアブレーションも併せて確認された。

要旨: LLMが一貫して正しいコードを生成できるようにするための有望な研究方向性は、特にLLMが生成するコードについて、プログラムの実行を適切に見積もることができないという問題に取り組むことにある。本研究では、コードLLMを段階的にプログラム実行をシミュレートするよう訓練でき、その能力を活用して競技プログラミングの性能を向上できることを示す。我々の手法は、実際の実行に基づくテキスト的説明とともに、自然言語の実行トレースに対する教師あり微調整を行い、さらに検証可能な報酬を用いた強化学習を組み合わせる。補完的な2つの目的を導入する。1つは、コードと入力を与えたときの出力予測であり、もう1つは、真の実行フィードバック、または自ら予測した実行フィードバックのいずれかを用いて競技プログラミング課題を解くことである。これらの目的により、モデルは複数の候補解に対して自己検証を行い、テスト実行をシミュレートすることで反復的に自己修正できるようになる。複数の競技プログラミングベンチマークにおいて、本手法は標準的な推論アプローチに対して一貫した改善をもたらす。さらに、実行シミュレーションの役割とその限界を明らかにするためのアブレーションおよび分析も提示する。

Black Hat Asia

AI Business

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

日経XTECH

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

日経XTECH

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

日経XTECH

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

日経XTECH

自己実行シミュレーションがコーディングモデルを改善する

要点

関連記事

Black Hat Asia

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

安川電機、人型ロボをオフィスへ フィジカルAIで「臨機応変」実現

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

人型ロボット、中国が圧倒的に先行 日本はコア部品技術で挽回へ

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ