InCoder-32B-Thinking: 思考のための工業用コード・ワールドモデル

arXiv cs.CL / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、チップ設計、GPU最適化、組込みシステムにまたがるソフトウェア課題に対して、専門家に近い推論トレースを生成するための工業用コード「ワールドモデル」であるInCoder-32B-Thinkingを紹介する。
  • 同モデルは、Error-driven Chain-of-Thought(ECoT)フレームワークによって生成された推論チェーンで学習する。このフレームワークは、マルチターン対話に加えて環境からのエラーフィードバックを用いて、推論中の誤り訂正を明示的にモデル化する。
  • 工業用コード・ワールドモデル(ICWM)は、ドメイン実行トレース(例:VerilogシミュレーションやGPUプロファイリング)に基づいて学習し、コード変更とハードウェア挙動の因果的なダイナミクスを捉える。
  • 本システムは、コンパイル前に実行結果を予測することで自己検証をサポートし、合成された推論トレースはドメインのツールチェーンによって検証され、実際の工業タスクで見られる推論の深さに一致することが示される。
  • 一般ベンチマークおよび工業ベンチマークにまたがる評価では高い性能が報告されており、LiveCodeBench v5で81.3%、CAD-Coderで84.0%を達成している。加えてKernelBenchの結果も報告されている。

Abstract

チップ設計、GPU最適化、組込みシステムにまたがる産業ソフトウェア開発には、エンジニアがどのようにハードウェア制約やタイミングセマンティクスについて推論するのかを示す専門的な推論トレースが欠けています。本研究では、Error-driven Chain-of-Thought(ECoT)合成フレームワークのデータと、産業コード世界モデル(ICWM)を用いて訓練された InCoder-32B-Thinking を提案し、推論トレースを生成します。具体的には、ECoT は、環境のエラーフィードバックを伴う複数ターンの対話から思考内容を合成することで推論チェーンを生成し、誤り訂正のプロセスを明示的にモデル化します。ICWM は、Verilog シミュレーション、GPU プロファイリングなどのドメイン固有の実行トレースで訓練され、コードがどのようにハードウェア挙動に影響する因果的ダイナミクスを学習し、実際のコンパイルの前に実行結果を予測することで自己検証を可能にします。合成されたすべての推論トレースはドメイン固有のツールチェーンを通じて検証され、産業タスクの自然な推論の深さの分布に合致する訓練データが作られます。14 の一般ベンチマーク(LiveCodeBench v5 で 81.3%)および 9 の産業ベンチマーク(CAD-Coder で 84.0%、KernelBench で 38.0%)での評価により、InCoder-32B-Thinking はすべての領域においてトップクラスのオープンソース成果を達成していることが示されました。GPU最適化