AI Navigate

SemRep: コード変換による生成的コード表現学習

arXiv cs.LG / 2026/3/17

💬 オピニオンModels & Research

要点

  • SemRep は意味を保つコード変換を中間表現として用い、生成的なコード変換および下流の指示特化編集を導くことを提案する。
  • 同じ予算で訓練された場合、一般的なコード編集および最適化タスク(例: GPUカーネル最適化)において、正確さが6.9%、性能が1.1倍、汎化性が13.9%、頑健性が6.7%向上する。
  • SemRep は多様なコード変換の探索を強化し、進化的コーディングエージェントと組み合わせることで、はるかに大きなベースラインが見逃す最適化を発見しつつ、同じ性能を達成するには推論計算を25%削減できる。
  • 表現学習をエンドツーエンドの編集から切り離すことにより、SemRepはコード変換に対してより柔軟で意味論に基づくアプローチを提供する。
  • このアプローチはタスクを横断して広い適用性を示しており、生成的コードモデリングの頑健性と汎化性の向上を示唆する。

概要: コード変換はソフトウェア開発プロセスにおける基礎的な能力であり、その有効性は入力コードの意味を特徴づけ、変換を導く高品質なコード表現の構築に依存します。既存のアプローチはコード変換をエンドツーエンドの学習タスクとして扱い、意味推論に必要な表現の構築をモデルの重みに黙示的に任せるか、硬直したコンパイラレベルの抽象に依存します。SemRepを提示します。SemRepは生成的なコード表現学習を通じてコード変換を改善するフレームワークです。私たちの重要な洞察は、意味論を保つ変換を中間表現として用いることで、それが生成的な中間トレーニングタスクとして機能するとともに、以降の指示特化型コード変換への指針にもなることです。一般的なコード編集および最適化タスク(例:GPUカーネル最適化)にわたって、SemRepは厳密に同じトレーニング予算で、正確性で6.9%、性能で1.1倍、汎化で13.9%、頑健性で6.7%向上する、広くファインチューニングされたベースラインを上回ります。多様なコード変換の探索を改善することで、SemRepは特に進化的探索に適しています。進化的コーディングエージェントと組み合わせると、SemRepは、685Bのパラメータを持つベースラインが発見できない最適化を見つけつつ、推論計算量を25%削減したまま同じ性能を達成します。

返却形式: {"translated": "翻訳されたHTML"}