SemRep: コード変換による生成的コード表現学習

arXiv cs.LG / 2026/3/17

💬 オピニオンModels & Research

共有:

要点

SemRep は意味を保つコード変換を中間表現として用い、生成的なコード変換および下流の指示特化編集を導くことを提案する。
同じ予算で訓練された場合、一般的なコード編集および最適化タスク（例: GPUカーネル最適化）において、正確さが6.9%、性能が1.1倍、汎化性が13.9%、頑健性が6.7%向上する。
SemRep は多様なコード変換の探索を強化し、進化的コーディングエージェントと組み合わせることで、はるかに大きなベースラインが見逃す最適化を発見しつつ、同じ性能を達成するには推論計算を25%削減できる。
表現学習をエンドツーエンドの編集から切り離すことにより、SemRepはコード変換に対してより柔軟で意味論に基づくアプローチを提供する。
このアプローチはタスクを横断して広い適用性を示しており、生成的コードモデリングの頑健性と汎化性の向上を示唆する。

概要: コード変換はソフトウェア開発プロセスにおける基礎的な能力であり、その有効性は入力コードの意味を特徴づけ、変換を導く高品質なコード表現の構築に依存します。既存のアプローチはコード変換をエンドツーエンドの学習タスクとして扱い、意味推論に必要な表現の構築をモデルの重みに黙示的に任せるか、硬直したコンパイラレベルの抽象に依存します。SemRepを提示します。SemRepは生成的なコード表現学習を通じてコード変換を改善するフレームワークです。私たちの重要な洞察は、意味論を保つ変換を中間表現として用いることで、それが生成的な中間トレーニングタスクとして機能するとともに、以降の指示特化型コード変換への指針にもなることです。一般的なコード編集および最適化タスク（例：GPUカーネル最適化）にわたって、SemRepは厳密に同じトレーニング予算で、正確性で6.9%、性能で1.1倍、汎化で13.9%、頑健性で6.7%向上する、広くファインチューニングされたベースラインを上回ります。多様なコード変換の探索を改善することで、SemRepは特に進化的探索に適しています。進化的コーディングエージェントと組み合わせると、SemRepは、685Bのパラメータを持つベースラインが発見できない最適化を見つけつつ、推論計算量を25%削減したまま同じ性能を達成します。

返却形式: {"translated": "翻訳されたHTML"}

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

信頼度推定・自己評価・自動ウェブリサーチを備えた不確実性を考慮したLLMシステムを構築するためのコーディング実装

MarkTechPost

DNA Memory: AIエージェントを人間の脳のように学習・忘却・進化させる

Dev.to

Tinybox - オフラインAIデバイス、1200億パラメータ

Hacker News

SemRep: コード変換による生成的コード表現学習

要点

関連記事

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

信頼度推定・自己評価・自動ウェブリサーチを備えた不確実性を考慮したLLMシステムを構築するためのコーディング実装

DNA Memory: AIエージェントを人間の脳のように学習・忘却・進化させる

Tinybox - オフラインAIデバイス、1200億パラメータ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer