Parallel-SFT：コードRLにおけるゼロショットの異なるプログラミング言語間転移を改善する

arXiv cs.CL / 2026/4/23

📰 ニュースModels & Research

共有:

要点

本論文は、学習データが限られがちな低リソース言語でも言語をまたいだ転移を狙い、「コードRLにおけるゼロショットの異なるプログラミング言語間転移」を提案している。
Llama-3.1 では、ソース言語でのコード生成に対してRL学習を行っても、他のターゲット言語での性能が改善せず、場合によってはむしろ低下することを示している。
より効果的なRL転移のために、RLの前に一般化可能なSFT（教師あり微調整）の初期化が必要だという仮説を立てている。
そこで「Parallel-SFT」を提案し、SFTのデータ混合に複数の言語で書いた機能的に等価な“parallel programs”を組み込み、続くRLで未見言語への汎化が向上することを実証している。
モデル内部表現の分析では、Parallel-SFT により機能中心の潜在空間が形成され、言語をまたいだ等価プログラムがより密にクラスタリングされることが、転移性改善に寄与すると考察している。

Abstract

現代の言語モデルは、C++やPythonのような一般的なプログラミング言語（PL）において、優れたコーディング能力を示しますが、低リソースのPLでは、多くの場合、学習データの入手可能性によって性能が制限されます。しかし原理的には、プログラミング技能の多くはPLをまたいで普遍的であるため、あるPLで獲得した能力は他のPLへ転移するはずです。本研究では、コードRLに対するゼロショットのクロス・プログラミング言語転移という課題を提案します。Llama-3.1において、ソースPLでコード生成のためのRL学習を行っても改善は起こらず、むしろ他のターゲットPLでの性能が低下することがあると分かりました。これに対処するために、効果的なRL転移には、RLの前に汎化可能なSFT（教師あり微調整）初期化が必要であるという仮説を立てます。そこで、複数のPLで実装された「機能的に等価な並列プログラム」をデータ混合に組み込むSFT戦略である**Parallel-SFT**を提案します。これにより転移可能性が向上することを示します。すなわち、その後にParallel-SFTモデルに対してRLを行うと、未見のPLに対するより良い一般化が観測されます。モデル内部表現の分析から、Parallel-SFTはより機能中心の潜在空間をもたらし、PL間で等価なプログラムがより緊密にクラスタリングされることが分かります。これが転移可能性の向上に寄与しているのではないかと仮説を立てます。