Parallel-SFT:コードRLにおけるゼロショットの異なるプログラミング言語間転移を改善する
arXiv cs.CL / 2026/4/23
📰 ニュースModels & Research
要点
- 本論文は、学習データが限られがちな低リソース言語でも言語をまたいだ転移を狙い、「コードRLにおけるゼロショットの異なるプログラミング言語間転移」を提案している。
- Llama-3.1 では、ソース言語でのコード生成に対してRL学習を行っても、他のターゲット言語での性能が改善せず、場合によってはむしろ低下することを示している。
- より効果的なRL転移のために、RLの前に一般化可能なSFT(教師あり微調整)の初期化が必要だという仮説を立てている。
- そこで「Parallel-SFT」を提案し、SFTのデータ混合に複数の言語で書いた機能的に等価な“parallel programs”を組み込み、続くRLで未見言語への汎化が向上することを実証している。
- モデル内部表現の分析では、Parallel-SFT により機能中心の潜在空間が形成され、言語をまたいだ等価プログラムがより密にクラスタリングされることが、転移性改善に寄与すると考察している。


