恥ずかしいほど単純な自己蒸留がコード生成を改善する

arXiv cs.CL / 2026/4/3

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は「シンプル自己蒸留（SSD）」を提案する。ここでは、LLMが特定のデコーディング設定を用いてコード生成サンプルを作り、その自己生成出力に対して標準的な教師あり微調整（supervised fine-tuning）を行う。別の教師モデル（teacher model）や検証器（verifier）は用いない。
SSDは、Qwen3-30B-Instructのコード生成性能を大幅に改善し、LiveCodeBench v6におけるpass@1を42.4%から55.3%へ引き上げる。特に難しい問題での改善が最も大きい。
この手法は、複数のQwenおよびLlamaのモデル規模（4B、8B、30B）にわたり、また「指示（instruct）」および「思考（thinking）」の両バリアントに対しても一般化する。これにより、アプローチが広く適用可能であることが示唆される。
著者らは、デコーディングにおける「精度探索の対立（precision-exploration conflict）」を分析することで改善を説明し、SSDが文脈依存の形でトークン分布を再形成すると論じる。精度が重要な場合は注意を逸らす分布（distractor tail）を抑えつつ、探索が有効な場合には有用な多様性を維持する。
全体として、SSDは、モデル自身の生の出力のみを用いてLLMのコード生成を改善する補完的なポストトレーニング手法として提示されている。