恥ずかしいほど単純な自己蒸留がコード生成を改善する
arXiv cs.CL / 2026/4/3
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は「シンプル自己蒸留(SSD)」を提案する。ここでは、LLMが特定のデコーディング設定を用いてコード生成サンプルを作り、その自己生成出力に対して標準的な教師あり微調整(supervised fine-tuning)を行う。別の教師モデル(teacher model)や検証器(verifier)は用いない。
- SSDは、Qwen3-30B-Instructのコード生成性能を大幅に改善し、LiveCodeBench v6におけるpass@1を42.4%から55.3%へ引き上げる。特に難しい問題での改善が最も大きい。
- この手法は、複数のQwenおよびLlamaのモデル規模(4B、8B、30B)にわたり、また「指示(instruct)」および「思考(thinking)」の両バリアントに対しても一般化する。これにより、アプローチが広く適用可能であることが示唆される。
- 著者らは、デコーディングにおける「精度探索の対立(precision-exploration conflict)」を分析することで改善を説明し、SSDが文脈依存の形でトークン分布を再形成すると論じる。精度が重要な場合は注意を逸らす分布(distractor tail)を抑えつつ、探索が有効な場合には有用な多様性を維持する。
- 全体として、SSDは、モデル自身の生の出力のみを用いてLLMのコード生成を改善する補完的なポストトレーニング手法として提示されている。




