コードインテリジェンスとともに圧縮は本当に線形なのか?
arXiv cs.CL / 2026/3/27
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、コードに焦点を当てた圧縮指標が、特に多様な言語やタスクにまたがるコード・インテリジェンスの能力という観点で、大規模言語モデル(LLM)の能力とどのように関係しているかを調査する。
- 先行研究で仮定されていた線形な関係は、現代のコードLLMに対する評価が不十分かつ不公平であったこと、また実世界におけるコードの多様性を十分にカバーできていなかったことにより、完全ではないと主張する。
- 評価を改善するため、著者らは軽量な「Format Annealing(フォーマット・アニーリング)」手法を提案し、多言語・多タスクのベンチマークを用いて、幅広いオープンソースのコードLLMに対する実験を実施する。
- 新たに作成した大規模なGitHub由来の検証セットで測定される、文字あたりのビット数(BPC)を用いたところ、本研究は、測定されたコード・インテリジェンスと圧縮の間に、固有の対数的な(線形ではない)関係があることを見出す。
- 著者らは、先行研究で線形に見えていた結果は、実験条件が制限されていたことで対数曲線の裾の部分が観測されたことに起因する可能性があると解釈し、コード領域のモデル評価に対するより堅牢な枠組みを提示する。
広告




