コードインテリジェンスとともに圧縮は本当に線形なのか？

arXiv cs.CL / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、コードに焦点を当てた圧縮指標が、特に多様な言語やタスクにまたがるコード・インテリジェンスの能力という観点で、大規模言語モデル（LLM）の能力とどのように関係しているかを調査する。
先行研究で仮定されていた線形な関係は、現代のコードLLMに対する評価が不十分かつ不公平であったこと、また実世界におけるコードの多様性を十分にカバーできていなかったことにより、完全ではないと主張する。
評価を改善するため、著者らは軽量な「Format Annealing（フォーマット・アニーリング）」手法を提案し、多言語・多タスクのベンチマークを用いて、幅広いオープンソースのコードLLMに対する実験を実施する。
新たに作成した大規模なGitHub由来の検証セットで測定される、文字あたりのビット数（BPC）を用いたところ、本研究は、測定されたコード・インテリジェンスと圧縮の間に、固有の対数的な（線形ではない）関係があることを見出す。
著者らは、先行研究で線形に見えていた結果は、実験条件が制限されていたことで対数曲線の裾の部分が観測されたことに起因する可能性があると解釈し、コード領域のモデル評価に対するより堅牢な枠組みを提示する。

Abstract

データ圧縮と、大規模言語モデル（LLM）の能力の関係を理解することは重要であり、とりわけコードインテリジェンスのような専門領域ではその重要性が高い。先行研究では、圧縮と汎用的な知能の間に線形な関係があると仮定された。しかしそこでは、複数のプログラミング言語やタスクを含むコードの多面的な性質が見落とされており、さらに現代のCode LLMを公平に評価することにも苦労があった。そこで本研究では、多言語・多タスクからなる包括的なコードベンチマーク上で、多種多様なオープンソースのCode LLMを評価することでこの点に取り組む。事前学習済みLLMのコードインテリジェンスを、効率的かつ公平に評価するという課題に対処するために、我々は extit{Format Annealing}（形式アニーリング）を提案する。これは、これらの事前学習済みモデルが本来持つ能力を、等しく評価することを目的とした、軽量で透明性のある学習手法である。圧縮の有効性（bits-per-character: BPC）は、GitHubから導出した、新規かつ大規模で、これまでに見たことのないコード検証セットを用いて決定する。経験的な結果から、測定されたコードインテリジェンスとBPCの間には基本的な対数関係が成り立つことが明らかになった。この発見は、線形性に関する先行仮説を修正するものであり、線形関係と見なされるのは、特定の限られた条件下で対数曲線の裾が観測されているためである可能性が高いと我々は提案する。我々の研究は、圧縮がコードインテリジェンスの発達に果たす役割について、より深い理解を提供するとともに、コード領域における堅牢な評価枠組みをもたらす。