コード生成のためのプログラミング言語に関する分類体系(タクソノミー)

arXiv cs.CL / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、646の言語を4つのリソース階層に分類することで、コード生成向けのプログラミング言語に関する初の再現可能なタクソノミーを提案する。
  • リソース分布が大きく偏っていることを見出す。すなわち、Tier 3(High)に属する言語のうちわずか1.9%が、7つの主要コーパス全体における全コードトークンの74.6%を生成している。
  • 一方で、Tier 0(Scarce)に属する言語の71.7%はトークンのわずか1.0%しか寄与しておらず、利用可能なコードデータにおける極端で体系的な不均衡を示している。
  • 著者らは、不均衡が統計的指標(不平等度、分散、分布の歪度)によって検証できることを示し、公平なデータセットのキュレーションにとってそれが重要であると主張する。
  • このタクソノミーは、言語リソースの階層を踏まえたマルチリンガルLLMのコード生成における評価を可能にし、言語リソース水準ごとの性能測定のあり方を改善することを目的としている。