コード評価における開発者とLLMのバイアスの比較

arXiv cs.CL / 2026/3/26

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、コード評価のジャッジとして用いられるLLMは、部分的な文脈や曖昧なユーザー意図を含む現実的なインタラクティブ環境でテストされるべきだと主張する。
  • ルーブリック項目を抽出し、チャット形式のコーディング、IDEのオートコンプリート、指示に基づくコード編集において、人間の嗜好をどれだけよくLLMジャッジが予測できるかを評価する枠組みTRACEを導入する。
  • 13のモデルにわたって、最良のLLMジャッジであっても、開発者の嗜好との一致において人間のアノテータに対し12〜23%劣っている。
  • TRACEは不一致の主要な原因を35件特定し、その多くは確立されたソフトウェア工学のコード品質基準に結び付いており、体系的なバイアスのパターンを明らかにする。
  • 例として、チャットベースのコーディングではモデルのジャッジがより長いコード説明を好む傾向がある一方、人間はより短い説明を好み、その不一致はほとんどのコード品質の側面にまたがって現れる。

要旨: LLMがコードアプリケーションにおけるジャッジとしてますます利用されるようになってきたため、部分的な文脈や曖昧な意図を捉えた現実的なインタラクティブ環境で評価されるべきです。本稿では、TRACE(コード評価におけるルーブリック分析のためのツール)という枠組みを提示します。これは、LLMジャッジが人間の嗜好を予測する能力を評価し、さらに各項目の重み付けにおける人間とモデルの体系的なバイアスを明らかにするために、ルーブリック項目を自動抽出します。3つのモダリティ――チャットベースのプログラミング、IDEのオートコンプリート、指示に基づくコード編集――において、TRACEを用いてLLMジャッジが開発者の嗜好とどれほど一致しているかを測定します。13種類の異なるモデルのうち、最良のジャッジは人間のアノテータに対して12-23%低い性能です。TRACEは、インタラクションのモダリティをまたいで、人間とジャッジの不一致の重要な要因を35の源泉として特定します。その大半は、既存のソフトウェアエンジニアリングにおけるコード品質基準に対応しています。例えば、チャットベースのコーディングでは、ジャッジはより長いコードの説明に偏る一方で、人間はより短い説明を好みます。既存のコード品質のほとんどの次元において有意な不一致が見られ、現実的なコーディングアプリケーションにおけるLLMジャッジと人間の嗜好の間に整合ギャップが存在することが示されます。