AI Navigate

大規模言語モデルにおける暗黙の採点バイアス: 執筆スタイルが数学・プログラミング・エッセイ課題の自動評価に及ぼす影響

arXiv cs.CL / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、内容の正確さに焦点を当てるよう指示されていても、エッセイ/ライティング課題において、LLMベースの採点者が書き方に基づく暗黙のバイアスを示すことを明らかにしている。
  • 本研究では、数学・プログラミング・エッセイ課題の各課題を対象として学生回答180件を用い、LLaMA 3.3 70BとQwen 2.5 72Bという2つのオープンソースモデルを比較した。
  • 結果は、エッセイ/ライティング課題において統計的に有意なバイアス(p < 0.05)を示し、効果量は中程度から非常に大きい範囲で、非公式な言語および非母語話者の表現に対するペナルティが10点満点の尺度で課される。
  • 一方、数学およびプログラミング課題ではバイアスは最小であることを示し、採点の公平性は課題に依存することを浮き彫りにしている。著者らは、LLM採点を導入する前にバイアス監査プロトコルの整備を求めている。

要旨: 大規模言語モデル(LLMs)が教育現場で自動採点者として広く利用されるようになるにつれ、それらの評価における公正性や偏見に関する懸念が重要性を増している。 本研究は、基礎となる内容の正確性が一定である場合に、LLMs が書き方のスタイルに基づく暗黙の採点バイアスを示すかどうかを調査する。 私たちは、3つの科目(数学、プログラミング、エッセイ/ライティング)にわたる180件の学生回答の統制データセットを作成し、それぞれに表層レベルの撹乱タイプを3種類付与した(文法エラー、非公式な語彙、非ネイティブ風の表現)。 最先端のオープンソースLLM -- LLaMA 3.3 70B(Meta)と Qwen 2.5 72B(Alibaba) -- を、回答を1〜10のスケールで採点させ、内容の正確性のみを評価し書き方を無視するという明示的な指示を与えた。 私たちの結果は、エッセイ/ライティング課題において、両モデルおよびすべての撹乱タイプで統計的に有意な採点バイアスを示しており(p < 0.05)、効果量は中程度(Cohen's d = 0.64)から非常に大きい(d = 4.25)までの範囲だった。 非公式な語彙は最も重いペナルティを受け、LLaMA は10点満点中平均1.90点、Qwen は1.20点を減点した――ペナルティはB+とC+の成績の差に匹敵する。 非ネイティブ風の表現はそれぞれ1.35点と0.90点の減点だった。 対照的に、数学とプログラミングの課題は偏りが最小で、多くの条件で統計的有意性を満たさなかった。 これらの知見は、LLM 採点のバイアスが対象依存的で、スタイルに敏感であり、採点プロンプトの明示的な反バイアス指示にもかかわらず持続することを示している。 LLM ベースの採点システムを公正に展開することの影響を論じ、機関導入前にバイアス監査プロトコルを推奨する。