要旨: 大規模言語モデルは、作文の自動採点のためのツールとして最近提案されているが、人間による採点との一致度は明確ではない。本研究では、LLMが生成したスコアが人間の成績とどのように比較されるかを評価し、タスク固有の学習を行わない「そのまま(out-of-the-box)」の設定で、GPTおよびLlamaファミリーの複数のモデルの採点行動を分析する。我々の結果は、LLMと人間のスコアの一致が比較的弱く、作文の特性によって変動することを示している。具体的には、人間の評価者と比べて、LLMは短い、または十分に展開されていない作文に対して高いスコアを付ける傾向がある一方で、軽微な文法や綴りの誤りを含む長い作文には低いスコアを付ける傾向がある。さらに、LLMによって生成されるスコアは、一般にそれらが生成するフィードバックと整合していることも見出した。すなわち、より多く褒められる作文ほどより高いスコアを受け取り、より多く批判される作文ほどより低いスコアを受け取る。これらの結果は、LLM生成のスコアとフィードバックが首尾一貫したパターンに従う一方で、人間の評価者が用いるものとは異なるシグナルに依存しているため、人間の採点実務との整合が限定的であることを示唆している。それでもなお、本研究は、LLMが自らの採点と整合したフィードバックを生成すること、そして作文の採点を支援する用途で信頼性をもって利用できることを示している。
LLMは人間のように作文を採点できない
arXiv cs.CL / 2026/3/26
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMが人間の作文の成績にどの程度一致できるかを検証し、モデルが付与したスコアと人間の評価の総合的な一致度は比較的弱く、作文の特性によって変動することを明らかにする。
- LLMは人間の採点者に対して体系的なバイアスを示し、短い、または十分に発展していない作文に対して高い評価を与えがちで、軽微な文法・スペリングの誤りがある長い作文に対しては低い評価を与える傾向がある。
- 本研究では、LLMのスコアが生成するフィードバックと内部的に整合していることを見出す。すなわち、より褒められた作文はより高い点数が付けられ、より批判された作文はより低い点数が付けられる。
- 著者らは、採点やフィードバックが首尾一貫したパターンであっても、LLMは人間とは異なるシグナルに依存しており、人間の採点実務との整合性には限界があると結論づけている。
- 人間のスコアとの一致が限定的であるにもかかわらず、本論文は、LLMが生成したフィードバックは自動化された作文採点ワークフローを支援する用途として、信頼性をもって利用できる可能性があることを示唆している。