Marked Pedagogies:個別化された自動作文フィードバックにおける言語的偏見の検証

arXiv cs.CL / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、PERSUADEデータセットの600編の中学2年生の説得的エッセイに対して、4つの大規模言語モデル(GPT-4o、GPT-3.5-turbo、Llama-3.3 70B、Llama-3.1 8B)によって生成されたフィードバックを評価し、性別、民族/人種、学習ニーズ、達成度、動機といった属性をプロンプトに組み込んでいる。
  • Marked Wordsフレームワークを用いて、著者らは語彙の変化を分析し、仮定された学生属性に条件付けられたフィードバックに、エッセイの内容が同一であっても体系的なステレオタイプに沿った偏りがあることを突き止めた。
  • 結果は、人種、言語、または障害によって特定された学生に対して、過度な称賛(肯定的バイアス)や実質的な批評の抑制といった偏りを示し、知覚される能力差を強化する可能性がある。
  • コンテンツの強調を超えて、これらのモデルは作文がどのように評価されるか、学生へどのように呼びかけられるかにも影響を及ぼし、著者らが『Marked Pedagogies』と呼ぶ教育的志向を反映している。
  • 著者らは、これらのバイアスを緩和し、公正で建設的なフィードバックを確保するために、自動化フィードバックツールの透明性と説明責任を求めている。

要旨: 効果的な個別化フィードバックは、学生のリテラシーの発達にとって重要です。LLMを搭載したツールは現在、それらのフィードバックを大規模に自動化することを約束していますが、LLMsは言語中立ではなく、標準的な学術英語を優先し、社会的ステレオタイプを再現するため、学生が受け取るフィードバックを「パーソナライズ」がどのように形づくるかについて懸念を生じさせます。私たちは、広く使用されている4つのLLM(GPT-4o、GPT-3.5-turbo、Llama-3.3 70B、Llama-3.1 8B)が、学生属性に応じて書かれたフィードバックをどのように適応させるかを検討します。PERSUADEデータセットに含まれる8年生向けの説得エッセイ600編を用い、性別、民族/人種、学習ニーズ、達成度、動機を組み込んだプロンプト条件の下でフィードバックを生成しました。私たちは、Marked Wordsフレームワークを適用して、モデル出力間の語彙の変化を分析します。私たちの結果は、仮定された生徒属性に条件付けられた、体系的でステレオタイプに沿ったフィードバックの変化を示します――エッセイの内容が同一であっても。人種、言語、または障害でマークされた学生へのフィードバックは、しばしば肯定的フィードバックのバイアスとフィードバックを控えるバイアスを示し、賛辞の過剰、実質的な批判の不足、能力が限定されているとの仮定がみられました。属性を横断して、モデルは強調する内容だけでなく、書き方がどのように評価され、学生がどのように呼びかけられるかも調整しました。我々はこれらの教育的指向を Marked Pedagogies(マークド・ペダゴジー)と呼び、自動化されたフィードバックツールにおける透明性と説明責任の必要性を強調します。