NGSSの理科教室における科学的説明のAIスコアリングでクラス不均衡を解消するための、トランスフォーマーベースモデル向けデータ拡張・リサンプリング戦略の検討

arXiv cs.LG / 2026/4/23

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本研究は、NGSS準拠の科学的説明をルーブリックに基づいて自動採点する際に、特に高度な推論を捉えるカテゴリでクラス不均衡が問題となる中で、データ拡張がトランスフォーマーベース(SciBERT)の分類性能をどのように改善できるかを検討している。
  • 1,466件の高校生回答データを用い、11の二値化された分析ルーブリックカテゴリでラベル付けしたうえで、微調整のみや従来のオーバーサンプリング手法(SMOTE)と、複数の拡張手法を比較している。
  • GPT-4で生成した合成応答は適合率と再現率の両方を押し上げ、ALPは最も不均衡が深刻なカテゴリで適合率・再現率・F1がいずれも100%を達成し、EASEは正しい科学的アイデアだけでなく誤ったアイデアに対しても、人手採点との整合性を幅広く改善している。
  • 総合的に、ターゲット型のデータ拡張は過学習を抑えつつ必要な概念カバレッジを維持して、科学教育における学習進度に整合した自動採点を大規模に実現するためのスケーラブルな解決策になり得ることを示している。

要旨: 学生の科学的な説明を自動的に採点することは、即時で正確なフィードバックを提供できる可能性がある一方で、特に高度な推論を捉えるルーブリックのカテゴリにおけるクラス不均衡が課題として残っている。本研究では、NGSSに整合した学習進度に基づく物理科学アセスメントに対する学生回答を、トランスフォーマーベースのテキスト分類でより良く行うためのデータ拡張戦略を検討する。データセットは、11の二値コード化された分析カテゴリにもとづいて採点された1,466件の高校生の回答から構成される。このルーブリックは、完全な説明に必要な科学的アイデアを含む6つの重要な構成要素と、5つの一般的な不完全または不正確なアイデアを特定する。ベースラインとしてSciBERTを用い、以下のデータ拡張戦略を適用し、微調整と評価を行った:(1)GPT-4で生成した合成回答、(2)EASE(語レベルの抽出とフィルタリングの手法)、(3)ALP(Augmentation using Lexicalized Probabilistic context-free grammar によるフレーズレベル抽出)。
SciBERTの微調整はベースラインよりリコールを改善したが、データ拡張は性能を大きく向上させた。GPTデータは精度とリコールの両方を押し上げ、ALPは、最も深刻な不均衡カテゴリ(5,6,7および9)においてほとんどのケースで完全な精度・リコール・F1スコアを達成した。すべてのルーブリックカテゴリにおいて、EASEによる拡張は、科学的アイデア(カテゴリ1--6)と不正確なアイデア(カテゴリ7--11)の両方について、人間の採点との整合性を大幅に高めた。さらに、本研究では、過学習を避け、学習進度との整合にとって重要な初学者レベルのデータを保持するため、従来のオーバーサンプリング手法(SMOTE)と異なるデータ拡張戦略を比較した。以上の結果は、概念的なカバレッジを維持しつつ、重度の不均衡に対処するには的を絞ったデータ拡張が有効であり、科学教育における学習進度に整合した自動採点のためのスケーラブルな解決策となり得ることを示している。