文脈依存ルーブリックに基づく短答の採点のための学習データ生成
arXiv cs.CL / 2026/3/31
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、OECD PISA の試験環境を背景とし、言語差や注釈者バイアスといった懸念に動機づけられた、文脈依存ルーブリック向けの自動短答採点システムを学習するという課題に取り組む。
- 機密性を保った大規模な学習データセットを、少量の機密な参照データセットのみを用いて生成するための手法を提案する。具体的には、プロンプトによる生成だけに依存するのではなく、単純な派生テキスト変換を適用する。
- 著者らは、プロンプトのみの合成結果よりも、参照データに表面的により類似した3つのサロゲートデータセットを作成することに成功する。
- 早期の実験では、データセット生成のアプローチの1つが、ルーブリックに基づく採点タスクの下流モデル学習を改善しうることが示唆される。



