大規模言語モデルを用いた講義情報シートの分類のスケーラブル化:学術品質保証のための再利用可能な組織的手法

arXiv cs.LG / 2026/3/17

💬 オピニオンTools & Practical UsageModels & Research

要点

  • 本研究は、高等教育機関における生成AIリスクを大規模に監査するための、エンドツーエンドのLLMベースパイプラインを提示する。
  • 手動のパイロットサンプリング、複数モデル比較を含む反復的なプロンプトエンジニアリング、数千件のシートの自動レポート付きの本番スキャン、そして変更を追跡する縦断的な再スキャンという4段階のワークフローを実装する。
  • 明確なリスク(Clear risk、Potential risk、Low risk)の3段階のリスク分類と、教員チームへの自動レポート配布によって、迅速で体系的なガバナンスを実現する。
  • 曖昧なケースの処理に優れていることから、GPT-4oが本番運用に選択され、反復的な改良後に専門家ラベルと87%の一致を達成した。
  • Year 1の結果は、60.3%が明確なリスク、15.2%が潜在的リスク、24.5%が低リスクを示し、Year 2ではリスク分布に大きな変化が見られ、実践志向プログラムにおいて顕著な改善が見られた。さらに、本手法は他の監査分野へ転用可能で、高等教育のガバナンスにおける責任あるLLMの展開を支援する。

要旨:目的:高等教育機関は生成系AI(GenAI)統合のためのコース設計を監査するプレッシャーが高まっています。本論文は、大規模言語モデル(LLMs)を用いてコース情報シートを大規模にスキャンし、評価がGenAIツールの学生利用に脆弱となり得る箇所を特定し、反復的な精練を通じてシステム性能を検証し、直接の利害関係者とのコミュニケーションと取り組みを通じて結果を実務へ落とし込むエンドツーエンドの手法を提示します。
方法:私たちは4段階のパイプラインを開発しました:(0)手動によるパイロットサンプリング、(1)複数モデル比較を伴う反復的なプロンプト設計、(2)ブリュッセル自由大学(VUB)の学士課程および修士課程の4,684件のコース情報シートを対象とした本番スキャン(学年2024-2025)で、自動レポート生成と教員チームへのメール配信(アドレス一致率91.4%)を、3段階のリスク分類(明確なリスク、潜在的リスク、低リスク)を用いて実施し、(3)次のカタログリリース後に4,675件のシートを長期的に再スキャンしました。
結果:プロンプトの改良を5回重ねた結果、専門家ラベルと87%の一致を達成しました。インターンシップや実習要素を含む曖昧なケースの取り扱いが優れていることを理由にGPT-4oを本番運用に選択しました。第1年度のスキャンでは、コースの60.3%を明確なリスク、15.2%を潜在的リスク、24.5%を低リスクと分類しました。第2年度の比較ではリスク分布に大幅な変化が見られ、実践志向のプログラムで改善が最も顕著でした。
示唆:この方法は、異種データのカタログを迅速に構造化された実用的な知識へと変換し、教育機関における意思決定の支援へとつなげることができます。アプローチは他の監査分野(サステナビリティ、アクセシビリティ、教育的整合性)にも適用可能であり、高等教育ガバナンスにおける責任あるLLM展開のテンプレートを提供します。

大規模言語モデルを用いた講義情報シートの分類のスケーラブル化:学術品質保証のための再利用可能な組織的手法 | AI Navigate