大規模言語モデルを用いた講義情報シートの分類のスケーラブル化：学術品質保証のための再利用可能な組織的手法

arXiv cs.LG / 2026/3/17

💬 オピニオンTools & Practical UsageModels & Research

共有:

要点

本研究は、高等教育機関における生成AIリスクを大規模に監査するための、エンドツーエンドのLLMベースパイプラインを提示する。
手動のパイロットサンプリング、複数モデル比較を含む反復的なプロンプトエンジニアリング、数千件のシートの自動レポート付きの本番スキャン、そして変更を追跡する縦断的な再スキャンという4段階のワークフローを実装する。
明確なリスク（Clear risk、Potential risk、Low risk）の3段階のリスク分類と、教員チームへの自動レポート配布によって、迅速で体系的なガバナンスを実現する。
曖昧なケースの処理に優れていることから、GPT-4oが本番運用に選択され、反復的な改良後に専門家ラベルと87％の一致を達成した。
Year 1の結果は、60.3％が明確なリスク、15.2％が潜在的リスク、24.5％が低リスクを示し、Year 2ではリスク分布に大きな変化が見られ、実践志向プログラムにおいて顕著な改善が見られた。さらに、本手法は他の監査分野へ転用可能で、高等教育のガバナンスにおける責任あるLLMの展開を支援する。

要旨：目的：高等教育機関は生成系AI（GenAI）統合のためのコース設計を監査するプレッシャーが高まっています。本論文は、大規模言語モデル（LLMs）を用いてコース情報シートを大規模にスキャンし、評価がGenAIツールの学生利用に脆弱となり得る箇所を特定し、反復的な精練を通じてシステム性能を検証し、直接の利害関係者とのコミュニケーションと取り組みを通じて結果を実務へ落とし込むエンドツーエンドの手法を提示します。
方法：私たちは4段階のパイプラインを開発しました：（0）手動によるパイロットサンプリング、（1）複数モデル比較を伴う反復的なプロンプト設計、（2）ブリュッセル自由大学（VUB）の学士課程および修士課程の4,684件のコース情報シートを対象とした本番スキャン（学年2024-2025）で、自動レポート生成と教員チームへのメール配信（アドレス一致率91.4％）を、3段階のリスク分類（明確なリスク、潜在的リスク、低リスク）を用いて実施し、（3）次のカタログリリース後に4,675件のシートを長期的に再スキャンしました。
結果：プロンプトの改良を5回重ねた結果、専門家ラベルと87％の一致を達成しました。インターンシップや実習要素を含む曖昧なケースの取り扱いが優れていることを理由にGPT-4oを本番運用に選択しました。第1年度のスキャンでは、コースの60.3％を明確なリスク、15.2％を潜在的リスク、24.5％を低リスクと分類しました。第2年度の比較ではリスク分布に大幅な変化が見られ、実践志向のプログラムで改善が最も顕著でした。
示唆：この方法は、異種データのカタログを迅速に構造化された実用的な知識へと変換し、教育機関における意思決定の支援へとつなげることができます。アプローチは他の監査分野（サステナビリティ、アクセシビリティ、教育的整合性）にも適用可能であり、高等教育ガバナンスにおける責任あるLLM展開のテンプレートを提供します。