要旨: 学習者が教育動画でビデオ操作(コントロール)を使用することは、認知処理および指導設計の質に関する暗黙のシグナルを提供しますが、スケーラブルで説明可能な予測モデルの欠如により、提供前にそのような挙動を教員が見通すことができない状況があります。私たちは、動画コンテンツだけから認知負荷の代理指標として、集団レベルでの視聴、停止、スキップ、巻き戻しの挙動を予測するための、スケーラブルで解釈可能なパイプラインを提案します。提案手法では、マルチモーダル大規模言語モデル(MLLM)を活用して短い動画セグメントの埋め込み(embeddings)を計算し、時間的にきめ細かなインタラクションのピークを識別するニューラル分類器を訓練します。最適な認知負荷のための指導設計に関するマルチメディア学習理論に基づき、動画セグメントの特徴量をGPT-5でコード化し、概念活性化ベクトル(concept activation vectors)を用いてモデル予測を解釈するための基盤として活用します。私たちは、このパイプラインを66のオンラインコースから得られた7700万件の動画コントロールイベントで評価します。結果として、MLLMの埋め込みに基づく分類器はインタラクションのピークを確実に予測でき、未見の学術分野にも汎化し、解釈可能で理論に関連する指導上の概念を符号化できることが示されました。全体として、本研究の結果は、教育用動画設計のための費用効率の高い解釈可能な事前スクリーニングが実現可能であることを示すとともに、大規模にマルチメディア学習理論を実証的に検討する新たな機会を切り拓きます。
マルチモーダル大規模言語モデルを用いた、スケーラブルかつ説明可能な学習者・動画インタラクション予測
arXiv cs.AI / 2026/4/7
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、教育コンテンツを配信する前に、学習者の認知的負荷の代理指標として動画の制御行動(視聴、停止、スキップ、巻き戻し)を予測するための、スケーラブルで説明可能なパイプラインを提案している。
- 短い動画セグメントのマルチモーダル大規模言語モデル(MLLM)埋め込みを用い、その後、時間的に細粒度の「インタラクションのピーク」を検出するニューラル分類器を学習する。
- 解釈可能性を可能にするため、GPT-5で符号化されたセグメント特徴を抽出し、コンセプト活性化ベクトルを適用することで、予測されたピークを理論に関連する指導上の概念へと対応づけられるようにしている。
- 評価では、66のオンラインコースにまたがる動画制御イベント7,700万件という大規模データセットを用い、予測性能の高さ、未見の学術分野への汎化、そして解釈可能に学習された概念を示している。
- 著者らは、このアプローチが動画デザイン品質のコスト効率の良い事前スクリーニングを支援し、マルチメディア学習理論を大規模に実証検証することを可能にすると主張している。

