注意ガイド付きデュアルストリーム学習によるグループ参加度認識:アダプティブ・ゲーティングを介して、トランスフォーマでエンコードした運動ダイナミクスとシーン文脈を融合

arXiv cs.CV / 2026/4/14

💬 オピニオン

要点

  • 本論文は、教室内の動画から学生の集団レベルのエンゲージメントを認識するためのデュアルストリーム・フレームワーク「DualEngage」を提案し、個々の行動と全体の集団ダイナミクスを明示的に組み合わせる。

Abstract

学生のエンゲージメントは、グループ活動における学習成果を改善するために重要である。強いエンゲージメントを示す学生は、個人としてもより良い成績を収め、さらにグループ全体の成功にも貢献する。しかし、既存の自動エンゲージメント認識手法の多くはオンライン授業向けに設計されているか、あるいは個人レベルでのエンゲージメントを推定するものである。このギャップに対処するために、本研究では、教室内の映像からグループレベルのエンゲージメント認識を行う新しい二ストリーム・フレームワークであるDualEngageを提案する。エンゲージメントを、個人レベルの行動とグループレベルの行動の両方の関数としてモデリングする。主要なストリームは、学生を検出・追跡することで人物レベルの運動ダイナミクスをモデル化し、Recurrent All-Pairs Field Transformsネットワークによって高密度光学フローを抽出し、トランスフォーマー・エンコーダで時間的な運動パターンを符号化し、最後に注意(attention)プーリングによって各学生の表現を集約して統一表現を得る。副次的なストリームは、事前学習済みの3次元Residual Networkを活用し、動画クリップ全体からシーンレベルの時空間情報を捉える。2つのストリームの表現は、softmax-gated fusionによって結合され、両特徴の共起文脈に基づいて各ストリームの寄与を動的に重み付けする。DualEngageは、個人の行動と、より大局的なグループのダイナミクスを結合した表現を学習する。本手法を、中国のOcean Universityが開発したClassroom Group Engagement Datasetに対して5-fold交差検証で評価し、平均分類精度0.9621+/-0.0161、マクロ平均F1が0.9530+/-0.0204を達成した。各ブランチの寄与を理解するために、さらに、単一ストリームのバリアントを二ストリーム・モデルと比較するアブレーション研究を行う。本研究は、動きの手がかりを推定器として明示的に活用する二ストリーム設計を採用する、教室内エンゲージメント認識における先駆的な取り組みの一つである。

注意ガイド付きデュアルストリーム学習によるグループ参加度認識:アダプティブ・ゲーティングを介して、トランスフォーマでエンコードした運動ダイナミクスとシーン文脈を融合 | AI Navigate