オンスクリーンにおける協調学習行動の自動ビデオ分析に向けた単一エージェント対マルチエージェント

要旨: オンライン上（画面上）の学習行動は、学生が学習の過程で情報をどのように探し、利用し、創り出すのかについての貴重な洞察を提供します。画面上の行動的関与を分析することは、学生の認知的および協働的なプロセスを捉えるために不可欠です。近年の視覚言語モデル（VLM）の発展により、多モーダルな動画データ分析でしばしば必要とされる、労力の大きい手作業のコーディングを自動化する新たな機会が生まれました。本研究では、ICAPフレームワークに基づく協働学習の文脈において、画面録画の自動コーディングを行うための、単一およびマルチエージェント設定における主要なクローズドソースVLM（Claude-3.7-Sonnet、GPT-4.1）とオープンソースVLM（Qwen2.5-VL-72B）の性能を比較しました。具体的には、2つのマルチエージェントフレームワークを提案し比較しました。1）3エージェントのワークフローマルチエージェントシステム（MAS）で、画面動画をシーンごとに分割し、カーソルに導かれたVLMのプロンプトと、根拠に基づく検証によって画面上の行動を検出します。2）ReActに触発された自律的意思決定MASで、推論、ツールのような操作（分割/分類/検証）、および観察に基づく自己修正を反復的に織り交ぜることで、解釈可能な画面上の行動ラベルを生成します。実験結果により、提案した2つのMASフレームワークはいずれも実行可能な性能を達成し、シーンおよび行動の検出タスクにおいて単一のVLMよりも優れていることが示されました。ワークフロー型のエージェントはシーン検出で最良の結果を達成し、自律的意思決定MASは行動検出で最良の結果を達成した点は特筆に値します。本研究は、動画分析におけるVLMベースのマルチエージェントシステムの有効性を示し、多モーダルデータ解析のためのスケーラブルなフレームワークを提供します。

オンスクリーンにおける協調学習行動の自動ビデオ分析に向けた単一エージェント対マルチエージェント

要点

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer