オンスクリーンにおける協調学習行動の自動ビデオ分析に向けた単一エージェント対マルチエージェント

arXiv cs.AI / 2026/4/7

💬 オピニオン

要点

  • この論文は、マルチモーダル動画からオンスクリーンの協調学習行動を自動的にコード化するためのVLMベースのアプローチを提案し、人手によるラベリング作業を削減することを目的としている。

要旨: オンライン上(画面上)の学習行動は、学生が学習の過程で情報をどのように探し、利用し、創り出すのかについての貴重な洞察を提供します。画面上の行動的関与を分析することは、学生の認知的および協働的なプロセスを捉えるために不可欠です。近年の視覚言語モデル(VLM)の発展により、多モーダルな動画データ分析でしばしば必要とされる、労力の大きい手作業のコーディングを自動化する新たな機会が生まれました。本研究では、ICAPフレームワークに基づく協働学習の文脈において、画面録画の自動コーディングを行うための、単一およびマルチエージェント設定における主要なクローズドソースVLM(Claude-3.7-Sonnet、GPT-4.1)とオープンソースVLM(Qwen2.5-VL-72B)の性能を比較しました。具体的には、2つのマルチエージェントフレームワークを提案し比較しました。1)3エージェントのワークフローマルチエージェントシステム(MAS)で、画面動画をシーンごとに分割し、カーソルに導かれたVLMのプロンプトと、根拠に基づく検証によって画面上の行動を検出します。2)ReActに触発された自律的意思決定MASで、推論、ツールのような操作(分割/分類/検証)、および観察に基づく自己修正を反復的に織り交ぜることで、解釈可能な画面上の行動ラベルを生成します。実験結果により、提案した2つのMASフレームワークはいずれも実行可能な性能を達成し、シーンおよび行動の検出タスクにおいて単一のVLMよりも優れていることが示されました。ワークフロー型のエージェントはシーン検出で最良の結果を達成し、自律的意思決定MASは行動検出で最良の結果を達成した点は特筆に値します。本研究は、動画分析におけるVLMベースのマルチエージェントシステムの有効性を示し、多モーダルデータ解析のためのスケーラブルなフレームワークを提供します。