デュアルカメラ環境におけるデュアルストリーム・トランスフォーマーによる相互凝視と共同注意の自動検出

arXiv cs.CV / 2026/5/1

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 本論文は、同期されたデュアルカメラ映像から相互凝視(MG)と共同注意(JA)を自動的に検出する効率的なデュアルストリーム・トランスフォーマーを提案している。
  • 凍結した注視対応バックボーン(GazeLLE)で強力な視覚的事前知識を抽出し、相互に関わる二者間の空間的・意味的関係を表現するための独自トークン融合機構を用いている。
  • エコロジカルに妥当なケア提供者—乳児の相互作用データセットで評価した結果、同手法は畳み込みベースラインおよび最先端のマルチモーダルLLMの双方を有意に上回る性能を示した。
  • 著者らはモデルと事前学習済み重みをオープンソース化し、行動科学者がさまざまな実験環境に合わせて微調整できるようにして、手作業によるコーディングの負担を軽減することを狙っている。
  • 全体として、本研究は行動計測のためのスケーラブルな手法を提供し、計算モデル化と応用的な相互作用研究をつなぐ役割を果たしている。

Abstract

相互注視(MG)と共同注意(JA)を分析することは発達心理学において重要ですが、従来は手作業による負荷の高いコーディングに依存してきました。複数カメラの実験環境でこのプロセスを自動化することは、複雑なカメラ間の関係動態のため計算的に困難です。本論文では、同期された2台のカメラ記録からMGとJAを検出する、高効率なデュアルストリームTransformerアーキテクチャを提案します。提案手法では、凍結した注視に対応したバックボーン(GazeLLE)を用いて豊かな視覚的事前知識を抽出し、さらに相互作用する二者間(dyads)の空間的・意味的な関係を対応づけるための独自のトークン融合メカニズムを組み合わせます。発達に即した生態学的妥当性のあるデータセット(養育者と乳児の相互作用)で評価したところ、当モデルは良好な性能を示し、畳み込みベースラインおよび最先端のマルチモーダルLarge Language Model(LLM)の両方を大幅に上回りました。モデルと事前学習済み重みをオープンソース化することで、行動科学者に対し、多様な実験環境に合わせて微調整できるスケーラブルなツールを提供し、計算論的モデリングと応用的な相互作用研究のギャップを効果的に橋渡しします。