デュアルカメラ環境におけるデュアルストリーム・トランスフォーマーによる相互凝視と共同注意の自動検出
arXiv cs.CV / 2026/5/1
📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research
要点
- 本論文は、同期されたデュアルカメラ映像から相互凝視(MG)と共同注意(JA)を自動的に検出する効率的なデュアルストリーム・トランスフォーマーを提案している。
- 凍結した注視対応バックボーン(GazeLLE)で強力な視覚的事前知識を抽出し、相互に関わる二者間の空間的・意味的関係を表現するための独自トークン融合機構を用いている。
- エコロジカルに妥当なケア提供者—乳児の相互作用データセットで評価した結果、同手法は畳み込みベースラインおよび最先端のマルチモーダルLLMの双方を有意に上回る性能を示した。
- 著者らはモデルと事前学習済み重みをオープンソース化し、行動科学者がさまざまな実験環境に合わせて微調整できるようにして、手作業によるコーディングの負担を軽減することを狙っている。
- 全体として、本研究は行動計測のためのスケーラブルな手法を提供し、計算モデル化と応用的な相互作用研究をつなぐ役割を果たしている。




