デュアルカメラ環境におけるデュアルストリーム・トランスフォーマーによる相互凝視と共同注意の自動検出

arXiv cs.CV / 2026/5/1

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

本論文は、同期されたデュアルカメラ映像から相互凝視（MG）と共同注意（JA）を自動的に検出する効率的なデュアルストリーム・トランスフォーマーを提案している。
凍結した注視対応バックボーン（GazeLLE）で強力な視覚的事前知識を抽出し、相互に関わる二者間の空間的・意味的関係を表現するための独自トークン融合機構を用いている。
エコロジカルに妥当なケア提供者—乳児の相互作用データセットで評価した結果、同手法は畳み込みベースラインおよび最先端のマルチモーダルLLMの双方を有意に上回る性能を示した。
著者らはモデルと事前学習済み重みをオープンソース化し、行動科学者がさまざまな実験環境に合わせて微調整できるようにして、手作業によるコーディングの負担を軽減することを狙っている。
全体として、本研究は行動計測のためのスケーラブルな手法を提供し、計算モデル化と応用的な相互作用研究をつなぐ役割を果たしている。

Abstract

相互注視（MG）と共同注意（JA）を分析することは発達心理学において重要ですが、従来は手作業による負荷の高いコーディングに依存してきました。複数カメラの実験環境でこのプロセスを自動化することは、複雑なカメラ間の関係動態のため計算的に困難です。本論文では、同期された2台のカメラ記録からMGとJAを検出する、高効率なデュアルストリームTransformerアーキテクチャを提案します。提案手法では、凍結した注視に対応したバックボーン（GazeLLE）を用いて豊かな視覚的事前知識を抽出し、さらに相互作用する二者間（dyads）の空間的・意味的な関係を対応づけるための独自のトークン融合メカニズムを組み合わせます。発達に即した生態学的妥当性のあるデータセット（養育者と乳児の相互作用）で評価したところ、当モデルは良好な性能を示し、畳み込みベースラインおよび最先端のマルチモーダルLarge Language Model（LLM）の両方を大幅に上回りました。モデルと事前学習済み重みをオープンソース化することで、行動科学者に対し、多様な実験環境に合わせて微調整できるスケーラブルなツールを提供し、計算論的モデリングと応用的な相互作用研究のギャップを効果的に橋渡しします。

Black Hat USA

AI Business

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

日経XTECH

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

Dev.to

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

ITmedia AI+

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

Reddit r/artificial

デュアルカメラ環境におけるデュアルストリーム・トランスフォーマーによる相互凝視と共同注意の自動検出

要点

Abstract

関連記事

Black Hat USA

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat USA

AIの次に来る技術、投資データで浮き彫りに ランキング上位を徹底解説

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？ 開発者に聞く “文字化け解消”の秘訣

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣