外観不要の行動認識：人間におけるゼロショット汎化と二経路モデル

arXiv cs.CV / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、静的な身体形状の手がかりを取り除いた「外観不要（appearance-free）」変換動画に対して、人間がゼロショットで行動認識できるかを検証する。
実験では22名の参加者が自然動画のUCF5で学習し、その後AFD5（密度ノイズのモーション動画）とランダムドットの外観不要動画という2種類でテストした結果、いずれも偶然より高い精度で認識できたが自然動画より精度は低下した。
著者らは、RGB（形）ストリームと光フロー（動き）ストリームを統合した二経路の3D CNNに、ゲシュタルトの「common-fate」グルーピングに着想を得たコヒーレンス・ゲーティングを加えたモデルを提案する。
提案モデルは両方の外観不要データセットで汎化挙動を再現し、既存の動画分類モデルを上回り、人間の性能とのギャップを縮めた；外観不要動画への汎化にはモーション経路が決定的で、形の経路は自然動画での性能向上に寄与することが示された。