視覚モデルは、人間と同様に静止画像の中の錯視的な運動を知覚できるのか？

arXiv cs.CV / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、DNNベースの視覚／オプティカルフロー・モデルが、静止画像から錯視的な運動を知覚できるかを検証し、特に回転するヘビ（Rotating Snakes）錯視を人間の運動知覚と対比してテストする。
評価されたオプティカルフロー・モデルの大半は、人間の期待に一致する運動／フローフィールドを生成できず、機械と人間で錯視の処理方法が大きく異なることが示される。
眼球運動のサッカード（急速眼球運動）を模擬した条件では、人間を模したDual-Channelモデルのみが期待される回転運動を示し、その対応が最も良いのはサッカードのシミュレーション中であった。
アブレーション（除去）研究から、輝度信号に加えて、より高次の色や特徴に基づく運動の手がかりも重要であり、局所的な手がかりを統合して錯視と整合する運動解釈を形成するには、再帰的な注意が不可欠であることが示唆される。
これらの結果は、現在の運動推定システムと人間の視覚的運動処理との間にギャップがあることを示し、人間により整合的なコンピュータビジョン・モデルの設計指針を導くものとなる。