気が散った運転者の行動を時系列で局所化するための2段階トランスフォーマーフレームワーク

arXiv cs.CV / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、車内カメラ映像ストリームから危険な注意散漫（ディストラクト）運転者行動を検出するための、2段階のトランスフォーマーに基づく時系列アクション局所化フレームワークを提案する。対象は、検問所やフリートの安全システムなど、周期的な点検が行われる設定である。
これは、VideoMAEに基づく特徴抽出の後に、AMA（Augmented Self-Mask Attention）検出器を用いる。さらに、多尺度の時系列特徴の捉えを改善するためにSPPF（Spatial Pyramid Pooling-Fast）モジュールを組み込む。
実験結果では、明確な精度–効率のトレードオフが示される。ViT-GiantはTop-1のテスト精度88.09%を達成し、一方で軽量なViTベースの派生モデルは82.55%に到達するが、微調整に必要な計算コストは大幅に低い。
局所化タスクにおいては、SPPFを追加することで構成の全体にわたり性能が向上する。ViT-Giant + SPPFモデルはmAP 92.67%を達成し、軽量なViT構成でも良好な結果を維持する。
これらの結果は、配備時の制約に応じてモデル容量を調整できることを示唆しており、推論／計算コストを制御しながらより安全な運転者モニタリングを実現できる。

日経XTECH

日経XTECH

日経XTECH

Dev.to

Dev.to