PFM-VEPAR: RGBイベントカメラを用いた歩行者属性認識のための基盤モデルへのプロンプト適用

arXiv cs.AI / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • ソースコードがGitHubで公開されることを発表し、再現性とさらなる研究を促進する一方で、提案手法が計算量の多い二ストリーム融合法より優れている点を強調します。

要旨: イベントベースの歩行者属性認識(PAR)は、運動手がかりを活用して低照度およびモーションブラーの状況下でRGBカメラを強化し、年齢や感情といった属性をより正確に推定できるようにします。
しかし、既存の二ストリーム多モーダル融合手法は大幅な計算オーバーヘッドを招き、文脈サンプルから得られる貴重な指針を十分に活かしていません。
これらの制限に対処するため、本論文ではイベント・プロンプターを提案します。計算コストの高い補助バックボーンを廃止し、このモジュールはイベントデータに対して極めて軽量で効率的な離散コサイン変換(DCT)および離散コサイン逆変換(IDCT)を直接適用します。
この設計は周波数領域のイベント特徴を最小限の計算コストで抽出し、RGBブランチを効果的に補強します。
さらに、豊富な事前知識を提供するよう設計された外部メモリバンクと現代的なホップフィールドネットワークを組み合わせることで、連想記憶を強化した表現学習を可能にします。
この機構は、異なるサンプル間のグローバルな関係知識を効果的に掘り起こし、活用します。
最後に、クロスアテンション機構がRGBとイベントモダリティを融合し、属性予測のためのフィードフォワードネットワークが適用されます。
複数のベンチマークデータセットでの広範な実験により、提案されたRGB-Event PARフレームワークの有効性が完全に検証されました。
本論文のソースコードは https://github.com/Event-AHU/OpenPAR に公開される予定です。