双方向クロスモーダル・プロンプティングによるイベントフレーム非対称ステレオ

arXiv cs.CV / 2026/4/17

📰 ニュースModels & Research

共有:

要点

従来のフレーム型カメラは高速な動きで時間分解能の限界やモーションブラーにより性能が落ちやすい一方、イベントカメラは高ダイナミックレンジを保ちつつそうした制約を受けにくい。
本論文は、イベントデータとフレームデータの「モダリティギャップ」をより適切に埋めるための、双方向クロスモーダル・プロンプティング手法 Bi-CMPStereo を提案する。
各モダリティをイベント空間とフレーム空間の両方へ投影し、共有するカノニカル空間上で整合した表現を学習することで、モダリティ固有の手がかりを保持することを狙う。
実験では、精度と汎化の両面で最先端手法よりも大きく優れていることが報告されている。
イベントフレーム非対称ステレオにより、両センシングの相補的な強みを活かした信頼性の高い3D知覚を目指す研究である。

Abstract

従来のフレームベースのカメラは豊かな状況文脈情報を捉えられますが、動的シーンでは時間分解能が限られており、モーションブラーが発生しやすいという問題があります。イベントカメラは、これらの制約を受けずに高いダイナミックレンジを持つ別の視覚表現を提供します。2つのモダリティの補完的な特性により、イベントフレーム非対称ステレオは、急速な動きや困難な照明条件下でも信頼性の高い3D知覚を実現するうえで有望です。しかし、モダリティ間のギャップはしばしば、クロスモーダルなステレオ対応付けに不可欠な領域固有の手がかりを周縁化してしまいます。本論文では、Bi-CMPStereoという新しい双方向クロスモーダル・プロンプティングの枠組みを提案し、頑健なマッチングのために両ドメインから意味的および構造的特徴を十分に活用します。提案手法は、ターゲットとなる正準空間内で微細に整合したステレオ表現を学習し、さらに各モダリティをイベントドメインとフレームドメインの両方へ射影することで補完的な表現を統合します。大規模な実験の結果、提案手法は精度と汎化性能の両面で最先端手法を大幅に上回ることが示されました。