REALM：RGBとイベント整合の潜在マニフォールドによるクロスモーダル知覚

arXiv cs.AI / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

REALMは、イベントカメラの表現をRGB基盤モデルの事前学習済み潜在空間へ投影することで、モダリティ間の汎化性能を高めるクロスモーダル学習フレームワークです。
タスク固有の学習ではなく低ランク適応（LoRA）を用いて、RGBとイベントストリームのギャップを埋めつつ、凍結したRGBバックボーンの幾何学的・意味論的な事前知識を活用します。
本手法はイベントをViTベースの基盤潜在空間へマッピングし、転用可能な線形ヘッドを使って深度推定や意味セグメンテーションといった下流タスクを実行できる設計です。
最も重要なのは、MASt3Rのような画像で学習した複雑なデコーダを生のイベントデータに直接ゼロショット適用できる点です。
幅広いベースラインでの特徴マッチングにおいて、専用のイベント処理アーキテクチャよりも優れた性能（SOTA）を報告しており、コードとモデルは採択後に公開予定です。

要旨: イベントカメラは、標準的なフレームベースのセンサーに比べて、高い時間分解能、低遅延、極端な照明条件への頑健性など、いくつかの独自の利点を提供します。しかし、イベント処理のための既存の学習ベース手法は、一般に狭い、タスク固有のサイロに閉じ込められており、モダリティをまたいで汎化する能力を欠いています。我々はこのギャップを埋めるために、REALM（クロスモーダル・フレームワーク）を提案します。これは、イベント表現をRGB基盤モデルの事前学習済み潜在空間へ投影することで、RGBとEvent Aligned Latent Manifold（イベント整合潜在マニフォールド）を学習します。タスク固有の学習の代わりに、低ランク適応（LoRA）を用いてモダリティギャップを橋渡しし、非同期なイベントストリームに対して、凍結したRGBバックボーンの幾何学的・意味論的な事前知識を効果的に解放します。我々は、REALMがViTベースの基盤潜在空間へイベントを適切に写像できることを示します。本手法により、RGB教師で学習した線形ヘッドを単に転送するだけで、深度推定や意味セグメンテーションといった下流タスクを実行できます。最も重要なのは、MASt3Rのような複雑で凍結された画像学習済みデコーダを、生のイベントデータに対して直接、ゼロショットで適用できる点です。我々は、ワイドベースラインの特徴対応（feature matching）において最先端の性能を達成し、専用のアーキテクチャを大幅に上回ることを示します。コードとモデルは採択後に提供されます。