基盤モデルのアラインメントによる生成的イベント事前学習(Generative Event Pretraining)
arXiv cs.CV / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ラベル付きイベントデータが限られており、さらにセンサ特性が難しい状況でもイベントベースのビジュアル基盤モデルを学習するための2段階手法GEP(Generative Event Pretraining)を提案する。
- GEPはまず、凍結した画像の基盤モデルに対して、結合された回帰・コントラスト目的関数によりイベントエンコーダを整合させ、イベント表現を画像のセマンティクスに根付かせる。
- 次に、混合されたイベント-画像系列に対して自己回帰的にトランスフォーマーのバックボーンを事前学習し、イベント固有の時間ダイナミクスを学習する。
- 実験により、GEPは物体認識、セグメンテーション、深度推定などの下流タスクにおいて、従来のイベント事前学習アプローチよりも優れた性能を示し、ドメイン間の汎化も改善されることが確認された。
