ViFiCon：自己教師ありコントラスト学習による視覚とワイヤレスの関連付け（Vision and Wireless Association Via Self-Supervised Contrastive Learning）

arXiv cs.CV / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

ViFiConは、自己教師ありのコントラスト学習により、視覚（RGB-D）とワイヤレス信号（スマートフォンからのWiFi FTM）の間のクロスモーダルな関連付けを学習する手法を提案している。
この方法は、カメラ映像の歩行者深度シーケンスの自然な整合性を活かしつつ、ワイヤレスデータが「スマートフォンに紐づく」というより弱い対応関係を踏まえて、視覚のバウンディングボックスと特定デバイスを対応付ける。
時系列表現は、複数人の深度シーケンスを画像表現として積み重ねて構成し、手作業のクロスモーダル対応ラベルなしで学習するためにシーン全体の同期を前提としたタスクを設計する。
実験では、25フレーム（2.5秒）のスライディングウィンドウで視覚→ワイヤレスの関連付け精度92.63%を達成し、完全教師ありの訓練データを不要にしている。
ワイヤレス側のアノテーションが乏しい現実環境で適用可能であり、IMUデータの送信を避けることでプライバシーと消費電力の負担を減らせると述べている。

日経XTECH

日経XTECH

Dev.to

Dev.to

Dev.to