要旨: 人の活動に関するプライバシーを保護した意味理解は屋内センシングにおいて重要ですが、既存のWi-Fi CSIベースのシステムは主に姿勢推定や事前に定義されたアクション分類に焦点を当てており、きめ細かな言語生成には十分に取り組まれていません。CSIから自然言語による記述への写像は、無線信号と語彙・言語の間に存在する意味ギャップや、「左/右」の手足の混同といった方向に敏感な曖昧さのために依然として困難です。私たちは、Wi-Fi CSIから直接アクションキャプションを生成するための3段階フレームワークであるWiFi2Capを提案します。視覚と言語の教師は、同期された動画テキストのペアから転移可能な教師信号を学習し、CSIの学生は教師の視覚空間およびテキスト埋め込みへ整合します。方向に敏感なキャプション生成を改善するために、クロスモーダル整合の際に鏡映された動作や左右の曖昧さを低減するMirror-Consistency Loss(鏡整合損失)を導入します。その後、プレフィックスチューニングされた言語モデルが、CSI埋め込みからアクション記述を生成します。また、Wi-Fi信号から意味的なキャプションを生成するための、同期済みのCSI-RGB-文ベンチマークであるWiFi2Cap Datasetも導入します。実験結果は、WiFi2CapがBLEU-4、METEOR、ROUGE-L、CIDEr、SPICEの各指標において一貫してベースライン手法を上回り、プライバシーに配慮した有効な意味センシングが実現できることを示しています。
WiFi2Cap:Wi-Fi CSIから手先レベルのセマンティックアラインメントに基づくセマンティック行動キャプション生成
arXiv cs.CV / 2026/3/25
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- WiFi2Capは、ワイヤレス信号と自然言語の間に存在するセマンティックギャップに対処しつつ、Wi-Fi CSIから直接きめ細かな行動キャプションを生成する3段階のフレームワークです。