言語情報を用いた事前学習による転移可能なセンサーモデルの学習

arXiv cs.AI / 2026/3/13

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 多様なセンサ設置と入力構成に一般化する、言語整合性を持つセンサ表現を学習するためのフレームワーク「SLIP」を紹介する。
  • 識別的理解と生成的推論の双方を可能にする、センサ条件付きキャプショニングと対比的整列を組み合わせる。
  • 事前学習済みデコーダー専用言語モデルをクロスアテンションで再利用し、柔軟なパッチ埋め込み器を導入することで、再訓練なしに異なる時間解像度と可変長入力を推論時に扱えるようにする。
  • 11データセットにおけるゼロショット転送、センサキャプショニング、センサベースの質問応答で優れた性能を示し、平均77.14%のリニアプロービング精度、5.93%の相対的改善、64.83%のQA精度を達成する。
  • 本プロジェクトはオープンソースであり、固定されたセンサ構成に依存する従来手法の限界に対処する。
要旨: 現代のセンシングシステムは、ラベルなしの多変量時系列データを大量に生成します。このラベルなしデータの豊富さは自己教師付き学習(SSL)を、転移可能な表現を学ぶ自然なアプローチとします。しかし、ほとんどの既存手法は再構成や予測目的に最適化されており、下流の分類・推論タスクに必要な意味的構造を捉えきれないことが多いです。最近のセンサ-言語整合手法はキャプショニングとゼロショット転送を通じて意味的一般化を改善しますが、固定されたセンサ構成(定義済みのチャネルセット、信号長、時間解像度など)に限定され、ドメイン横断的な適用性を妨げます。これらのギャップに対処するため、我々は \textbf{SLIP} (\textbf{S}ensor \textbf{L}anguage-\textbf{I}nformed \textbf{P}retraining) を導入します。これは、多様なセンサ設定に一般化する言語整列表現を学ぶオープンソースのフレームワークです。SLIPは、対比的整列とセンサ条件付きキャプショニングを統合し、識別的理解と生成的推論の両方を促進します。予め学習済みデコーダ専用言語モデルをクロスアテンションを介して再利用し、洗練された柔軟なパッチ埋め込み器を導入することで、追加の再訓練なしに推論時に異なる時間解像度と可変長入力をサポートします。11データセットを横断して、SLIPはゼロショット転送、信号キャプショニング、質問応答において優れた性能を示します。平均77.14%のリニアプロービング精度、強力なベースラインに対する相対改善5.93%、およびセンサベースの質問応答で64.83%の精度に到達します。