AI Navigate

協調的時系列特徴生成を用いた批評家なし強化学習によるクロスユーザーセンサーベースの活動認識

arXiv cs.LG / 2026/3/18

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文はウェアラブルセンサーを用いた人間の活動認識におけるユーザー間の変動性に取り組み、Transformerベースの自己回帰ジェネレータを用いる協調的時系列特徴生成フレームワーク(CTFG)を提案する。
  • 同じ入力からサンプリングされた代替案と比較して各生成特徴列を評価する、クリティックなしのGroup-Relative Policy Optimization(グループ相対方策最適化)アルゴリズムを導入し、クリティックベースの価値推定を回避する。
  • クラス識別性、ユーザー間の不変性、および時間的忠実性から構成される三目的報酬が、特徴空間を識別的で、ユーザーに依存しない、時間的に忠実なものへと導く。
  • DSADSおよびPAMAP2のベンチマークにおいて、本手法はクロスユーザー精度で最先端(88.53%、75.22%)を達成し、学習分散を低減し、収束を加速し、異なるアクション空間の次元性にも一般化する。

要旨: ウェアラブル慣性センサを用いた人間の活動認識は、ヘルスケアモニタリング、フィットネス分析、文脈認識コンピューティングの基盤であるが、異質な生理的特徴、運動習慣、センサ配置に起因するユーザー間の変動性によってその適用が妨げられている。既存のドメイン一般化アプローチは、センサストリームの時間的依存を無視するか、現実的でないターゲットドメイン注釈に依存している。我々は異なるパラダイムを提案する。一般化可能な特徴抽出を、強化学習によって支配される協調的逐次生成プロセスとしてモデル化する。我々のフレームワーク、CTFG(Collaborative Temporal Feature Generation)は、Transformerベースの自己回帰ジェネレータを用い、前の文脈とエンコードされたセンサ入力に条件づけて特徴トークン列を順次構築する。ジェネレータは、同じ入力からサンプリングされた代替案と比較して各生成系列を評価する、批評家を使わないアルゴリズムであるGroup-Relative Policy Optimizationを用いて最適化される。価値推定を学習する代わりに、グループ内正規化を介して利点を導出するこの設計は、批評家ベースの手法に内在する分布依存のバイアスを排除し、異質なユーザー分布全体で安定した自己校正的最適化信号を提供する。クラス識別、クロスユーザー不変性、時系列忠実度の三目的報酬は、特徴空間を共同で形成し、活動を分離し、ユーザー分布を整列させ、微細な時系列内容を保持する。DSADSおよびPAMAP2ベンチマークでの評価は、最先端のクロスユーザー精度(88.53%および75.22%)、タスク間訓練分散の大幅な低減、収束の加速、そして異なるアクション空間次元性の下での堅牢な一般化を示している。)