MSGL-Transformer: げっ歯類の社会的行動認識のためのマルチスケール・グローバル-ローカル・トランスフォーマ

arXiv cs.CV / 2026/4/10

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、ポーズベースの時系列からげっ歯類の社会的行動を認識するための、軽量なマルチスケール・グローバル-ローカル・トランスフォーマ MSGL-Transformer を提案し、人手による採点への依存を減らすことを目的とする。
  • 短期・中期・グローバルな時間範囲をカバーする並列の注意(attention)ブランチに加えて、注意を行う前に行動に関連する時間埋め込みを強調する Behavior-Aware Modulation(BAM)ブロックを用いる。
  • RatSI と CalMS21 での実験により高い性能が示され、RatSI では平均精度/ F1=0.745、CalMS21 では精度/ F1=0.8745 に到達する(それぞれ 75.4% および 87.1%)。
  • 結果から、MSGL-Transformer は複数のベースライン(例:TCN、LSTM 系、および複数のポーズ/行動認識アーキテクチャ)を上回り、入力次元とクラス数を調整するだけでデータセット間の転移が可能であることが示唆される。

概要: 齧歯類の行動の認識は、神経および行動メカニズムを理解するうえで重要である。従来の手作業による採点は時間がかかり、人為的な誤りが起こりやすい。そこで本研究では、姿勢ベースの時系列から齧歯類の社会的行動を認識するためのマルチスケール・グローバル・ローカル・トランスフォーマ(MSGL-Transformer)を提案する。本モデルは、異なる時間スケールにわたる運動ダイナミクスを捉えるためのマルチスケール注意機構を備えた軽量なトランスフォーマエンコーダを用いる。さらに、短距離・中距離・グローバルの注意を並列に扱う複数のブランチを統合することで、複数の時間スケールにおける行動ダイナミクスを明示的に捉える構成とする。また、SE-Networksに着想を得た行動に配慮したモジュレーション(Behavior-Aware Modulation: BAM)ブロックを導入し、注意の前に行動に関連する特徴を強調するために時系列埋め込みを変調する。2つのデータセットで評価を行う:RatSI(5つの行動クラス、12D姿勢入力)およびCalMS21(4つの行動クラス、28D姿勢入力)。RatSIでは、MSGL-Transformerは9つの交差検証スプリットにわたり平均精度75.4%およびF1スコア0.745を達成し、TCN、LSTM、Bi-LSTMを上回る。CalMS21では、87.1%の精度およびF1スコア0.8745を達成し、HSTWFormerに対する+10.7%の改善となり、ST-GCN、MS-G3D、CTR-GCN、STGATを上回る。入力次元とクラス数のみを調整することで、同一のアーキテクチャが両データセットにわたって汎化できる。