SASI:サブアクションのセマンティクスを活用した、ヒューマン・ロボット・インタラクションにおける頑健な早期行動認識

arXiv cs.RO / 2026/5/1

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文は、ヒューマン・ロボット・インタラクションにおいて、不完全な観測からできるだけ早く人の行動を認識し、ロボットの迅速で先回りしたフィードバックを可能にすることを目的としています。
  • 行動は意味のある小さな単位に分解できるため、サブアクションのセマンティクスを活用することで、全体の行動だけを扱う従来手法よりも階層的で豊かな手がかりを得られると述べています。
  • 著者らは、サブアクションの意味情報をクロスモーダル融合で統合し、グラフ畳み込みネットワークを組み合わせるSASIという枠組みを提案しています。
  • SASIはリアルタイム動作(29 Hz)を達成し、フレーム単位の注釈を持つ骨格ベースのデータセットBABELで認識精度が向上したと報告されています。
  • さらに部分的な行動系列の理解でも高い性能を示し、先回りしてシームレスに行動を認識するHRIに適していることが示唆されています。

要旨: 人間の行動を理解することは、人間ロボット相互作用における行動解析を発展させるうえで重要である。特に、素早く先回りしたフィードバックを必要とする課題では、ロボットは不完全な観測からできるだけ早く人間の行動を認識しなければならない。
\textit{サブアクション}は、人間の行動が本質的に構造化されており意味のあるより小さな単位へ分解できるため、それに必要な意味的および階層的手がかりを提供する。 しかし従来のアプローチは主に全体的な行動に焦点を当てることが多く、サブアクションに埋め込まれた豊かな意味構造を見落としがちであり、そのため初期認識には適していない。
このギャップを埋めるために、我々はSASI(Sub-Action Semantics Integrated cross-modal fusion:サブアクション意味統合クロスモーダル融合)という新しい枠組みを提案する。これは、既存のグラフ畳み込みネットワークを統合して、時空間特徴とサブアクションの意味論を融合するものである。SASIは、従来型の骨格ベースのグラフ畳み込みネットワークを用いたセグメンテーションモデルを活用し、きめ細かなサブアクション意味と、全体的な空間文脈の両方を捉える。さらにリアルタイムで29 Hz動作する。フレームレベルの注釈を持つ骨格ベースのデータセットであるBABELでの実験により、提案手法は従来手法よりも認識精度を向上させることが示されており、サブアクションのセグメンテーション品質が向上すれば追加の改善が期待できる。特にSASIは、部分的な行動系列の理解においても優れた性能を達成しており、先回りしたシームレスな人間ロボット相互作用(HRI)に不可欠な「早期認識」としての能力を明らかにする。コードは https://anonymous.4open.science/r/SASI で公開されている。