エンコーダ不要の人間の動作理解：構造化されたモーション記述によるアプローチ

arXiv cs.CV / 2026/4/24

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

本論文は、関節位置の時系列データを、関節角度・身体部位の動き・全体の軌道といった要素に分解した構造化自然言語の記述へ変換するルールベース手法「Structured Motion Description（SMD）」を提案しています。
動作をテキストとして表すことで、学習済みのモーションエンコーダやクロスモーダルなアライメント部品を用意せずに、LLMが事前学習で得た身体部位・空間方向・運動意味論をそのまま動作推論に活用できるようにします。
モーション質問応答ではBABEL-QAで66.7%、HuMMan-QAで90.1%、モーションキャプションではHumanML3DでR@1=0.584・CIDEr=53.16を達成し、従来手法を上回る新たな最先端性能を報告しています。
同一のテキスト入力を流用でき、異なるLLM間でも軽量なLoRA適応だけで済むため移植性が高く、6系統のモデルファミリーから8つのLLMで検証されています。
テキスト化された表現は人が読めるため解釈可能で、モーション記述に対する注意（アテンション）分析も行えるとしています。コード／データおよび事前学習済みLoRAアダプタも公開されています。

Abstract

テキストベースの大規模言語モデル（LLM）の持つ世界知識および推論能力は急速に進歩していますが、運動の理解（動作の質問応答やキャプション生成を含む）に関する現在のアプローチは、これらの能力を十分には活用できていません。既存のLLMベース手法は一般に、モーション特徴をLLMの埋め込み空間へ射影する専用エンコーダを用いて、運動と言語の対応付けを学習しますが、これはクロスモーダルな表現とアラインメントに制約され続けます。関節角や身体部位の運動学が、人間の動きのための正確な記述言語として長らく用いられてきた生体力学的分析に着想を得て、本研究では関節位置の時系列列を関節角、身体部位の動き、および全体軌道の構造化された自然言語記述へ変換する、ルールベースで決定論的な手法である\textbf{Structured Motion Description (SMD)}を提案します。モーションをテキストとして表現することで、SMDは学習されたエンコーダやアラインメントモジュールを不要にしつつ、身体部位、空間方向、運動の意味論に関する事前学習済み知識を、モーション推論へ直接適用できるようにします。我々は、このアプローチが、動作の質問応答（BABEL-QAで66.7\%、HuMMan-QAで90.1\%）およびモーションキャプション（HumanML3DでR@1が0.584、CIDErが53.16）の両方において、従来の最先端結果を上回ることを示します。さらにSMDは実用上の利点も提供します。すなわち、同一のテキスト入力が異なるLLM間で利用でき、軽量なLoRA適応のみで済む（6つのモデルファミリから8つのLLMで検証済み）ほか、人間が読める表現により、モーション記述に対する解釈可能な注意（アテンション）分析が可能になります。コード、データ、および事前学習済みLoRAアダプタは https://yaozhang182.github.io/motion-smd/ で公開されています。