エンコーダ不要の人間の動作理解:構造化されたモーション記述によるアプローチ
arXiv cs.CV / 2026/4/24
📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research
要点
- 本論文は、関節位置の時系列データを、関節角度・身体部位の動き・全体の軌道といった要素に分解した構造化自然言語の記述へ変換するルールベース手法「Structured Motion Description(SMD)」を提案しています。
- 動作をテキストとして表すことで、学習済みのモーションエンコーダやクロスモーダルなアライメント部品を用意せずに、LLMが事前学習で得た身体部位・空間方向・運動意味論をそのまま動作推論に活用できるようにします。
- モーション質問応答ではBABEL-QAで66.7%、HuMMan-QAで90.1%、モーションキャプションではHumanML3DでR@1=0.584・CIDEr=53.16を達成し、従来手法を上回る新たな最先端性能を報告しています。
- 同一のテキスト入力を流用でき、異なるLLM間でも軽量なLoRA適応だけで済むため移植性が高く、6系統のモデルファミリーから8つのLLMで検証されています。
- テキスト化された表現は人が読めるため解釈可能で、モーション記述に対する注意(アテンション)分析も行えるとしています。コード/データおよび事前学習済みLoRAアダプタも公開されています。




