LaMoGen: LLMガイド付き象徴推論による言語からモーション生成

arXiv cs.CV / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、モーション生成の解釈性と制御性を向上させるため、原子レベルの体の部位動作を離散的なラバン符号とテキストテンプレートに組み合わせて符号化するモーション表現「LabanLite」を導入する。
LabanLiteを基に、大規模言語モデル（LLMs）を用いて象徴推論を行い、モーションシーケンスを構成し、実行可能で言語的に根拠のあるモーションを生成する Text-to-LabanLite-to-Motion フレームワーク「LaMoGen」を提示する。
構造化された説明-動作ペアと3つの指標を備えたラバノテーションに基づくベンチマークを提案し、象徴的・時間的・調和の次元にまたがるテキストとモーションの整合性を評価する。
実験の結果、LaMoGenは解釈性と制御性の新しいベースラインを確立し、提案ベンチマークおよび2つの公開データセットにおいて従来手法を上回ることを示す。
本研究は、言語駆動のモーション合成における象徴推論とエージェントベースの設計の利点を強調する。

要旨: 人間の動作は非常に表現力が高く、言語と自然に整合しますが、結合されたテキスト-モーション埋め込みに過度に依存する従来の手法は、時系列的に正確で詳細なモーションを合成することが難しく、しばしば説明性に欠けます。これらの限界に対処するため、ラバノテーション系を適応・拡張して開発したモーション表現「LabanLite」を導入します。ブラックボックスのテキスト-モーション埋め込みとは異なり、LabanLiteは各原子レベルの体の部位動作（例：左足の一歩）のような動作を、離散的なラバン符号とテキストテンプレートとで組み合わせて符号化します。この抽象化は複雑なモーションを解釈可能な符号列と部位指示に分解し、高レベルの言語と低レベルのモーション軌跡との間に象徴的なリンクを確立します。LabanLiteを基盤として、LaMoGen、すなわち「テキスト→LabanLite→モーション生成」フレームワークを提案します。LaMoGenは大規模言語モデル（LLMs）が象徴推論を通じてモーションシーケンスを構成できるようにします。LLMはモーションパターンを解釈し、それをテキスト記述と関連付け、符号を再結合して実行可能な計画に組み込み、解釈可能で言語的に根拠のあるモーションを生成します。厳密な評価を支援するため、構造化された説明-動作ペアと3つの指標を備えたラバノテーションに基づくベンチマークを導入し、象徴的・時間的・調和の次元にまたがるテキストとモーションの整合性を総合的に評価します。実験は、LaMoGenが解釈性と制御性の新しいベースラインを確立し、我々のベンチマークおよび2つの公開データセットで従来手法を上回ることを示しています。これらの結果は、言語駆動のモーション合成における象徴推論とエージェントベース設計の利点を強調しています。