MoCHA: 動作-テキスト検索のための復元的キャプション教師あり学習

arXiv cs.CV / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • テキスト-動作検索の手法は、各キャプションを1つの決定的な正例として扱いがちだが、同一の動作に対するキャプションは、動作から復元可能な意味と、3D関節のみからは推定できない注釈者固有または文脈依存のスタイルの両方の影響により変動する。
  • 本論文では、MoCHAというキャプションの正規化(canonicalization)フレームワークを提案し、符号化前に各キャプションを「動作から復元可能な内容」に射影することで、同一動作内の埋め込み分散を低減する。これにより、より緊密な正例クラスターが得られ、埋め込みの分離も向上する。
  • MoCHAは、任意の検索アーキテクチャと互換性のある前処理ステップとして提示されており、2つの実装がある。LLMベースの正規化器(GPT-5.2)と、推論時にLLMを用いないための蒸留したFlanT5バリアントである。
  • MotionPatchesで提案され、HumanML3DおよびKIT-MLで評価した結果、MoCHAは新たなSOTAを報告している。LLMバリアントではHumanML3DでT2M R@1が+3.1pp、KIT-MLで+10.3ppを達成し、またLLMフリーのT5バリアントでも大きな改善が得られている。
  • 正規化により、同一動作内のテキスト埋め込み分散が11〜19%低減され、データセット間の転移も大幅に改善するとされている。特に大きな双方向の改善(H→KおよびK→H)が報告されている。

Abstract

テキスト・モーション検索システムは、コントラスト学習の目的関数を通じて、モーションとキャプションのペアから共有埋め込み空間を学習します。しかし、各キャプションは決定論的なラベルではなく、有効な記述の分布からのサンプルです。同じモーションに対して異なるアノテータが異なるテキストを生成し、モーションから回復可能な意味(行為の種類、身体部位、方向性)と、アノテータ固有のスタイル、ならびに3D関節座標だけからは確定できない推定された文脈が混在します。標準的なコントラスト学習では、各キャプションを唯一の正例ターゲットとして扱うため、この分布的な構造が見落とされ、モーション内の埋め込み分散が誘発されてアラインメントが弱まります。私たちはMoCHA(Motion-recoverable content cAnoniCalization framework)を提案します。これは、符号化の前に各キャプションをモーションから回復可能な内容へ射影することで、この分散を低減し、より密な正例クラスターと、より分離された埋め込みを生成するテキスト正準化(canonicalization)フレームワークです。正準化は一般的な原理です。決定論的なルールベースの手法でも、クロスデータセット転移は改善されますが、学習された正準化器は大幅に大きな効果をもたらします。私たちは学習済みの2つのバリアントを提示します。1つはLLMベースのアプローチ(GPT-5.2)、もう1つは推論時にLLMを不要とする蒸留済みFlanT5モデルです。MoCHAは、任意の検索アーキテクチャと互換な前処理ステップとして動作します。MoPa(MotionPatches)に適用したところ、HumanML3D(H)およびKIT-ML(K)の両方で新たな最先端を達成しました。LLMバリアントはHでT2M R@1が13.9%(+3.1pp)、Kで24.3%(+10.3pp)を達成し、LLMなしのT5バリアントは+2.5ppおよび+8.1ppの向上を達成しました。正準化はモーション内のテキスト埋め込み分散を11〜19%低減し、クロスデータセット転移を大幅に改善します。HからKへの改善は94%、KからHへの改善は52%であり、言語空間を標準化することで、より転移可能なモーション—言語表現が得られることを示しています。