MoCHA: 動作-テキスト検索のための復元的キャプション教師あり学習
arXiv cs.CV / 2026/3/26
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- テキスト-動作検索の手法は、各キャプションを1つの決定的な正例として扱いがちだが、同一の動作に対するキャプションは、動作から復元可能な意味と、3D関節のみからは推定できない注釈者固有または文脈依存のスタイルの両方の影響により変動する。
- 本論文では、MoCHAというキャプションの正規化(canonicalization)フレームワークを提案し、符号化前に各キャプションを「動作から復元可能な内容」に射影することで、同一動作内の埋め込み分散を低減する。これにより、より緊密な正例クラスターが得られ、埋め込みの分離も向上する。
- MoCHAは、任意の検索アーキテクチャと互換性のある前処理ステップとして提示されており、2つの実装がある。LLMベースの正規化器(GPT-5.2)と、推論時にLLMを用いないための蒸留したFlanT5バリアントである。
- MotionPatchesで提案され、HumanML3DおよびKIT-MLで評価した結果、MoCHAは新たなSOTAを報告している。LLMバリアントではHumanML3DでT2M R@1が+3.1pp、KIT-MLで+10.3ppを達成し、またLLMフリーのT5バリアントでも大きな改善が得られている。
- 正規化により、同一動作内のテキスト埋め込み分散が11〜19%低減され、データセット間の転移も大幅に改善するとされている。特に大きな双方向の改善(H→KおよびK→H)が報告されている。