LLMベースのモーショントラジェクトリ生成と検証のための自己整合性

arXiv cs.CV / 2026/4/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

提案アルゴリズムは、候補となる変換グループ間の階層的関係を用いることで、適切な形状ファミリを自動的に復元し、生成精度を4〜6%向上させる。

概要: 自己整合性（self-consistency）は、軽量で教師なしの手法により、自然言語推論タスクにおけるLLMの性能を向上させるために有効であることが示されてきました。本研究では、この自己整合性を視覚領域に適応する方法を検討します。具体的には、LLMが生成したモーショングラフィックスの軌跡の生成と検証を扱います。プロンプト（例：「円をらせん状の経路で動かして」）が与えられたとき、まずLLMから多様なモーション軌跡をサンプリングし、その後クラスタリングにより整合的な軌跡のグループを特定します。主要な洞察は、プロンプトに関連付けられる形状のファミリを、プロトタイプとなる軌跡と、それに対する幾何学的変換のグループ（例：剛体、相似、アフィン）としてモデル化することです。すると、変換グループによって許容されるワープのもとで、一方の軌跡を他方へ変換できる場合、2つの軌跡は整合的であるとみなせます。本研究では、候補となる変換グループの集合における階層的な関係を用いることで、形状ファミリを自動的に復元するアルゴリズムを提案します。この手法により、LLMベースの軌跡生成の精度が4〜6%向上します。さらに、この手法を検証にも拡張し、VLMのベースラインに対して11%の精度向上（precision gains）を観測します。コードとデータセットは https://majiaju.io/trajectory-self-consistency で公開しています。