身体化AIデータセットにおける言語多様性の限定性

arXiv cs.RO / 2026/4/29

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、Vision-Language-Action(VLA)モデルが命令言語に強く依存する一方で、一般的に使われる訓練・評価データセットの言語的特性が十分に文書化されていないことを指摘しています。
  • 論文では、語彙の多様性、重複・重なり、意味的類似度、統語的複雑さなどの観点から命令言語を測定し、複数の代表的なVLAコーパスを体系的に監査します。
  • その結果、多くのデータセットが反復的でテンプレートのような命令に依存し、構造的な変化が限られているため、命令形式の分布が狭いことが示されます。
  • 著者らは本研究を、現在のVLAデータに含まれる「言語シグナル」を記述する資料として位置づけ、より良い報告、原則に基づくデータセット選定、言語カバレッジを広げるための選別・拡張戦略の設計を支援することを意図しています。

Abstract: 言語はVision-Language-Action(VLA)モデルにおいて重要な役割を果たしますが、これらのシステムを訓練および評価するために使用されるデータセットの言語的特性は、十分に文書化されていません。本研究では、広く用いられているいくつかのVLAコーパスに対して体系的なデータセット監査を行い、これらのデータセットが実際にどのような種類の指示(instruction)を含んでいるのか、またどれほどの言語的多様性を提供しているのかを特徴づけることを目的とします。私たちは、語彙的多様性、重複や重なり、意味的類似性、統語的複雑性といった相補的な次元に沿って指示言語を定量化します。分析の結果、多くのデータセットが、構造のばらつきが限られた、高度に反復的でテンプレートのようなコマンドに依存しており、その結果として指示形式の分布が狭くなっていることが分かりました。私たちはこれらの知見を、現在のVLAの訓練および評価データに含まれる「言語シグナル」の記述的なドキュメンテーションとして位置づけます。これは、より詳細なデータセット報告を支援し、より原理的なデータセット選択を促し、さらに言語のカバレッジを広げるための、対象を絞ったキュレーションまたは拡張(augmentation)戦略につなげることを意図しています。