身体化AIデータセットにおける言語多様性の限定性

arXiv cs.RO / 2026/4/29

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、Vision-Language-Action（VLA）モデルが命令言語に強く依存する一方で、一般的に使われる訓練・評価データセットの言語的特性が十分に文書化されていないことを指摘しています。
論文では、語彙の多様性、重複・重なり、意味的類似度、統語的複雑さなどの観点から命令言語を測定し、複数の代表的なVLAコーパスを体系的に監査します。
その結果、多くのデータセットが反復的でテンプレートのような命令に依存し、構造的な変化が限られているため、命令形式の分布が狭いことが示されます。
著者らは本研究を、現在のVLAデータに含まれる「言語シグナル」を記述する資料として位置づけ、より良い報告、原則に基づくデータセット選定、言語カバレッジを広げるための選別・拡張戦略の設計を支援することを意図しています。

Abstract: 言語はVision-Language-Action（VLA）モデルにおいて重要な役割を果たしますが、これらのシステムを訓練および評価するために使用されるデータセットの言語的特性は、十分に文書化されていません。本研究では、広く用いられているいくつかのVLAコーパスに対して体系的なデータセット監査を行い、これらのデータセットが実際にどのような種類の指示（instruction）を含んでいるのか、またどれほどの言語的多様性を提供しているのかを特徴づけることを目的とします。私たちは、語彙的多様性、重複や重なり、意味的類似性、統語的複雑性といった相補的な次元に沿って指示言語を定量化します。分析の結果、多くのデータセットが、構造のばらつきが限られた、高度に反復的でテンプレートのようなコマンドに依存しており、その結果として指示形式の分布が狭くなっていることが分かりました。私たちはこれらの知見を、現在のVLAの訓練および評価データに含まれる「言語シグナル」の記述的なドキュメンテーションとして位置づけます。これは、より詳細なデータセット報告を支援し、より原理的なデータセット選択を促し、さらに言語のカバレッジを広げるための、対象を絞ったキュレーションまたは拡張（augmentation）戦略につなげることを意図しています。

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

日経XTECH

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ

日経XTECH

AIエージェントを使ってチームの「生きたナレッジベース」を維持する方法

Dev.to

ik_llama.cpp が Qwen3.5 MTP をサポート開始

Reddit r/LocalLLaMA

OpenAIのモデル、Codex、Managed AgentsがAWSに登場

Dev.to

身体化AIデータセットにおける言語多様性の限定性

要点

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ

AIエージェントを使ってチームの「生きたナレッジベース」を維持する方法

ik_llama.cpp が Qwen3.5 MTP をサポート開始

OpenAIのモデル、Codex、Managed AgentsがAWSに登場

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ 部品種削減にも注力

富岳NEXT「世界一狙わず」 理研・富士通・NVIDIA、AI時代の使われる計算機へ

AIエージェントを使ってチームの「生きたナレッジベース」を維持する方法

ik_llama.cpp が Qwen3.5 MTP をサポート開始

OpenAIのモデル、Codex、Managed AgentsがAWSに登場

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ