MiniVLA-Nav v1：言語条件付きロボットナビゲーションのためのマルチシーン・シミュレーションデータセット

arXiv cs.RO / 2026/5/4

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

MiniVLA-Nav v1は、言語条件付きロボットナビゲーションのための新しいシミュレーションデータセットであり、Language-Conditioned Object Approach（LCOA）に基づいています。
NVIDIA Nova Carterの差動駆動ロボットが、自然言語の指示により指定された対象物へ到達して停止することを求められ、Isaac Simの4つのフォトリアル環境（Office、Hospital、Full Warehouse、Multiple Shelves）で構成されています。
全1,174エピソードには、同期された640x640のRGB画像、メートル単位の計測深度マップ（float32）、インスタンスセグメンテーションマスクに加え、連続値の（v, omega）およびトークン化された専門家アクションラベルが60Hzで記録されたデータが含まれます。
関連する軌跡の多様性は、スポーン距離を3つの階層（near/mid/far）で設計し、さらに複数の対象カテゴリ、学習用テンプレート、パラフレーズによるOODテンプレート、そして5つの評価分割で堅牢性と外挿性能を検証します。
MiniVLA-Nav v1は、研究者や開発者がナビゲーション方策を学習・ベンチマークできるように、Hugging Faceで公開されています。

Dev.to

Dev.to

Dev.to

Reddit r/LocalLLaMA

Dev.to