要旨: 汎化は具現化されたAIにおけるコアな課題であり、ロボットは多様な環境に適応しなければならない。OpenVLAは大規模な事前学習を活用することでVision-Language-Actionモデルの最先端(SOTA)を代表しているが、全く新しい環境に遭遇した場合にはゼロショット性能が制限されることがある。本論文は、Bridge Dataset V2の一般的な指示セットを合成することによってOpenVLAの言語的一般化を高める、パラメータ効率の高いファインチューニング戦略を提案します。本論文は、大規模言語モデル(LLM)を活用して、既存の軌道に対して意味的には同等でありながら構造的に多様な命令の豊富なバリエーションを生成します。この実験では、Low-Rank Adaptation(LoRA)を実装して拡張ペア上でOpenVLAをファインチューニングし、複雑な自然言語の意図とロボットの行動との間のギャップを橋渡しできるようにします。結果は、LoRAで強化されたモデルの頑健性を示しており、専門データセットの言語空間を充実させることが、具現化エージェントにとって極めて重要であることを示唆しています。
VLAの言語的一般化の向上: 合成指示拡張によるOpenVLAのファインチューニング
arXiv cs.AI / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Bridge Dataset V2の汎用指示セットを大規模言語モデル(LLM)を用いて合成することで、OpenVLAの言語的一般化を向上させる、パラメータ効率の高いファインチューニング戦略を提案する。
- LoRA(Low-Rank Adaptation)を用いて、拡張された軌跡-コマンドのペアに対するOpenVLAのファインチューニングを行い、自然言語の意図とロボットの動作の橋渡しをより効果的に行う。
- このアプローチは、既存の軌跡に対して意味的には同等だが構造的には異なる多様な指示を生成し、モデルの言語空間を豊かにする。
- 結果は、LoRAを強化したモデルが新規環境でより頑健になることを示しており、身体性を持つエージェントに対する言語空間の拡充の重要性を浮き彫りにしている。
- 本研究は、合成指示の拡張が、最先端の Vision-Language-Action(VLA)モデルにおけるゼロショット一般化のギャップを大幅に緩和する可能性があることを示唆している。

