オープンワールド環境におけるVLA（実際のところ）の仕組み

arXiv cs.RO / 2026/4/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、オープンワールドの長期タスクで用いられる視覚言語行動（VLA）モデルのベンチマーク評価が、最終状態のみに基づくことが多いため、運用上の安全性を十分に反映しておらず、報告性能を過大に見せ得ると主張している。
BEHAVIOR1K（B1K）チャレンジで最先端のVLAモデルを分析し、再現性と性能の一貫性による頑健性に加えて、安全に関わる側面、タスクへの認識、タスク不完了に至る主要因を評価している。
安全性違反を捉えることを目的とした、より複雑でインタラクティブな状況における真の性能を測定するための評価プロトコルを提案している。
最後に、既存VLAの限界を論じ、実世界展開に向けた信頼性を高めるための今後の研究の方向性を示している。

Dev.to

Dev.to

Dev.to

Dev.to

Reddit r/LocalLLaMA