SOMA:インコンテキスト適応による視覚言語行動モデルの頑健性を実現する、記憶増強型・戦略的オーケストレーション・システム
arXiv cs.RO / 2026/3/26
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、パラメータの微調整なしで、知覚ノイズおよび分布外(OOD)環境に対するVision-Language-Action(VLA)モデルの頑健性を向上させることを目的とした、メモリと帰属(attribution)に駆動されたオーケストレーションフレームワーク「SOMA」を提案する。
- SOMAは、Dual-Memory Retrieval-Augmented Generation(RAG)、帰属駆動型LLMオーケストレータ、柔軟なMCPベースの介入メカニズムを組み合わせたオンライン・パイプラインにより、凍結済みのVLAポリシーをアップグレードする。
- オフラインのMemory Consolidation(メモリ統合)モジュールは、実行トレースを信頼できる事前知識(prior)へ蒸留し、長期的な意思決定の一貫性向上を支援する。
- LIBERO-PROおよび新しいLIBERO-SOMAベンチマークで、pi0、pi0.5、SmolVLAを対象に実験を行った結果、平均の絶対成功率向上が56.6%となり、特に長いホライゾンでのタスク連鎖では89.1%の改善が見られた。
- 著者らは、プロジェクトページとオープンソースコードを提供し、再現性の確保と、提案システムに関するさらなる実験を可能にしている。