SOMA:インコンテキスト適応による視覚言語行動モデルの頑健性を実現する、記憶増強型・戦略的オーケストレーション・システム

arXiv cs.RO / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、パラメータの微調整なしで、知覚ノイズおよび分布外(OOD)環境に対するVision-Language-Action(VLA)モデルの頑健性を向上させることを目的とした、メモリと帰属(attribution)に駆動されたオーケストレーションフレームワーク「SOMA」を提案する。
  • SOMAは、Dual-Memory Retrieval-Augmented Generation(RAG)、帰属駆動型LLMオーケストレータ、柔軟なMCPベースの介入メカニズムを組み合わせたオンライン・パイプラインにより、凍結済みのVLAポリシーをアップグレードする。
  • オフラインのMemory Consolidation(メモリ統合)モジュールは、実行トレースを信頼できる事前知識(prior)へ蒸留し、長期的な意思決定の一貫性向上を支援する。
  • LIBERO-PROおよび新しいLIBERO-SOMAベンチマークで、pi0、pi0.5、SmolVLAを対象に実験を行った結果、平均の絶対成功率向上が56.6%となり、特に長いホライゾンでのタスク連鎖では89.1%の改善が見られた。
  • 著者らは、プロジェクトページとオープンソースコードを提供し、再現性の確保と、提案システムに関するさらなる実験を可能にしている。

Abstract

汎用ロボットコントローラとしてのVision-Language-Action(VLA)モデルへの期待はあるものの、アウト・オブ・ディストリビューション(OOD)タスクにおける知覚ノイズや環境変動に対する頑健性は、長期メモリの欠如、因果的な失敗帰属の欠如、動的介入能力の欠如によって本質的に制限されています。これに対処するため、我々はSOMA(Strategic Orchestration and Memory-Augmented System)を提案します。SOMAは、パラメータのファインチューニングなしで凍結したVLAポリシーをアップグレードし、頑健なインコンテキスト適応を可能にします。具体的には、SOMAは、対比的なDual-Memory Retrieval-Augmented Generation(RAG)のオンライン・パイプライン、Attribution-Driven Large-Language-Model(LLM)オーケストレータ、拡張可能なModel Context Protocol(MCP)による介入、そして、実行トレースを信頼できる事前知識へと継続的に蒸留するオフラインのメモリ統合モジュールを通じて動作します。LIBERO-PROおよび我々が提案するLIBERO-SOMAベンチマークにおいて、3つのバックボーンモデル(pi0、pi0.5、SmolVLA)で行った実験評価により、SOMAが平均絶対成功率の向上56.6%を達成することが示されました。これには、長いホライズンのタスク連鎖における絶対的改善89.1%という顕著な向上が含まれます。プロジェクトページとソースコードは以下で利用可能です: https://github.com/LZY-1021/SOMA。