ST-BiBench: MLLMによる両手身体化タスクにおけるマルチストリーム・マルチモーダル協調のベンチマーク

arXiv cs.RO / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • ST-BiBenchは、MLLMが両手の同時(マルチストリーム)協調を要する身体化タスクで「時空間的なマルチモーダル連携」を評価するための包括的なベンチマーク枠組みです。
  • 高レベルのクロスモーダル推論をみる「Strategic Coordination Planning」に加え、語義的に整合する計画が空間的な視覚入力と噛み合わない問題(proximity paradox)に対処するための「Foundational Spatial Grounding」を導入しています。
  • さらに「Fine-Grained Action Control」では、16次元の連続制御アクションを複雑なマルチモーダル情報から直接合成できるかを検証し、戦略と物理実行のギャップを定量化します。
  • 30+の最先端MLLMを評価した結果、「coordination paradox」(論理的戦略に強い一方で、知覚と論理の断絶やマルチストリーム干渉が頻発する)が広く観測されたと報告しています。
  • 本ベンチマークは、マルチストリームのマルチモーダル融合やクロスモーダル整合で生じるボトルネックを特定するための評価基盤として位置づけられています。

Abstract

マルチモーダル大規模言語モデル(MLLMs)は、身体性のあるAIの領域を大きく前進させてきましたが、同期した両手(バイマニュアル)協調へ移行するには、多ストリームのマルチモーダル統合に関する手強い課題が伴います。私たちは、時空間のマルチモーダル協調を評価するための包括的な多層フレームワークであるST-BiBenchを提案します。私たちのアプローチは、複数の行動ストリームおよび知覚ストリームにまたがる、高レベルのクロスモーダル推論を評価する「戦略的協調計画(Strategic Coordination Planning)」を中心に据えています。「接近パラドックス」—意味的に首尾一貫した計画が、空間的に根ざした視覚入力と整合しない—を調べるために、作業空間の認識と腕の選択ロジックを検証する「基盤的な空間グラウンディング(Foundational Spatial Grounding)」を組み込みます。さらに、「きめ細かな行動制御(Fine-Grained Action Control)」によってモデルの最前線を探り、MLLMsが複雑なマルチモーダルメタデータから高次元の連続行動モダリティ(16次元)を直接合成できるかどうかを検証します。30以上の最先端MLLMを評価することで、私たちは「協調パラドックス」が持続的かつ広範に存在することを明らかにします。すなわち、高レベルの戦略的推論と、きめ細かな物理的実行との間には大きなギャップがあるのです。結果は、最前線のMLLMが論理駆動の戦略では優れる一方で、マルチモーダル融合の際に、知覚とロジックの断絶や多ストリーム干渉にしばしば悩まされることを示しています。ST-BiBenchは、複雑な身体性タスクにおける多ストリームのマルチモーダル融合とクロスモーダル整合に関する重要なボトルネックを特定するためのプラットフォームを提供します。

ST-BiBench: MLLMによる両手身体化タスクにおけるマルチストリーム・マルチモーダル協調のベンチマーク | AI Navigate