ST-BiBench: Benchmarking Multi-Stream Multimodal Coordination in Bimanual Embodied Tasks for MLLMs

arXiv cs.RO / 4/7/2026

💬 OpinionIdeas & Deep AnalysisModels & Research

Key Points

  • ST-BiBenchは、MLLMが両手の同時(マルチストリーム)協調を要する身体化タスクで「時空間的なマルチモーダル連携」を評価するための包括的なベンチマーク枠組みです。
  • 高レベルのクロスモーダル推論をみる「Strategic Coordination Planning」に加え、語義的に整合する計画が空間的な視覚入力と噛み合わない問題(proximity paradox)に対処するための「Foundational Spatial Grounding」を導入しています。
  • さらに「Fine-Grained Action Control」では、16次元の連続制御アクションを複雑なマルチモーダル情報から直接合成できるかを検証し、戦略と物理実行のギャップを定量化します。
  • 30+の最先端MLLMを評価した結果、「coordination paradox」(論理的戦略に強い一方で、知覚と論理の断絶やマルチストリーム干渉が頻発する)が広く観測されたと報告しています。
  • 本ベンチマークは、マルチストリームのマルチモーダル融合やクロスモーダル整合で生じるボトルネックを特定するための評価基盤として位置づけられています。

Abstract

Multimodal Large Language Models (MLLMs) have significantly advanced the landscape of embodied AI, yet transitioning to synchronized bimanual coordination introduces formidable challenges in multi-stream multimodal integration. We introduce ST-BiBench, a comprehensive multi-tier framework for evaluating spatio-temporal multimodal coordination. Our approach centers on Strategic Coordination Planning, assessing high-level cross-modal reasoning over multiple action and perception streams. To investigate the "proximity paradox"-where semantically coherent plans fail to align with spatially grounded visual inputs-we incorporate Foundational Spatial Grounding to verify workspace awareness and arm-selection logic. Furthermore, we probe model frontiers through Fine-Grained Action Control, investigating whether MLLMs can directly synthesize high-dimensional continuous action modalities (16-Dim) from complex multimodal metadata. Evaluating 30+ state-of-the-art MLLMs, we uncover a persistent and pervasive "coordination paradox"-a significant gap between high-level strategic reasoning and fine-grained physical execution. Results reveal that while frontier MLLMs excel at logic-driven strategy, they frequently suffer from perception-logic disconnection and multi-stream interference during multimodal fusion. ST-BiBench provides a platform for identifying critical bottlenecks in multi-stream multimodal fusion and cross-modal alignment for complex embodied tasks.