ST-BiBench: Benchmarking Multi-Stream Multimodal Coordination in Bimanual Embodied Tasks for MLLMs
arXiv cs.RO / 4/7/2026
💬 OpinionIdeas & Deep AnalysisModels & Research
Key Points
- ST-BiBenchは、MLLMが両手の同時(マルチストリーム)協調を要する身体化タスクで「時空間的なマルチモーダル連携」を評価するための包括的なベンチマーク枠組みです。
- 高レベルのクロスモーダル推論をみる「Strategic Coordination Planning」に加え、語義的に整合する計画が空間的な視覚入力と噛み合わない問題(proximity paradox)に対処するための「Foundational Spatial Grounding」を導入しています。
- さらに「Fine-Grained Action Control」では、16次元の連続制御アクションを複雑なマルチモーダル情報から直接合成できるかを検証し、戦略と物理実行のギャップを定量化します。
- 30+の最先端MLLMを評価した結果、「coordination paradox」(論理的戦略に強い一方で、知覚と論理の断絶やマルチストリーム干渉が頻発する)が広く観測されたと報告しています。
- 本ベンチマークは、マルチストリームのマルチモーダル融合やクロスモーダル整合で生じるボトルネックを特定するための評価基盤として位置づけられています。
Related Articles

Why Anthropic’s new model has cybersecurity experts rattled
Reddit r/artificial
Does the AI 2027 paper still hold any legitimacy?
Reddit r/artificial

Why Most Productivity Systems Fail (And What to Do Instead)
Dev.to

Moving from proof of concept to production: what we learned with Nometria
Dev.to

Frontend Engineers Are Becoming AI Trainers
Dev.to