ST-BiBench: MLLMによる両手身体化タスクにおけるマルチストリーム・マルチモーダル協調のベンチマーク
arXiv cs.RO / 2026/4/7
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- ST-BiBenchは、MLLMが両手の同時(マルチストリーム)協調を要する身体化タスクで「時空間的なマルチモーダル連携」を評価するための包括的なベンチマーク枠組みです。
- 高レベルのクロスモーダル推論をみる「Strategic Coordination Planning」に加え、語義的に整合する計画が空間的な視覚入力と噛み合わない問題(proximity paradox)に対処するための「Foundational Spatial Grounding」を導入しています。
- さらに「Fine-Grained Action Control」では、16次元の連続制御アクションを複雑なマルチモーダル情報から直接合成できるかを検証し、戦略と物理実行のギャップを定量化します。
- 30+の最先端MLLMを評価した結果、「coordination paradox」(論理的戦略に強い一方で、知覚と論理の断絶やマルチストリーム干渉が頻発する)が広く観測されたと報告しています。
- 本ベンチマークは、マルチストリームのマルチモーダル融合やクロスモーダル整合で生じるボトルネックを特定するための評価基盤として位置づけられています。


