MultihopSpatial: 視覚と言語モデルのためのマルチホップ合成的空間推論ベンチマーク

arXiv cs.CV / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

MultihopSpatial は、視覚と言語モデルにおけるマルチホップおよび組成的空間推論のベンチマークを導入し、さまざまな空間的視点にわたる1ホップ〜3ホップのクエリを網羅します。
Acc@50IoU を定義し、正しい回答の選択と正確な境界ボックスのグラウンディングを同時に要求する結合指標として、実世界の VLA パフォーマンスを反映します。
視覚言語モデルの空間知性を大規模に訓練するための専用コーパス MultihopSpatial-Train が公開されます。
37 の最先端 VLM に対する実験により、組成的空間推論が依然として難しい課題であることが示される一方、このコーパス上での訓練後の強化学習が、内在的な空間推論能力と下流の身体操作性能の両方を向上させる。

概要: 空間推論は Vision-Language Models (VLMs) の基盤であり、特に物理環境で Vision-Language-Action (VLA) エージェントとして展開される場合に重要です。しかし、既存のベンチマークは主に基本的な単一ホップの関係に焦点を当て、現実世界のシナリオに不可欠な多跳の組成的推論と正確な視覚グラウンディングを軽視しています。これに対処するために、MultihopSpatial を導入し、以下の3つの重要な貢献を提供します: (1) 多跳および組成的空間推論のために設計された総合的なベンチマークで、さまざまな空間的視点における1〜3ホップの複雑なクエリを特徴とします。 (2) Acc@50IoU、推論と視覚的グラウンディングを同時に評価する補完的な指標で、回答の選択と正確な境界ボックス予測の両方を要求します — 堅牢な VLA 配備に不可欠な能力です。 (3) MultihopSpatial-Train、空間知能を育てるための専用の大規模トレーニングコーパス。37種の最先端VLMの広範な評価は8つの重要な洞察を生み出し、組成的空間推論が依然として手強い課題であることを示しています。最後に、私たちのコーパス上でのトレーニング後の強化学習が、VLM自体の空間推論と下流の身体性を伴う操作性能の両方を向上させることを示します。

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

日経XTECH

GDPRとAIトレーニングデータ：個人データで学習する前に知っておくべきこと

Dev.to

体現型エージェントのフィードバックループによる、郷土（継承）言語活性化プログラムのためのエッジ・ツー・クラウド・スウォーム協調

Dev.to

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

Dev.to

AIクローラ管理：AIボット向けrobots.txtの決定版ガイド

Dev.to

MultihopSpatial: 視覚と言語モデルのためのマルチホップ合成的空間推論ベンチマーク

要点

関連記事

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

GDPRとAIトレーニングデータ：個人データで学習する前に知っておくべきこと

体現型エージェントのフィードバックループによる、郷土（継承）言語活性化プログラムのためのエッジ・ツー・クラウド・スウォーム協調

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

AIクローラ管理：AIボット向けrobots.txtの決定版ガイド

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer