概要: 身体性を備えたAIエージェントは、3-D空間における物体の動きと相互作用を時間を通じて推論しなければなりません。しかし、既存の小規模なフロンティア・Large Language Models(LLM)は、微細な空間関係、メートル単位の距離、そして時間的な順序づけをなおも取り違えがちです。そこで本研究では、自然言語の問いを、正規表現構文とS4u空間論理を組み合わせた言語であるSpatial Regular Expression(SpRE)へとコンパイルすることで、LLMに検証可能な時空間の教師信号を注入する一般的な枠組みFormally Explainable Spatio-Temporal Scenes(FESTS)を提案します。SpREはさらに、普遍量化と存在量化で拡張されています。パイプラインは各SpREを任意の構造化されたビデオ・ログに対して照合し、(問い、フレーム、マッチ、説明)という整合したタプルを出力します。これにより、手作業によるラベルなしで無制限の学習データを作成できます。30億パラメータのモデルを、このようなタプル27k件で学習すると、フレームレベルのF1が48.5%から87.5%へと向上し、複雑な時空間推論においてGPT-4.1と同等の性能を達成しながら、2桁(オーダー)以上小さく保たれます。したがって、Video LLMに対する時空間インテリジェンスを実現できます。
知覚ストリームからの大規模言語モデルの時空間的グラウンディング
arXiv cs.RO / 2026/4/10
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 提示された研究は、3D空間における物体の移動・相互作用と時間的順序を扱う「身体性AI/Video LLM」に向けて、大規模言語モデルが空間関係や距離、時系列を細部まで誤る課題を指摘している。
- LLMに検証可能な時空間の監督信号を与える枠組みFESTSを提案し、自然言語クエリを「SpRE(Spatial Regular Expression)」へコンパイルして動画ログへ機械的に照合させ、アラインされた(クエリ, フレーム, マッチ, 説明)タプルを生成することで無ラベルに近い学習データを大量に作れるとしている。
- 3Bパラメータ規模のモデルを約27kタプルで学習するとフレームレベルF1が48.5%から87.5%へ大きく改善し、複雑な時空間推論でGPT-4.1に近い性能まで到達したと報告している。
- 提案手法は「Video LLM」に必要な時空間インテリジェンスを、GPT-4.1級に比べて桁違いに小さいモデルサイズで実現し得る点を主張している。


