Spatio-Temporal Grounding of Large Language Models from Perception Streams
arXiv cs.RO / 4/10/2026
📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- 提示された研究は、3D空間における物体の移動・相互作用と時間的順序を扱う「身体性AI/Video LLM」に向けて、大規模言語モデルが空間関係や距離、時系列を細部まで誤る課題を指摘している。
- LLMに検証可能な時空間の監督信号を与える枠組みFESTSを提案し、自然言語クエリを「SpRE(Spatial Regular Expression)」へコンパイルして動画ログへ機械的に照合させ、アラインされた(クエリ, フレーム, マッチ, 説明)タプルを生成することで無ラベルに近い学習データを大量に作れるとしている。
- 3Bパラメータ規模のモデルを約27kタプルで学習するとフレームレベルF1が48.5%から87.5%へ大きく改善し、複雑な時空間推論でGPT-4.1に近い性能まで到達したと報告している。
- 提案手法は「Video LLM」に必要な時空間インテリジェンスを、GPT-4.1級に比べて桁違いに小さいモデルサイズで実現し得る点を主張している。



