大規模言語モデルにおけるより良い3D空間推論のためのスケーラブルなオブジェクト関係エンコーディング

arXiv cs.AI / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、大規模言語モデルにおける3D空間推論のための新しい位置埋め込み手法であるQuatRoPEを提案する。これは、オブジェクト数に対して線形にスケールし、対となる関係をすべてペアで扱う場合に生じる二次的なスケーリングを回避する。
注意（attention）層の内部でドット積によりペア間の空間関係を明示的に計算し、すべての関係を入力トークンとしてエンコードする手法のスケーラビリティおよびトークン長の問題を回避する。
3D座標を統合的なベクトル表現でエンコードすることで、QuatRoPEは、絶対位置のエンコーディングに依存する手法と比べて幾何学的整合性を保ち、空間的一貫性を向上させることを目指す。
著者らはさらに、IGRE（Isolated Gated RoPE Extension）を提案し、QuatRoPEの効果をオブジェクト関連トークンに限定することで、LLM本来の位置埋め込みや能力との干渉を低減する。
提案手法に関する広範な実験的証拠を報告しており、GitHubでコード／データを公開している。

要旨: 空間推論は、3Dシーンにおける空間関係に基づいて対象物を特定することに焦点を当てており、インテリジェントな身体性エージェントの開発において重要な役割を果たします。3Dシーンと言語のペアデータが限られているため、強力な推論能力を持つモデルをゼロから学習することは困難です。先行研究では、3Dシーン表現を大規模言語モデル（LLM）の入力空間に注入し、事前学習された理解・推論能力を用いて空間推論を行うことが試みられてきました。しかし、絶対位置を符号化するモデルは、早期に融合された特徴から空間関係を抽出するのが難しいのに対し、すべての空間関係を入力トークンとして明示的に符号化する方法（これは物体数に対して二次的）では、スケーラビリティが不十分です。これらの制約に対処するために、本研究では、物体数に対して入力長が線形となる新しい位置埋め込み手法であるQuatRoPEを提案します。そして、注意（attention）層における内積を通じて、対（ペア）間の空間関係を明示的に計算します。QuatRoPEは3D座標の全体的なベクトル符号化により、高い空間的一貫性を保証し、シーンの幾何学的整合性への忠実さを維持します。さらに、QuatRoPEの影響を物体関連トークンに効果的に限定する、隔離型ゲート付きRoPE拡張（Isolated Gated RoPE Extension; IGRE）を導入し、LLMの既存の位置埋め込みへの干渉を最小限に抑え、LLM本来の能力を維持します。広範な実験により、提案手法の有効性が示されます。コードとデータは https://github.com/oceanflowlab/QuatRoPE で利用可能です。