要旨: 具現化された推論は本質的に視点依存である。見えるもの、遮蔽されるもの、到達可能なものは、エージェントが立っている場所によって決定的に左右される。しかし、具現化されたエージェントの既存の空間記憶システムは通常、マルチビュー観測またはオブジェクト中心の抽象化のいずれかを保存しており、明示的な幾何学的基づけを用いた推論を実行することを難しくしている。我々はRenderMemを導入する。これは3D世界表現と空間推論の間のインターフェースとしてレンダリングを扱う空間記憶フレームワークである。固定観測を格納する代わりに、RenderMemは3Dシーン表現を維持し、クエリに条件づけられた視覚的証拠を、クエリによって示唆される視点からシーンをレンダリングして生成する。これにより、具現化されたエージェントは任意の視点から視線、可視性、そして遮蔽について直接推論できる。RenderMemは既存のビジョン-言語モデルと完全に互換性があり、標準的なアーキテクチャの修正を必要としない。AI2-THOR環境での実験は、従来のメモリベースラインに対して視点依存の可視性および遮蔽のクエリで一貫した改善を示している。
RenderMem: 空間的記憶検索としてのレンダリング
arXiv cs.AI / 2026/3/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- RenderMemは、レンダリングを3D世界表現と空間推論の橋渡しとして用いる空間メモリフレームワークを提案する。
- 固定された観測を格納する従来のメモリシステムとは異なり、RenderMemは3Dシーン表現を維持し、クエリに含まれる視点から条件付けられた視覚情報をレンダリングする。
- この設計により、身体性を持つエージェントは任意の視点からの視線、可視性、遮蔽について推論でき、標準のアーキテクチャを変更することなく、既存の視覚と言語モデルと互換性を保つ。
- AI2-THOR環境での実験は、RenderMemが視点依存の可視性と遮蔽に関するクエリを従来のメモリベースラインより改善することを示している。

