World2Mind：基盤モデルにおける他者視点空間推論のための認知ツールキット

arXiv cs.AI / 2026/3/11

Ideas & Deep AnalysisTools & Practical UsageModels & Research

原文を読む →

共有:

要点

World2Mindは、3D再構築とインスタンスセグメンテーションを用いて構造化された認知地図を構築し、多モーダル基盤モデル（MFM）の空間推論を強化するトレーニング不要の空間知能ツールキットです。
楕円パラメータを用いてランドマークの俯瞰レイアウトをモデル化する他者視点空間ツリー（AST）を導入し、堅牢な幾何学的・トポロジー的事前知識を空間推論に提供します。
3D再構築の不正確さに対応するため、ツール呼び出し評価、モダリティ非依存の手がかり収集、幾何学-セマンティクスを絡めた推論という3段階の推論チェーンを備え、モデルのモダリティ跨ぎ空間推論能力を向上させます。
実験結果はWorld2MindがGPT-5.2などの最先端モデルの性能を5％〜18％向上させることを示しており、AST構造のテキストのみで純粋なテキスト基盤モデルが多モーダルレベルに近い3D空間推論を実現可能であることを示しています。
本手法は3Dデータに過度に依存するか2D空間知覚に限定される従来手法の限界を克服し、基盤モデルにおける他者視点空間推論能力の進展をもたらします。

計算機科学 > 強いAI

arXiv:2603.09774 (cs)

[2026年3月10日に投稿]

題目:World2Mind: 基盤モデルにおける同心的（allocentric）空間推論のための認知ツールキット

著者:Shouwei Ruan, Bin Wang, Zhenyu Wu, Qihui Zhu, Yuxiang Zhang, Hang Su, Yubin Wang

Shouwei Ruan と他6名の著者による「World2Mind: 基盤モデルにおける同心的（allocentric）空間推論のための認知ツールキット」という題目のPDFを表示

PDFを表示 HTML（実験的）

要旨:頑健な空間推論を達成することは、現在のマルチモーダル基盤モデル（MFM）にとって根本的な課題のままです。既存手法は、3Dのグラウンディングデータによる統計的な抜け道に過剰適合するか、あるいは2Dの視覚認識に閉じ込められたままであり、その結果、空間推論の精度と、未見の状況に対する汎化の両方が制限されます。生物学的知能の空間認知マッピング機構に着想を得て、訓練不要の空間知能ツールキットであるWorld2Mindを提案します。中心となる仕組みとして、World2Mindは3D復元モデルとインスタンスセグメンテーションモデルを活用し、構造化された空間認知マップを構築します。これにより、MFMが、関心のあるランドマークやルートに関する狙いを定めた空間知識を、自発的に獲得できるようになります。頑健な幾何-トポロジーの事前知識を提供するために、World2Mindは、楕円パラメータを用いてランドマークの俯瞰的なレイアウトを正確にモデル化するAllocentric-Spatial Tree（AST）を合成します。3D復元に内在する不正確さを緩和するために、ツール呼び出しの評価、モダリティ分離された手がかりの収集、幾何とセマンティクスが織り込まれた推論、という3段階の推論チェーンを導入します。大規模な実験により、World2MindはGPT-5.2のような最先端のモデルの性能を5%〜18%向上させることが示されます。驚くべきことに、ASTで構造化されたテキストのみを用いて、完全にテキストのみの基盤モデルが複雑な3D空間推論を行うことができ、先進的なマルチモーダルモデルに匹敵する性能にまで到達します。

分野:	強いAI（cs.AI）
引用:	arXiv:2603.09774 [cs.AI]
	（または、この版については arXiv:2603.09774v1 [cs.AI]）
	https://doi.org/10.48550/arXiv.2603.09774 詳細を学ぶためにフォーカス DataCite による arXiv 発行 DOI

投稿履歴

差出人: Shouwei Ruan [メールを表示]
[v1] 2026年3月10日（火）15:12:14 UTC（547 KB）

全文リンク:

論文へのアクセス:

Shouwei Ruan と他6名の著者による「World2Mind: 基盤モデルにおける同心的（allocentric）空間推論のための認知ツールキット」という題目のPDFを表示

PDFを表示
HTML（実験的）
TeX ソース

ライセンスを表示

現在の閲覧コンテキスト:

cs.AI

< 前 | 次 >

返却形式: {"translated": "翻訳されたHTML"}

新着 | 最近 | 2026-03

次の方法で閲覧します：

参照 & 引用

BibTeX の引用をエクスポート読み込み中...

BibTeX 形式の引用

提供元：

ブックマーク

書誌ツール

書誌および引用ツール

書誌エクスプローラーの切り替え

書誌エクスプローラー (エクスプローラーとは？)

Connected Papers の切り替え

Connected Papers (Connected Papers とは？)

Litmaps の切り替え

Litmaps (Litmaps とは？)

scite.ai の切り替え

scite スマート引用 (スマート引用とは？)

コード、データ、メディア

この論文に関連するコード、データ、メディア

alphaXiv の切り替え

alphaXiv (alphaXiv とは？)

コードへのリンクの切り替え

論文向け CatalyzeX コードファインダー (CatalyzeX とは？)

DagsHub トグル

DagsHub (DagsHubとは何ですか？)

GotitPub トグル

Gotit.pub (GotitPubとは何ですか？)

Huggingface トグル

Hugging Face (Huggingfaceとは何ですか？)

コードへのリンクトグル

Papers with Code (Papers with Codeとは何ですか？)

ScienceCast トグル

ScienceCast (ScienceCastとは何ですか？)

デモ

Replicate トグル

Replicate (Replicateとは何ですか？)

Spaces トグル

Hugging Face Spaces (Spacesとは何ですか？)

Spaces トグル

TXYZ.AI (TXYZ.AIとは何ですか？)

レコメンダーおよび検索ツール

Influence Flowerへのリンクトグル

Influence Flower (Influence Flowerとは何ですか？)

Coreレコメンダートグル

CORE Recommender (COREとは何ですか？)

著者
掲載先
所属機関
トピック

arXivLabs について

arXivLabs：コミュニティの協力者と共に行う実験的プロジェクト

arXivLabsは、協力者が当社のウェブサイト上で新しいarXivの機能を直接開発し、共有できるようにするためのフレームワークです。

arXivLabsに取り組み、当社と連携する個人および組織はいずれも、開放性、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、これらを尊重してきました。arXivはこれらの価値観にコミットしており、それらを遵守するパートナーとのみ協働します。

arXivのコミュニティに価値を加えるプロジェクトのアイデアはありますか？ arXivLabsの詳細を学ぶ。

この論文のどの著者が賛同者（endorser）ですか？ | MathJaxを無効にする（MathJaxとは？）

Foundry Tools とは

Azure OpenAI Service ドキュメント

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

日経XTECH

開発者のためのプロンプトエンジニアリング：実際に機能するパターン

Dev.to

ビジネスのニーズに最適なAIチャットモデル（2026年版）の選び方

Dev.to

フレームワークなしでNode.jsにマルチステップAIエージェントを構築する方法

Dev.to

World2Mind：基盤モデルにおける他者視点空間推論のための認知ツールキット

要点

計算機科学 > 強いAI

題目:World2Mind: 基盤モデルにおける同心的（allocentric）空間推論のための認知ツールキット

投稿履歴

論文へのアクセス:

参照 & 引用

BibTeX 形式の引用

ブックマーク

書誌および引用ツール

この論文に関連するコード、データ、メディア

デモ

レコメンダーおよび検索ツール

arXivLabs：コミュニティの協力者と共に行う実験的プロジェクト

関連記事

Foundry Tools とは

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

開発者のためのプロンプトエンジニアリング：実際に機能するパターン

ビジネスのニーズに最適なAIチャットモデル（2026年版）の選び方

フレームワークなしでNode.jsにマルチステップAIエージェントを構築する方法

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer