部分観測下におけるテキストベースの探索とナビゲーションのためのLLM

arXiv cs.AI / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、未知環境において部分観測のもとで、大規模言語モデルがツールやコード実行なしのテキストのみのコントローラとして探索・ナビゲーションを担えるかを検討する。
固定されたASCIIのグリッドワールドを用い、オラクルによる位置特定を前提とする再現可能なベンチマークを導入する。ここでは各移動で得られるのは局所的な5×5視界のみで、モデルはUP/RIGHT/DOWN/LEFTのいずれかを選択しなければならない。
9つのLLM（さまざまなアーキテクチャとチューニング手法）にわたって、推論調整型のモデルがレイアウト横断で最も確実にナビゲーションを完了する。ただし、オラクル（最短）経路より効率が低いことが多い。
few-shotプロンプトは、主に推論調整型モデルの不正な行動を減らし、軌跡（トラジェクトリ）を短くすることで効果を発揮する。一方で、密なinstruction-tunedモデルはより一貫性に欠ける。
著者らは、行動の事前分布（例：UP/RIGHT）が部分観測下でループを引き起こし得ることを示し、パラメータ数の多寡よりも、学習レジメンやテスト時の熟慮（デリベレーション）が制御能力をよりよく予測すると結論づける。さらに実システムでは、オンラインプランナーとのハイブリッド化が有望だとしている。

要旨: 未知のレイアウトにおける探索と目標指向型ナビゲーションは、点検、物流、そして捜索救助において中核となる課題です。本研究では、大規模言語モデル（LLM）が、部分観測のもとで
\emph{text-only} コントローラとして機能できるか、すなわちコード実行、ツール、またはプログラム合成を用いずに実現できるかを問いかけます。固定されたASCIIのグリッドワールドにおいて、オラクルによる位置特定を備えた再現可能なベンチマークを導入します。各ステップではエージェント周囲の局所的な $5\times5$ のウィンドウのみが明らかになり、モデルは
\texttt{UP/RIGHT/DOWN/LEFT} のいずれかを選択する必要があります。現代の9つのLLM（オープン/プロプライエタリ、密なモデル／Mixture of Experts、指示チューニング／推論チューニング）を対象に、難易度が増していく3つのレイアウトにまたがる2つのタスクで評価を行います。すなわち、 \emph{探索}（明らかになったセル数の最大化）と、 \emph{ナビゲーション}（最短経路でゴールに到達）です。実験結果は、 \emph{成功率}、正規化されたカバレッジなどの \emph{効率}、オラクルに対する \emph{経路長} を含む定量指標、ならびに定性的分析によって評価されます。推論チューニング済みモデルは、すべてのレイアウトにおいてナビゲーションを確実に完了しますが、オラクルの経路よりは効率が低いままです。プロンプト内での少数例（few-shot）のデモは主に、無効な移動を減らし経路を短くすることで、これらの推論チューニングモデルを助けます。一方で、従来の密な指示モデルは一貫性に欠けます。部分観測のもとでループを引き起こしうる特徴的な行動事前（UP/RIGHT）も観察されます。全体として、トレーニングのレジメンとテスト時の熟考は、単純な生のパラメータ数よりも制御能力をよりよく予測します。これらの知見は、古典的なオンラインプランナとの軽量なハイブリッド化が、実運用可能な部分地図システムを展開するための実用的なルートになりうることを示唆しています。

Black Hat Asia

AI Business

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

日経XTECH

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

日経XTECH

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

日経XTECH

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

日経XTECH

部分観測下におけるテキストベースの探索とナビゲーションのためのLLM

要点

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認 「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル 米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信 ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵