要旨: 未知のレイアウトにおける探索と目標指向型ナビゲーションは、点検、物流、そして捜索救助において中核となる課題です。本研究では、大規模言語モデル(LLM)が、部分観測のもとで
\emph{text-only} コントローラとして機能できるか、すなわちコード実行、ツール、またはプログラム合成を用いずに実現できるかを問いかけます。固定されたASCIIのグリッドワールドにおいて、オラクルによる位置特定を備えた再現可能なベンチマークを導入します。各ステップではエージェント周囲の局所的な 5\times5 のウィンドウのみが明らかになり、モデルは
\texttt{UP/RIGHT/DOWN/LEFT} のいずれかを選択する必要があります。現代の9つのLLM(オープン/プロプライエタリ、密なモデル/Mixture of Experts、指示チューニング/推論チューニング)を対象に、難易度が増していく3つのレイアウトにまたがる2つのタスクで評価を行います。すなわち、 \emph{探索}(明らかになったセル数の最大化)と、 \emph{ナビゲーション}(最短経路でゴールに到達)です。実験結果は、 \emph{成功率}、正規化されたカバレッジなどの \emph{効率}、オラクルに対する \emph{経路長} を含む定量指標、ならびに定性的分析によって評価されます。推論チューニング済みモデルは、すべてのレイアウトにおいてナビゲーションを確実に完了しますが、オラクルの経路よりは効率が低いままです。プロンプト内での少数例(few-shot)のデモは主に、無効な移動を減らし経路を短くすることで、これらの推論チューニングモデルを助けます。一方で、従来の密な指示モデルは一貫性に欠けます。部分観測のもとでループを引き起こしうる特徴的な行動事前(UP/RIGHT)も観察されます。全体として、トレーニングのレジメンとテスト時の熟考は、単純な生のパラメータ数よりも制御能力をよりよく予測します。これらの知見は、古典的なオンラインプランナとの軽量なハイブリッド化が、実運用可能な部分地図システムを展開するための実用的なルートになりうることを示唆しています。
部分観測下におけるテキストベースの探索とナビゲーションのためのLLM
arXiv cs.AI / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、未知環境において部分観測のもとで、大規模言語モデルがツールやコード実行なしのテキストのみのコントローラとして探索・ナビゲーションを担えるかを検討する。
- 固定されたASCIIのグリッドワールドを用い、オラクルによる位置特定を前提とする再現可能なベンチマークを導入する。ここでは各移動で得られるのは局所的な5×5視界のみで、モデルはUP/RIGHT/DOWN/LEFTのいずれかを選択しなければならない。
- 9つのLLM(さまざまなアーキテクチャとチューニング手法)にわたって、推論調整型のモデルがレイアウト横断で最も確実にナビゲーションを完了する。ただし、オラクル(最短)経路より効率が低いことが多い。
- few-shotプロンプトは、主に推論調整型モデルの不正な行動を減らし、軌跡(トラジェクトリ)を短くすることで効果を発揮する。一方で、密なinstruction-tunedモデルはより一貫性に欠ける。
- 著者らは、行動の事前分布(例:UP/RIGHT)が部分観測下でループを引き起こし得ることを示し、パラメータ数の多寡よりも、学習レジメンやテスト時の熟慮(デリベレーション)が制御能力をよりよく予測すると結論づける。さらに実システムでは、オンラインプランナーとのハイブリッド化が有望だとしている。




