暗闇の中のトランスフォーマー：バンディットのフィードバックによる未知の探索空間のナビゲーション

arXiv cs.LG / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、Transformer/LLMが外部のツリー探索アルゴリズムを近似できるかを検討し、LLMによる問題解決において外部の探索コンポーネントを必ずしも必要としない可能性を探ります。
「バンディットのフィードバックを伴う未知のツリー探索」と呼ぶベンチマーク枠組みを提案し、ツリーの拡張とフィードバック信号を外部で指定して、制御された評価を可能にします。
結果として、Transformerは理論的に異なる探索戦略を実装するのに十分な表現力を持ち、モデルはそれらを近似するためにスクラッチから学習可能であることが示されます。
著者らは、学習されたTransformerが、学習条件を超えて、未見のシナリオ（例：より長いホライズンやより深いツリー）にも一般化し得ることを示します。
さらに、探索軌跡に対するタスクに特化した継続学習（ファインチューニング）によって、探索のような振る舞いに関して、事前学習済みのLLMが本来持つ能力を引き出せることを見出しています。