DORA Explorer:トレーニングなしでLLMの探索能力を向上させる手法

arXiv cs.CL / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文では、温度スケーリング等のサンプリングやChain-of-Thought/Tree-of-Thoughtのようなプロンプト手法だけでは、シーケンス/行動レベルで十分な多様性を生み出せず、その結果として探索が不十分になりループに陥りやすいことを指摘しています。
  • マルチアームド・バンディット(MAB)とテキスト・アドベンチャー学習環境スイート(TALES)を用いた分析により、既存の戦略がロバストな探索において体系的に弱いことを示しています。
  • 提案手法のDORA Explorer(Diversity-Oriented Ranking of Actions)は、トレーニング不要で多様な行動候補を生成し、トークンの対数尤度でスコアリングしたうえで、調整可能な探索パラメータにより行動を選択します。
  • 実験では、DORAがMABでUCBに競合する性能を達成し、TALESでも一貫した改善が得られることが示されており、例としてTextWorldでQwen2.5-7Bの性能が29.2%から45.5%へ向上しています。
  • 著者らは、提案手法の公開プロジェクトページを提供しており、追加検証や利用が可能です(https://dora-explore.github.io/)。