DORA Explorer:トレーニングなしでLLMの探索能力を向上させる手法
arXiv cs.CL / 2026/4/21
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文では、温度スケーリング等のサンプリングやChain-of-Thought/Tree-of-Thoughtのようなプロンプト手法だけでは、シーケンス/行動レベルで十分な多様性を生み出せず、その結果として探索が不十分になりループに陥りやすいことを指摘しています。
- マルチアームド・バンディット(MAB)とテキスト・アドベンチャー学習環境スイート(TALES)を用いた分析により、既存の戦略がロバストな探索において体系的に弱いことを示しています。
- 提案手法のDORA Explorer(Diversity-Oriented Ranking of Actions)は、トレーニング不要で多様な行動候補を生成し、トークンの対数尤度でスコアリングしたうえで、調整可能な探索パラメータにより行動を選択します。
- 実験では、DORAがMABでUCBに競合する性能を達成し、TALESでも一貫した改善が得られることが示されており、例としてTextWorldでQwen2.5-7Bの性能が29.2%から45.5%へ向上しています。
- 著者らは、提案手法の公開プロジェクトページを提供しており、追加検証や利用が可能です(https://dora-explore.github.io/)。
関連記事

新しいモデルが出るたびに、当然ながら古いモデルは時代遅れになる
Reddit r/LocalLLaMA

NVIDIA DGX SparkフルスタックAIハッカソンで作ったものが総合1位に—『Starfire』から『Molecules AI』へ
Dev.to

進捗を失わない:VS Codeでプロ仕様のJupyterワークフローをセットアップする(Colabのタイムアウトともおさらば!)
Dev.to

AgentOSを作る:保険請求の「AWS Lambda」を目指している理由
Dev.to

状況はここまで来た——1年で何もかも変わった:Kimi、Minimax、Qwen、Gemma、GLM
Reddit r/LocalLLaMA