要旨: 検索ツールを備えたエージェントは、知識集約型タスクに対する効果的な解決策として登場してきた。大規模言語モデル(LLM)は推論能力が高い一方で、計算コストが高いため、検索エージェントとして実運用するには限界がある。そこで、近年の研究では、LLMからエージェント的な振る舞いを小型言語モデル(SLM)へ蒸留することに焦点が当てられている。複雑なマルチホップ推論タスクに対する包括的な評価を通じて、パラメトリックな知識はより少ないにもかかわらず、SLMは検索ツールを呼び出す頻度が低く、幻覚を起こしやすいことを見出す。この問題に対処するために、
私たちは
tpolicy、軽量なファインチューニング手法を提案する。これは、SLMが、取得したエビデンスに基づいて、信頼性をもって検索し回答を生成することを明示的に学習させるものである。LLMからのエージェント蒸留と比べて、当方の手法は、Bamboogleで17.3スコア、HotpotQAで15.3スコア向上し、ベンチマーク全体でLLMレベルの結果を達成する。さらに分析すると、SLMにおける適応的な検索戦略がパフォーマンスをしばしば低下させ、信頼できる推論のためには一貫した検索挙動が必要であることが示される。
「探せ、当てるな」:小型言語モデルに効果的な検索エージェントとして振る舞うよう教える
arXiv cs.AI / 2026/4/7
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 検索機能を備えたエージェントは知識集約型のタスクに有望だが、検索エージェントとしてフルスケールのLLMを使うことは、実運用に向けて計算コストが高すぎることが多い。
- 複雑なマルチホップ推論に関する実験では、蒸留された小型言語モデル(SLM)は推論能力があるにもかかわらず、検索ツールの呼び出し頻度が低くなり、幻覚(ハルシネーション)が増える傾向が示された。
- 本論文では、政策(policy)という軽量なファインチューニング手法を提案し、SLMに対して情報を確実に検索し、検索した根拠に基づいた回答を生成することを明示的に学習させる。
- LLMからSLMへのエージェント蒸留と比べて、policyはBamboogleで17.3、HotpotQAで15.3のベンチマーク改善をもたらし、評価されたベンチマークにおいてLLMレベルの結果に到達したとされる。
- 著者らはまた、SLMにおける適応的な検索戦略が性能を損なう可能性があることも見出しており、信頼できる推論のためには一貫した検索挙動が重要であることを示唆している。



