「探せ、当てるな」：小型言語モデルに効果的な検索エージェントとして振る舞うよう教える

arXiv cs.AI / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

検索機能を備えたエージェントは知識集約型のタスクに有望だが、検索エージェントとしてフルスケールのLLMを使うことは、実運用に向けて計算コストが高すぎることが多い。
複雑なマルチホップ推論に関する実験では、蒸留された小型言語モデル（SLM）は推論能力があるにもかかわらず、検索ツールの呼び出し頻度が低くなり、幻覚（ハルシネーション）が増える傾向が示された。
本論文では、政策（policy）という軽量なファインチューニング手法を提案し、SLMに対して情報を確実に検索し、検索した根拠に基づいた回答を生成することを明示的に学習させる。
LLMからSLMへのエージェント蒸留と比べて、policyはBamboogleで17.3、HotpotQAで15.3のベンチマーク改善をもたらし、評価されたベンチマークにおいてLLMレベルの結果に到達したとされる。
著者らはまた、SLMにおける適応的な検索戦略が性能を損なう可能性があることも見出しており、信頼できる推論のためには一貫した検索挙動が重要であることを示唆している。

要旨: 検索ツールを備えたエージェントは、知識集約型タスクに対する効果的な解決策として登場してきた。大規模言語モデル（LLM）は推論能力が高い一方で、計算コストが高いため、検索エージェントとして実運用するには限界がある。そこで、近年の研究では、LLMからエージェント的な振る舞いを小型言語モデル（SLM）へ蒸留することに焦点が当てられている。複雑なマルチホップ推論タスクに対する包括的な評価を通じて、パラメトリックな知識はより少ないにもかかわらず、SLMは検索ツールを呼び出す頻度が低く、幻覚を起こしやすいことを見出す。この問題に対処するために、
私たちは
tpolicy、軽量なファインチューニング手法を提案する。これは、SLMが、取得したエビデンスに基づいて、信頼性をもって検索し回答を生成することを明示的に学習させるものである。LLMからのエージェント蒸留と比べて、当方の手法は、Bamboogleで17.3スコア、HotpotQAで15.3スコア向上し、ベンチマーク全体でLLMレベルの結果を達成する。さらに分析すると、SLMにおける適応的な検索戦略がパフォーマンスをしばしば低下させ、信頼できる推論のためには一貫した検索挙動が必要であることが示される。

Black Hat Asia

AI Business

完全自動化されたWebサイト 2026-04-11：スコアボード — ホームページ上での視覚的ジャッジ得点比較

Dev.to

倫理的監査可能性を組み込んだ、人間整合型デシジョントランスフォーマーによる衛星異常対応オペレーション

Dev.to

あの“決定的”な動画？証拠ではない。容疑者だ。

Dev.to

AIの引用レジストリとWebサイトベースの出版制約

Dev.to

「探せ、当てるな」：小型言語モデルに効果的な検索エージェントとして振る舞うよう教える

要点

関連記事

Black Hat Asia

完全自動化されたWebサイト 2026-04-11：スコアボード — ホームページ上での視覚的ジャッジ得点比較

倫理的監査可能性を組み込んだ、人間整合型デシジョントランスフォーマーによる衛星異常対応オペレーション

あの“決定的”な動画？証拠ではない。容疑者だ。

AIの引用レジストリとWebサイトベースの出版制約

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

完全自動化されたWebサイト 2026-04-11：**スコアボード — ホームページ上での視覚的ジャッジ得点比較**

倫理的監査可能性を組み込んだ、人間整合型デシジョントランスフォーマーによる衛星異常対応オペレーション

あの“決定的”な動画？証拠ではない。容疑者だ。

AIの引用レジストリとWebサイトベースの出版制約

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

完全自動化されたWebサイト 2026-04-11：スコアボード — ホームページ上での視覚的ジャッジ得点比較