予算制約下のエージェント型LLM検索における設計判断の精度とコストへの影響の定量化

arXiv cs.AI / 2026/3/11

Ideas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本研究は、検索深度、検索戦略、完了予算といった設計判断が、固定された予算制約のもとでのエージェント型検索強化生成（RAG）システムの精度とコストに与える影響を調査する。
Budget-Constrained Agentic Search（BCAS）を用いて、6つの大規模言語モデル（LLM）と3つのQAベンチマークにわたるモデル非依存の評価を実施し、これらの要因がシステム性能にどのように影響するかを明らかにした。
結果は、一定の上限まで検索回数を増やすことで精度が向上し、軽量再ランキングを伴う語彙検索と密ベクトル検索のハイブリッドが最大の精度向上をもたらし、HotpotQAのような複雑な統合タスクではより大きな完了予算が有利になることを示している。
これらの知見は、予算を考慮したエージェント型検索パイプラインの構成に対する実践的な指針を提供し、再現可能なプロンプトおよび評価フレームワークも併せて提供する。

要約: エージェント型検索強化生成（RAG）システムは反復的な検索、計画プロンプト、検索バックエンドを組み合わせるが、実運用環境ではツール呼び出しや完了トークンに明確な予算が課される。我々は、固定された制約下で検索深度、検索戦略、完了予算が精度とコストにどのように影響するかの制御された計測研究を提示する。Budget-Constrained Agentic Search（BCAS）を用いたモデル非依存評価基盤は残予算を表示し、ツール使用を制御しながら、6つのLLMと3つの質問応答ベンチマークで比較実験を行った。モデルとデータセット全体で、少数の上限まで検索を増やすと精度が向上し、軽量再ランキングを伴う語彙検索と密検索のハイブリッドが我々の切除グリッドで最大の平均的改善をもたらし、HotpotQA風の統合タスクではより大きな完了予算が特に有効であった。これらの成果は予算制約付きエージェント型検索パイプラインの設定に対する実用的な指針を提供し、再現可能なプロンプトや評価設定と共に提供される。

Translator

Azure OpenAI Service ドキュメント

200人のChatGPTユーザーに聞いた最大の不満。トップ5はすべてChatGPT Toolboxが解決する問題だった。

Reddit r/artificial

すべてのPRをセキュリティバグでレビューするAIを作った — その方法（2026）

Dev.to

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

Reddit r/MachineLearning

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

Dev.to

予算制約下のエージェント型LLM検索における設計判断の精度とコストへの影響の定量化

要点

関連記事

Translator

200人のChatGPTユーザーに聞いた最大の不満。トップ5はすべてChatGPT Toolboxが解決する問題だった。

すべてのPRをセキュリティバグでレビューするAIを作った — その方法（2026）

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer