取得(リトリーバル)レイヤーを修正することでAIエージェントのトークン消費を90%削減する

Reddit r/artificial / 2026/3/27

📰 ニュース

要点

  • 記事は、多くのAIエージェントが単純な類似度検索によって大量の文書(例:〜200)を取得し、それらをプロンプトに詰め込むことで(〜50,000トークン)トークンを浪費していると主張する。
  • その結果、リトライが発生しやすくなり、コストが増大する。

AIエージェント向けの検索基盤を構築して得た、簡単な洞察:

ほとんどのエージェントは、毎回のプロンプトに対して文脈(コンテキスト)を50,000トークン分も詰め込みます。そしてコサイン類似度で200件のドキュメントを取得し、正しい答えがそのどこかにあることを期待して、LLMに考えさせます。うまくいかないとき、そして実際よくうまくいかないのですが、エージェントは再度取得します。リトライのたびに、さらにトークンとお金が燃えます。

私たちはShapedという検索エンジンを作り、エージェントに200件ではなく10件のランク付け結果を提供します。結果のスコアリングは、埋め込みの類似度だけでなく、実際のインタラクションデータで学習したMLモデルによって行われます。これにより、本番環境では、クエリあたり約2,500トークンで済むのに対し、50,000トークンは必要ありません。エージェントは最初の一発で正解できるので、リトライのループは発生しません。

いちばん興味深い点:ランキングモデルは、エージェントのフィードバックで自動的に再学習されます。ユーザーが質問を言い換えたとき、またはエージェントが再取得しなければならないとき、そのシグナルがモデルの学習に使われます。手動の介入なしで、100日目のモデルは1日目のモデルよりも測定可能なほど改善しています。

さらに、Cursor、Claude Code、Windsurf、VS Code Copilot、Gemini、OpenAI でネイティブに動作するように、MCPサーバーも出荷しました。

エージェントの検索品質に取り組んでいる方がいれば、どんなアプローチを試したのかぜひ教えてください。

完全な技術的アプローチをこちらにまとめました: https://www.shaped.ai/blog/your-agents-retrieval-is-broken-heres-what-we-built-to-fix-it

submitted by /u/skeltzyboiii
[link] [comments]

取得(リトリーバル)レイヤーを修正することでAIエージェントのトークン消費を90%削減する | AI Navigate