取得（リトリーバル）レイヤーを修正することでAIエージェントのトークン消費を90%削減する

AIエージェント向けの検索基盤を構築して得た、簡単な洞察：

ほとんどのエージェントは、毎回のプロンプトに対して文脈（コンテキスト）を50,000トークン分も詰め込みます。そしてコサイン類似度で200件のドキュメントを取得し、正しい答えがそのどこかにあることを期待して、LLMに考えさせます。うまくいかないとき、そして実際よくうまくいかないのですが、エージェントは再度取得します。リトライのたびに、さらにトークンとお金が燃えます。

私たちはShapedという検索エンジンを作り、エージェントに200件ではなく10件のランク付け結果を提供します。結果のスコアリングは、埋め込みの類似度だけでなく、実際のインタラクションデータで学習したMLモデルによって行われます。これにより、本番環境では、クエリあたり約2,500トークンで済むのに対し、50,000トークンは必要ありません。エージェントは最初の一発で正解できるので、リトライのループは発生しません。

いちばん興味深い点：ランキングモデルは、エージェントのフィードバックで自動的に再学習されます。ユーザーが質問を言い換えたとき、またはエージェントが再取得しなければならないとき、そのシグナルがモデルの学習に使われます。手動の介入なしで、100日目のモデルは1日目のモデルよりも測定可能なほど改善しています。

さらに、Cursor、Claude Code、Windsurf、VS Code Copilot、Gemini、OpenAI でネイティブに動作するように、MCPサーバーも出荷しました。

エージェントの検索品質に取り組んでいる方がいれば、どんなアプローチを試したのかぜひ教えてください。

完全な技術的アプローチをこちらにまとめました： https://www.shaped.ai/blog/your-agents-retrieval-is-broken-heres-what-we-built-to-fix-it

submitted by /u/skeltzyboiii
[link] [comments]

取得（リトリーバル）レイヤーを修正することでAIエージェントのトークン消費を90%削減する

要点

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer