AIエージェント向けの検索基盤を構築して得た、簡単な洞察:
ほとんどのエージェントは、毎回のプロンプトに対して文脈(コンテキスト)を50,000トークン分も詰め込みます。そしてコサイン類似度で200件のドキュメントを取得し、正しい答えがそのどこかにあることを期待して、LLMに考えさせます。うまくいかないとき、そして実際よくうまくいかないのですが、エージェントは再度取得します。リトライのたびに、さらにトークンとお金が燃えます。
私たちはShapedという検索エンジンを作り、エージェントに200件ではなく10件のランク付け結果を提供します。結果のスコアリングは、埋め込みの類似度だけでなく、実際のインタラクションデータで学習したMLモデルによって行われます。これにより、本番環境では、クエリあたり約2,500トークンで済むのに対し、50,000トークンは必要ありません。エージェントは最初の一発で正解できるので、リトライのループは発生しません。
いちばん興味深い点:ランキングモデルは、エージェントのフィードバックで自動的に再学習されます。ユーザーが質問を言い換えたとき、またはエージェントが再取得しなければならないとき、そのシグナルがモデルの学習に使われます。手動の介入なしで、100日目のモデルは1日目のモデルよりも測定可能なほど改善しています。
さらに、Cursor、Claude Code、Windsurf、VS Code Copilot、Gemini、OpenAI でネイティブに動作するように、MCPサーバーも出荷しました。
エージェントの検索品質に取り組んでいる方がいれば、どんなアプローチを試したのかぜひ教えてください。
完全な技術的アプローチをこちらにまとめました: https://www.shaped.ai/blog/your-agents-retrieval-is-broken-heres-what-we-built-to-fix-it
[link] [comments]