Backboardは現在、適応的コンテキスト管理を搭載した組み込みシステムを提供しており、アプリケーションが異なるコンテキストウィンドウサイズを持つLLMs間で切り替えるときに会話状態を自動的に管理します。
Backboardは17,000以上のモデルをサポートしており、モデル間の切替は普通です。問題は、コンテキストの上限が提供者やモデルファミリごとに大きく異なることです。あるモデルで快適に収まるものが、次のモデルではオーバーフローすることがあります。
従来は、開発者がこれを手動で処理する必要がありました。
適応的コンテキスト管理はその負担を取り除き、Backboardに無料で含まれています。
- 製品: Backboard.io
- 機能: 適応的コンテキスト管理
- 成果: トークンオーバーフロー処理なしの安定したマルチモデルアプリ
- 提供状況: 今日からBackboard APIで提供開始
- ドキュメント: https://docs.backboard.io
なぜコンテキストウィンドウの不一致がマルチモデルアプリケーションを壊すのか
実際のアプリケーションでは、「コンテキスト」はチャットメッセージ以上のものです。しばしば以下を含みます:
- システムプロンプト
- 最近の対話ターン
- ツール呼び出しとツール応答
- RAGコンテキスト
- ウェブ検索結果
- ランタイムメタデータ
アプリが大きなコンテキストモデルで起動し、その後リクエストをより小さなコンテキストモデルへルーティングすると、総状態が新しいモデルの上限を超えることがあります。
ほとんどのプラットフォームは、難しい部分を開発者へ押し付けます:
- トランケーション戦略
- 優先順位ルール
- 要約パイプライン
- オーバーフロー処理
- トークン使用量の追跡
複数モデルの設定では、これが急速に脆弱になります。
Backboardの目標はシンプルです: モデルを入れ替え可能なインフラとして扱うことで、モデルを切替えるたびに状態処理を再実装する必要をなくします。
適応的コンテキスト管理(Backboard.io)の導入
適応的コンテキスト管理 は、対象モデルのコンテキストウィンドウに収まるよう会話状態を自動的に再構成する Backboard の実行時機能です。
リクエストが新しいモデルへルーティングされると、Backboard は利用可能なコンテキストウィンドウを動的に予算配分します:
- 20%を生の状態として予約
- 80%を知的な要約によって解放
20%の予算内で「生の」状態として残るもの
Backboardは最も重要なリアルタイム入力を最優先します:
- システムプロンプト
- 最近のメッセージ
- ツール呼び出し
- RAG結果
- ウェブ検索コンテキスト
20%の予算に収まるものは