本番タスク・オーケストレーションにおけるプロンプト圧縮:事前登録済みのランダム化比較試験

arXiv cs.CL / 2026/3/26

💬 オピニオン

要点

  • 本研究は、プロンプト圧縮が本番環境のマルチエージェント・タスク・オーケストレーションに与える影響を、入力トークンの節約だけでなく、しばしばより高価な出力トークンの変化にも着目して検証する。事前登録済みの6群のランダム化比較試験(RCT)を用いる。

要旨: プロンプト圧縮の経済性は、入力トークンを削減することだけでなく、圧縮によって出力長がどのように変化するかにも依存します。一般に出力長は、入力よりも数倍高い価格設定になっています。我々は、プロダクションにおけるマルチエージェントのタスクオーケストレーションを対象として、プロンプト圧縮の事前登録済み6群ランダム化比較試験(RCT)でこれを評価しました。具体的には、実際のオーケストレーション指示1,199件をランダム化したコーパスから抽出した358回の成功したClaude Sonnet 4.5実行(各群59〜61回)を分析しています。圧縮なしの対照群と、3種類の一様な保持率(r=0.8, 0.5, 0.2)および2つの構造を考慮した戦略(エントロピー適応型と、直近度に重み付けした型)を比較し、総推論コスト(入力+出力)と、埋め込みに基づく応答の類似度を測定しました。中程度の圧縮(r=0.5)は平均の総コストを27.9%削減しましたが、攻めた圧縮(r=0.2)は入力を大幅に削減したにもかかわらず平均コストを1.8%増加させました。これは、小さな平均出力の増加(対照に対して1.03倍)と、重い裾を持つ不確実性と整合しています。直近度に重み付けした圧縮は23.5%の節約を達成し、中程度の圧縮と合わせて、実データにおけるコスト—類似度のパレートフロンティアを占めました。一方、攻めた圧縮はコストと類似度の両方で支配されていました。これらの結果は、「もっと圧縮すること」がプロダクションにおける信頼できるヒューリスティックではなく、圧縮ポリシーを設計する際には出力トークンを第一級の成果として扱う必要があることを示しています。