要旨: 大規模言語モデル(LLM)は、自然言語処理分野に革命をもたらしました。しかし、信頼性や透明性に関するいくつかの制限も見られます。具体的には、幻覚(hallucination)を起こしたり、生成された出力を裏付けるソースを提示できなかったりすることがあります。このようなLLMの限界に対処するために、Retrieval-Augmented Generation(RAG)が導入されました。RAGの代表的な実装の一つであるRAG-as-a-Service(RaaS)には、導入や利用の妨げとなる欠点があります。例えば、RaaSの料金は、提出されたプロンプトの数に基づいており、プロンプトが関連するチャンク(すなわち、ベクトルデータベースから取得されるテキスト断片)によって強化されているかどうか、また利用されたチャンクの品質(すなわち、それらの関連性の程度)を考慮していません。その結果、料金モデルは不透明で、費用対効果の低いものになっています。そこで、透明で費用対効果の高い代替手段としてChunk-as-a-Service(CaaS)を提案します。CaaSには2つのバリアントがあります。Open-Budget CaaS(OB-CaaS)と、Limited-Budget CaaS(LB-CaaS)であり、これは本稿の``Utility-Cost Online Selection Algorithm(UCOSA)''によって実現されます。UCOSAは、予算制約と効用(utility)-コストのトレードオフに基づいて、提出されたプロンプトの一部をオンラインで強化することで、OB-CaaSの費用対効果とアクセス性をさらに拡張します。実験の結果、提案するUCOSAは、オフラインおよび関連性に貪欲な選択ベースラインの両方と比べて有効性が示されました。性能指標—強化されたプロンプト数(NEP)に平均関連性(AR)を掛け合わせた値—において、UCOSAはランダム選択に対して約52%上回り、さらにオフライン選択手法の性能の約75%を達成します。加えて、予算の活用という観点では、LB-CaaSとOB-CaaSはいずれもRaaSと比べてより高い性能/予算比(それぞれ140%および86%)を達成しており、その優れた効率が示されています。
予算制約下のオンラインRAG(Chunk-as-a-Serviceモデル)
arXiv cs.LG / 2026/5/1
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文は、RAG(Retrieval-Augmented Generation)がLLMの信頼性を高める一方で、既存のRAG-as-a-Service(RaaS)ではプロンプト数に基づく課金により透明性と効率が損なわれ、取得したチャンクの関連性や品質が報酬モデルに反映されにくい点が課題だと指摘している。
- その代替として「Chunk-as-a-Service(CaaS)」を提案し、Open-Budget CaaS(OB-CaaS)とLimited-Budget CaaS(LB-CaaS)の2つのバリアントを示している。
- LB-CaaSおよびOB-CaaSでは、Utility-Cost Online Selection Algorithm(UCOSA)により、予算制約と効用–コストのトレードオフを考慮しつつ、オンラインで一部のプロンプトを選択的にエンリッチする。
- 実験では、UCOSAがオフライン手法や関連度優先のベースラインに比べ、エンリッチされたプロンプト数と平均関連度を掛け合わせた指標で優れた結果を示し、ランダム選択より大きく改善することが報告されている。
- さらに、RaaSよりも予算効率が高いことが示され、CaaSバリアントはパフォーマンス対予算比でより高い値を達成し、検索補強型生成のコスト効率と利用しやすさが高まることを示唆している。




