LLM拡張調査における適応的予算配分

arXiv cs.LG / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMが生成する回答は安価だが、収集前に質問ごとの信頼性が未知である場合に、限られた人手によるラベリング予算を調査質問にどのように配分するかを検討する。
各人手ラベルを、その質問の推定を改善するためにも、その質問に対するLLMの予測誤差を測るためにも用いることで、LLMが現実のデータ収集においてどの質問を難しく感じているかをリアルタイムに学習する、適応的予算配分アルゴリズムを提案する。
著者らは、事前のパイロット調査や、質問ごとのLLM精度が事前に既知であることを要せず、最適配分アプローチとの差（配分ギャップ）が人手予算の増加に伴ってゼロに収束することを証明する。
合成データおよび実際の調査データセット（68の質問、2000人以上の回答者）での実験により、均一に人手ラベリングを行うと予算の10–12%が無駄になるのに対し、適応手法では無駄が2–6%に抑えられ、しかも人手ラベル数が少ないにもかかわらず、均一サンプリングと同等の性能を示すことがわかる。
この枠組みは、LLMの信頼性が未知であるタスク群に対して、希少な人手による監督を分配する必要があるあらゆる状況に広く適用できるものとして位置付けられている。

要旨: 大規模言語モデル（LLM）は低コストで調査回答を生成できますが、その信頼性は質問ごとに大きく異なり、データ収集前には不明です。調査にLLMを導入するには、それでも検証や修正のために高コストな人手による回答が必要になります。限られた人手によるラベル付け予算を、実時間でどのように質問に配分すべきでしょうか。私たちは、人間の回答を同時に収集しながら、どの質問がLLMにとって最も難しいかを学習する適応的な配分アルゴリズムを提案します。各人間ラベルには二重の役割があります。すなわち、その質問に対する推定を改善するだけでなく、その質問においてLLMが人間の回答をどれほどうまく予測できているかを明らかにします。このアルゴリズムは、質問ごとのLLM精度に関する事前知識を必要とせずに、LLMの信頼性が最も低い質問により多くの予算を振り向けます。利用可能な予算が増えるにつれて、最良に可能な配分に対する配分ギャップが消失することを証明し、合成データと、68の質問を含み2000人を超える回答者を持つ実調査データの両方でこのアプローチを検証します。実調査データでは、質問ごとに人手ラベルを一様に配分する標準的な手法は、最適解に比べて予算の10--12%を浪費しています。これに対し、私たちのアルゴリズムは浪費を2--6%にまで減らし、LLMの予測品質が質問間でより異質になるほど優位性が大きくなります。このアルゴリズムは、より少ない人手サンプルで、従来の一様サンプリングと同等の推定品質を達成し、パイロットスタディを不要とし、実調査データで検証された形式的な性能保証によって裏付けられています。より広く言えば、この枠組みは、LLMの信頼性が不明なタスクにわたって、乏しい人手による監督を配分する必要がある場合に適用できます。