LLM活用サーベイにおける訂正(Rectification)の難しさと最適サンプル配分

arXiv cs.AI / 2026/4/21

📰 ニュースModels & Research

要点

  • 本論文は、LLMが各設問ごとに利用可能である一方で精度が予測困難に変動する状況で、推定タスクごとに固定予算の人手回答をどう配分するかを扱います。
  • 「rectification difficulty(訂正の難しさ)」という設問固有の指標を導入し、人手サンプル数の増加に伴う推定分散の減り方を支配することを特徴付けます。
  • 訂正の難しさに基づき、LLMの信頼性が最も低い設問に対して人手ラベルを厚く割り当てるクローズドフォームの最適配分ルールを導出します。
  • 訂正の難しさは新しい調査での未観測の人手回答に依存するため、パイロット用の人手データなしで新規タスクに対して推定できるメタラーニング手法を提案します。
  • 2つのデータセットでの検証では、理論上の到達可能な効率改善の61〜79%を捉え、パイロットデータなしでMSEを11.4%および10.5%削減できることを示します。

概要: 大規模言語モデル(LLM)は、低コストで合成の調査回答を生成できますが、質問ごとの精度は予測不能に変動します。本研究では、すべてのタスクに対して安価なLLM予測が利用可能であるとき、人間の回答者の固定予算を推定タスク群へ配分するための設計問題を扱います。提案する枠組みは3つの要素から成ります。第一に、Prediction-Powered Inference(予測駆動推論)に基づき、推定器の分散が人間サンプル数に対してどれほどの速さで減少するかを支配する、質問ごとの補正(rectification)困難度を特徴づけます。第二に、LLMの信頼性が最も低いタスクに対してより多くの人間のラベルを割り当てる、閉形式の最適配分規則を導出します。第三に、補正困難度は新しい調査に対する未観測の人間回答に依存するため、パイロットデータなしで、まったく新しいタスクに対してもそれを予測する、過去データで訓練されたメタ学習アプローチを提案します。この枠組みは、回帰係数やコンジョイント分析における多項ロジットの部分効用(partworths)を含む一般のM推定へ拡張可能です。2つのデータセット(異なる領域、質問タイプ、LLMを対象)で検証を行い、提案手法が理論的に達成可能な効率改善の61-79%を捉えることを示します。さらに、対象調査に対してパイロットとなる人間データを一切必要とせず、MSEを11.4%および10.5%削減することを達成します。