プロンプト空間のナビゲーション：プロンプトエンジニアリングによる社会科学テキストのLLM分類の改善

arXiv cs.CL / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、社会科学テキストのLLMベース分類におけるプロンプトエンジニアリングの選択が性能に与える影響を調査し、従来の計算手法と比べて精度およびコスト効率の改善を目指す。
3つのプロンプト構成要素――ラベル記述、指示の軽い後押し（instructional nudges）、few-shot例――を2つの例題タスクに対して体系的に変化させ、結果を確実に向上させる要因を特定する。
結果は、最小限のプロンプト文脈を追加するだけで最大の性能向上が得られる一方で、それ以上の文脈追加はしばしば逓減的な効果しかもたらさないことを示す。
本研究では、プロンプト文脈を増やすことが精度を低下させる場合があることも見出され、「より多くプロンプトすること」が常に有益とは限らないことが示される。
性能は、異なるLLM、タスク、バッチサイズによって大きく変動することが示される。したがって、万能のプロンプト規則ではなく、各分類設定ごとに個別の検証が必要であることを示唆している。

Abstract

社会科学における大規模言語モデル（LLM）を用いたテキスト分類の最近の進展は、コストを大幅に削減できる一方で、性能が既存の計算手法に時に匹敵することがあることを示唆している。しかし、現在のテストでは性能に大きなばらつきがあるため、私たちは「どのようにして性能を最大化するか」という問いに移る。本論文では、プロンプト文脈を、プロンプトエンジニアリングの3つの側面——ラベル記述、指示の軽い後押し（instructional nudges）、および少数ショット例（few shot examples）——を体系的に変化させることで精度を高めるための可能な手がかりとして捉える。2つの異なる例における私たちのテストでは、プロンプト文脈の最小限の増加が最も大きな性能向上をもたらし、その後の文脈のさらなる増加は、わずかな性能向上しかもたらさない傾向があることを示している。警戒すべきことに、プロンプト文脈を増やすと精度が低下する場合もある。さらに、私たちのテストは、モデル、タスク、バッチサイズの間で相当な異質性があることを示唆しており、一般的なルールに頼るのではなく、各LLMのコーディング課題ごとに個別に検証する必要性が強調される。