魔法の言葉か、それとも体系的な作業か？ LLMベースの政治テキスト注釈における従来の常識への挑戦

arXiv cs.CL / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

著者らは、多くの広く推奨されているプロンプトエンジニアリングのベストプラクティスが、場面によっては一貫性を欠いたり、さらには負の影響さえ与えうると主張しており、プロンプトの凍結、ホールドアウト評価、報告・ツール整備の基準を含む「検証を先に行う」枠組みを提案している。

要旨: 政治学者はテキスト注釈のために大規模言語モデル（LLM）を急速に採用しているが、注釈結果の感度が実装上の選択にどの程度左右されるかは、十分に理解されていない。多くの評価は単一のモデルまたは設定を検証しており、モデル選択、モデル規模、学習アプローチ、プロンプトのスタイルがどのように相互作用するのか、また、広く知られた「ベストプラクティス」が管理された比較のもとでも生き残るのか、についてはほとんど調べられていない。私たちは、同一の量子化条件、ハードウェア条件、プロンプトテンプレート条件のもとで、4つの政治学の注釈タスクに対して6つのオープンウェイトモデルを検証する、これらのパイプライン選択に関する統制された評価を提示する。私たちの中心的な発見は方法論的なものであり、相互作用効果が主効果を支配するため、一見妥当なパイプライン選択であっても、研究者の裁量（自由度）として重要な影響を持ち得ることが示される。単一のモデル、プロンプトスタイル、学習アプローチがすべてのタスクで一様に優れているわけではなく、最も良いモデルはタスクごとに変わる。ここから2つの系が導かれる。第一に、モデル規模はコストと性能の信頼できる指標にならない。ファミリー間の効率の差が非常に大きいため、より大きい一部のモデルの方が、ずっと小さい代替案よりも資源負荷が小さいことがある。一方で、モデルファミリー内では中位のバリアントが、より大きい相手をしばしば上回る、あるいは同等に達する。第二に、広く推奨されるプロンプトエンジニアリング技術は、注釈性能に対して一貫しない効果を示し、ときには負の効果さえも生じる。私たちはこれらのベンチマーク結果を用いて、検証（validation）を最優先とするフレームワークを開発する。そこでは、パイプライン決定のための原理的な順序付け、プロンプトの「凍結（freeze）」とホールドアウト評価に関するガイダンス、報告基準、オープンソースのツールを含め、研究者がこの意思決定の探索空間を透明性をもって進められるようにする。