要旨: 大規模言語モデル(LLM)は社会科学の分野でテキスト分類にますます使われるようになっているが、研究者の大半は、プロンプトごとに変数ごとに1つのテキストを分類している。4つの変数に対して100,000件のテキストを符号化するには400,000回のAPI呼び出しが必要である。25件ずつをバッチ処理し、すべての変数を1つのプロンプトにまとめることで、呼び出し回数は4,000回に削減でき、トークン費用を80%以上抑えられる。これが符号化の品質を低下させるかどうかは不明である。本研究では、4つのプロバイダから選んだ8つの本番用LLMを用いて、専門家がコード化した3,962件のツイートを対象に4つのタスクで評価し、バッチサイズを1〜1,000件に変化させ、さらに1つのプロンプトあたり最大25の符号化ディメンションを積み重ねた。8モデル中6モデルは、バッチサイズ100までなら、単一アイテムのベースラインから精度を2pp以内に維持した。最大10ディメンションまでの変数スタッキングでは、単一変数の符号化と同等の結果が得られ、劣化はプロンプト長ではなくタスクの複雑さによって生じていた。この安全な稼働範囲の中では、バッチ処理とスタッキングによる測定誤差は、グラウンドトゥルースデータにおける典型的なコーダー間不一致よりも小さい。
研究者は、1テキストずつ分類することでLLM注釈コストの80%を無駄にしている
arXiv cs.CL / 2026/4/7
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- 研究者はしばしば、プロンプトごとに変数ごとに1つのテキストを送ることで、LLMのテキスト分類注釈コストを押し上げてしまい、大規模データセットではAPI呼び出しが数十万回に及ぶことがあります。
- この研究では、1回のリクエストで多数のテキストをバッチ処理し、複数の分類ディメンションを1つのプロンプトにまとめることで、トークン/APIコストを80%以上削減できることが示されました。
- 4つのツイートのラベリング課題に対して8つの本番用LLMをテストしたところ、最大100件までバッチ化しても、ほとんどのモデルで精度が(およそ2パーセントポイント以内で)維持されることが分かりました。
- ディメンションのスタッキングを最大約10にまで行っても、単一変数のコーディングと同等の結果が得られました。ただし、劣化が起きる場合は、より長いプロンプトというよりも課題の複雑さに起因する傾向がありました。
- 論文は、テストされた「安全な運用範囲」において、バッチ処理/スタッキングによる計測誤差は、グラウンドトゥルースラベルにおける人手コーダー間の通常の不一致よりも小さいと結論づけています。




