研究者は、1テキストずつ分類することでLLM注釈コストの80%を無駄にしている

arXiv cs.CL / 2026/4/7

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

研究者はしばしば、プロンプトごとに変数ごとに1つのテキストを送ることで、LLMのテキスト分類注釈コストを押し上げてしまい、大規模データセットではAPI呼び出しが数十万回に及ぶことがあります。
この研究では、1回のリクエストで多数のテキストをバッチ処理し、複数の分類ディメンションを1つのプロンプトにまとめることで、トークン／APIコストを80%以上削減できることが示されました。
4つのツイートのラベリング課題に対して8つの本番用LLMをテストしたところ、最大100件までバッチ化しても、ほとんどのモデルで精度が（およそ2パーセントポイント以内で）維持されることが分かりました。
ディメンションのスタッキングを最大約10にまで行っても、単一変数のコーディングと同等の結果が得られました。ただし、劣化が起きる場合は、より長いプロンプトというよりも課題の複雑さに起因する傾向がありました。
論文は、テストされた「安全な運用範囲」において、バッチ処理／スタッキングによる計測誤差は、グラウンドトゥルースラベルにおける人手コーダー間の通常の不一致よりも小さいと結論づけています。

要旨: 大規模言語モデル（LLM）は社会科学の分野でテキスト分類にますます使われるようになっているが、研究者の大半は、プロンプトごとに変数ごとに1つのテキストを分類している。4つの変数に対して100,000件のテキストを符号化するには400,000回のAPI呼び出しが必要である。25件ずつをバッチ処理し、すべての変数を1つのプロンプトにまとめることで、呼び出し回数は4,000回に削減でき、トークン費用を80%以上抑えられる。これが符号化の品質を低下させるかどうかは不明である。本研究では、4つのプロバイダから選んだ8つの本番用LLMを用いて、専門家がコード化した3,962件のツイートを対象に4つのタスクで評価し、バッチサイズを1〜1,000件に変化させ、さらに1つのプロンプトあたり最大25の符号化ディメンションを積み重ねた。8モデル中6モデルは、バッチサイズ100までなら、単一アイテムのベースラインから精度を2pp以内に維持した。最大10ディメンションまでの変数スタッキングでは、単一変数の符号化と同等の結果が得られ、劣化はプロンプト長ではなくタスクの複雑さによって生じていた。この安全な稼働範囲の中では、バッチ処理とスタッキングによる測定誤差は、グラウンドトゥルースデータにおける典型的なコーダー間不一致よりも小さい。

Black Hat USA

AI Business

Black Hat Asia

AI Business

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

日経XTECH

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

日経XTECH

Claudeを“コスパ良く”利用可能に　性能の異なるモデルが“適材適所”で稼働、Anthropicの新ツール

ITmedia AI+

研究者は、1テキストずつ分類することでLLM注釈コストの80%を無駄にしている

要点

関連記事

Black Hat USA

Black Hat Asia

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

Claudeを“コスパ良く”利用可能に　性能の異なるモデルが“適材適所”で稼働、Anthropicの新ツール

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

Black Hat Asia

NVIDIA、フィジカルAI基盤を支配へ 通信やデジタルツインにも浸透

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

Claudeを“コスパ良く”利用可能に 性能の異なるモデルが“適材適所”で稼働、Anthropicの新ツール

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

Claudeを“コスパ良く”利用可能に　性能の異なるモデルが“適材適所”で稼働、Anthropicの新ツール