TextReasoningBench: 大規模言語モデルにおける推論は本当にテキスト分類を改善するのか？

arXiv cs.CL / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

TextReasoningBenchは、大規模言語モデルを用いたテキスト分類における推論戦略の有効性と効率性を評価する体系的なベンチマークを導入する。
本研究は、IO、CoT、SC-CoT、ToT、GoT、BoC、および long-CoT の7つの推論戦略を、10のLLM（大規模言語モデル）と5つのテキスト分類データセットにわたって比較する。
研究結果は、推論が普遍的に分類性能を向上させるわけではなく、中程度の戦略が約1〜3%のわずかな改善をもたらす一方で、より複雑な手法は小型モデルで期待した効果を示さない、または悪影響を及ぼすことがある。
推論はしばしば非効率的で、わずかな利得のためにトークン使用量を大幅に増加させる（10倍〜100倍）ため、トークンあたりの利得と全体的な効率を測るコストを意識した指標の導入が促された。

概要：大規模言語モデル（LLMs）から明示的で段階的な推論の痕跡を引き出すことは、モデル能力を高めるための支配的なパラダイムとして浮上してきました。元々このような推論戦略は、明示的な多段階推論を必要とする問題のために設計されたものですが、近年は広範なNLPタスクに適用されるようになっています。この拡張は、思慮深い推論が異質なタスクに一様に利益をもたらすと暗黙のうちに仮定しています。しかし、このような推論機構が分類タスクに実際に有益かどうかは、主に十分には検討されていません。特にその大量のトークンと時間コストを考慮すると。これらの課題を埋めるため、TextReasoningBench を導入します。これはテキスト分類における推論戦略の有効性と効率を評価する体系的なベンチマークです。私たちは IO、CoT、SC-CoT、ToT、GoT、BoC、long-CoT の七つの推論戦略を、10 個の LLM、5 つのテキスト分類データセットで比較します。精度やマクロF1といった従来の指標に加えて、推論トークンあたりの性能向上を定量化する2つのコストを意識した評価指標を導入し、トークンコストの成長に対する性能改善の効率性を評価します。実験結果は三つの顕著な発見を示します：（1）推論は分類性能を普遍的に改善するわけではありません。CoT や SC-CoT のような中程度の戦略は一貫したが限定的な改善をもたらします（大規模モデルでは通常、+1% 〜 +3% 程度）。一方、ToT や GoT のようなより複雑な手法は、しばしばより単純なベースラインを上回ることができず、特に小型モデルでは性能を低下させることさえあります。（2）推論はしばしば非効率です。多くの推論戦略は、SC-CoT や ToT などの例では、トークン消費を 10倍から 100倍に増加させる一方で、性能の改善はわずかです。