要旨: 大規模推論モデルは、長い思考過程(chain-of-thought)による推論を必要とする複雑なタスクにおいて、 大規模かつ高品質なデータセットでの教師あり微調整を通じて、近年強い性能を示している。 このようなデータセットを構築するために、既存のパイプラインでは、より能力の高い大規模言語モデル(LLM)から長い推論データを生成し、手作業のヒューリスティックまたは自然さ(ナチュラネス)に基づく選択手法を用いて、高品質なサンプルをフィルタリングする。自然さに基づくデータ選択の有効性が、LLMが付与する平均対数確率(average log probability)によってデータを順位付けする点で実証されているにもかかわらず、我々の分析では、LLMの推論データセットに適用した場合、より高品質なサンプルを好むのではなく、より長い推論ステップ(すなわち、ステップごとのトークン数が多いこと)を体系的に選好することが示される。 この現象を我々は「ステップ長の交絡(step length confounding)」と呼ぶ。 定量的分析により、この現象は推論ステップにおける確率の低い最初のトークンによるものだと帰結される。 長いステップではこれらの影響が薄まり、その結果として平均対数確率が押し上げられる。 この問題に対処するため、我々は2つの派生手法を提案する。1つ目はASLEC-DROPで、平均対数確率を計算する際に最初のトークンの確率を落とす。2つ目はASLEC-CASLで、最初のトークンによる交絡効果を除去するために因果的デバイアス(傾き補正)の回帰を適用する。4つのLLMと5つの評価ベンチマークにまたがる実験により、本手法がステップ長の交絡問題を緩和する上で有効であることが示される。
LLM推論データ選択におけるステップ長の交絡(confounding)について
arXiv cs.CL / 2026/4/9
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLM推論データセットに対して一般的な自然さ(naturalness)ベースのデータ選択—すなわち、平均対数確率でサンプルを順位付けする手法—が、新たに特定された「ステップ長の交絡」効果によって推論品質を誤って順位付けしてしまうことを分析する。
- この選択手法は、推論ステップあたりのトークン数が多いサンプルを体系的に優遇することを示す。低確率の最初のトークンは、ステップが長くなることで薄まり、その結果として平均対数確率が不当に高く見積もられるためである。
- 著者らはこの交絡を、各推論ステップの開始時に出現する低確率の最初のトークンが原因であるとし、これが長さに依存する形で平均対数確率指標を支配してしまう点に帰属している。
- これを緩和するために、ASLEC-DROP(平均化から最初のトークンの確率を除外する)およびASLEC-CASL(最初のトークン交絡を取り除くための因果的デバイアス回帰)を提案する。
- 4つのLLMと5つのベンチマークにわたる実験により、提案手法がステップ長の交絡を効果的に低減し、意図した推論品質により適切に選択結果を一致させることが示される。
