概要: 大規模推論モデル(LRM)は、数学やコーディングなどの難しい問いに対して驚異的な性能を示してきました。しかし、高品質な解答を得るには、1回以上サンプリングする必要があるかもしれません。原理的には、より複雑なプロセスを形成するために組み合わせられる2つのサンプリング戦略があります。それは逐次サンプリングと並列サンプリングです。本論文ではまず、これら2つのアプローチを厳密に比較し、先行研究と同様に、後者(逐次サンプリング)は表現力がより高いはずであるにもかかわらず、並列サンプリングの方が優れているように見えることを観察します。この振る舞いの根本理由を理解するために、私たちは3つの仮説を立てます。(i)並列サンプリングが優れているのは、アグリゲータ(集約)演算子によるものです。(ii)逐次サンプリングは、より長いコンテキストを使う必要があることで損なわれます。(iii)逐次サンプリングは、前の解答に条件付けることで探索が不十分になりがちです。さまざまなモデルファミリとサイズ(Qwen3、DeepSeek-R1の蒸留モデル、Gemini 2.5)および問い領域(数学とコーディング)に関する実験的証拠は、性能差の主因は集約とコンテキスト長ではないように示唆しています。これに対して、探索の欠如がかなり大きな役割を果たしているように見え、我々は、これが性能差の主要な原因の1つであると主張します。
大規模推論モデルにおける並列サンプリングと逐次サンプリングの性能ギャップを理解する
arXiv cs.CL / 2026/4/8
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模推論モデル(LRM)における逐次サンプリングと並列サンプリングという戦略を厳密に比較し、逐次サンプリングの方が表現能力は高いにもかかわらず、並列サンプリングの方が概して優れていることを見出す。
- 観測された性能ギャップについて、集約演算子の影響、より長い文脈(コンテキスト)が必要であることによる悪影響、そして前の回答に条件付けすることで探索が減少すること、という3つの仮説を検証する。
- 複数のモデルファミリとサイズ(Qwen3、DeepSeek-R1の蒸留モデル、Gemini 2.5を含む)および領域(数学とコーディング)にわたって調べた結果、集約や文脈長が主要な原因である可能性は低いことが示される。
- 著者らは、逐次サンプリングにおける探索の低下が性能ギャップの主要な要因であると結論づけ、サンプリング/条件付けのダイナミクスに基づく説明を提示する。
- 全体として、結果は、推論に焦点を当てたLLMのマルチサンプル推論パイプラインを設計する際には、探索に適したアプローチを検討すべきだことを示唆している。
