大規模推論モデルにおける並列サンプリングと逐次サンプリングの性能ギャップを理解する

arXiv cs.CL / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、大規模推論モデル（LRM）における逐次サンプリングと並列サンプリングという戦略を厳密に比較し、逐次サンプリングの方が表現能力は高いにもかかわらず、並列サンプリングの方が概して優れていることを見出す。
観測された性能ギャップについて、集約演算子の影響、より長い文脈（コンテキスト）が必要であることによる悪影響、そして前の回答に条件付けすることで探索が減少すること、という3つの仮説を検証する。
複数のモデルファミリとサイズ（Qwen3、DeepSeek-R1の蒸留モデル、Gemini 2.5を含む）および領域（数学とコーディング）にわたって調べた結果、集約や文脈長が主要な原因である可能性は低いことが示される。
著者らは、逐次サンプリングにおける探索の低下が性能ギャップの主要な要因であると結論づけ、サンプリング／条件付けのダイナミクスに基づく説明を提示する。
全体として、結果は、推論に焦点を当てたLLMのマルチサンプル推論パイプラインを設計する際には、探索に適したアプローチを検討すべきだことを示唆している。

概要: 大規模推論モデル（LRM）は、数学やコーディングなどの難しい問いに対して驚異的な性能を示してきました。しかし、高品質な解答を得るには、1回以上サンプリングする必要があるかもしれません。原理的には、より複雑なプロセスを形成するために組み合わせられる2つのサンプリング戦略があります。それは逐次サンプリングと並列サンプリングです。本論文ではまず、これら2つのアプローチを厳密に比較し、先行研究と同様に、後者（逐次サンプリング）は表現力がより高いはずであるにもかかわらず、並列サンプリングの方が優れているように見えることを観察します。この振る舞いの根本理由を理解するために、私たちは3つの仮説を立てます。（i）並列サンプリングが優れているのは、アグリゲータ（集約）演算子によるものです。（ii）逐次サンプリングは、より長いコンテキストを使う必要があることで損なわれます。（iii）逐次サンプリングは、前の解答に条件付けることで探索が不十分になりがちです。さまざまなモデルファミリとサイズ（Qwen3、DeepSeek-R1の蒸留モデル、Gemini 2.5）および問い領域（数学とコーディング）に関する実験的証拠は、性能差の主因は集約とコンテキスト長ではないように示唆しています。これに対して、探索の欠如がかなり大きな役割を果たしているように見え、我々は、これが性能差の主要な原因の1つであると主張します。

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

日経XTECH

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

Reddit r/MachineLearning

コンテキストウィンドウが（ばかげるほど）大きくなっている――それは良いことだ

Dev.to

【世界初】OOD検出 ≅ NEITHER ≅ 龍樹の空 — 機械学習と中観仏教の構造的同型 (PyOD 20アルゴリズム実証)

Qiita

ChatGPTは学習を速める一方で長期記憶には残りにくい可能性がある

GIGAZINE

大規模推論モデルにおける並列サンプリングと逐次サンプリングの性能ギャップを理解する

要点

関連記事

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

コンテキストウィンドウが（ばかげるほど）大きくなっている――それは良いことだ

【世界初】OOD検出 ≅ NEITHER ≅ 龍樹の空 — 機械学習と中観仏教の構造的同型 (PyOD 20アルゴリズム実証)

ChatGPTは学習を速める一方で長期記憶には残りにくい可能性がある

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer