テスト時コンピュートの戦略的スケーリング：バンディット学習アプローチ

arXiv stat.ML / 2026/4/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMにおけるテスト時コンピュートのスケーリングを、すべての入力に一律に割り当てるのではなく、各クエリの難易度に応じて適応的に配分する方が効率的だと主張しています。
テスト時コンピュートの適応的な配分をバンディット学習問題として定式化し、クエリ難易度をその場で推定して投入計算量を決定するアルゴリズムを提案しています。
提案手法は、難しいクエリにはより多くの計算を割り当て、簡単なクエリには使い過ぎを抑えることで、精度を維持しつつ計算効率を高めます。
難しいクエリに対しては、さらに解けるインスタンスを優先することを学習し、解けないケースでの無駄な計算を減らします。
一様配分より優れた計算効率を理論的に示し、数学・コードのベンチマークで有効性を検証しています（MATH-500、AIME25、LiveCodeBenchで最大約11%の改善）。

要旨: テスト時の計算量（test-time compute）をスケールすることは、大規模言語モデルの性能を向上させるための効果的な戦略として注目されている。しかし、既存の手法は通常、すべてのクエリに対して計算量を一様に割り当てており、クエリの難しさのばらつきを見落としている。この非効率を解決するために、我々はテスト時の計算量割り当てを新しいバンディット学習問題として定式化し、クエリの難しさをその場で推定して、それに応じて計算量を割り当てる適応的アルゴリズムを提案する。一様な割り当てと比べて、我々のアルゴリズムは難しいクエリにはより多くの計算量を割り当てる一方で、易しいクエリの精度は維持する。難しいクエリの中でも、我々のアルゴリズムはさらに解ける（解決可能な）インスタンスを優先するように学習し、解けないインスタンスに対する過剰な計算を効果的に減らす。我々は理論的に、これらのアルゴリズムが一様な割り当てよりも計算効率が良くなることを証明し、数学およびコードのベンチマークで経験的にその有効性を検証する。具体的には、MATH-500データセットで最大11.10%の性能改善（15.04%相対）、AIME25データセットで最大10.82%（14.44%相対）、LiveCodeBenchデータセットで最大11.23%の性能改善（15.29%相対）を達成する。

第67回の挑戦：知識管理システムが「卓越の自己成就予言」になってしまうとき

Dev.to

開発者のためのコンテキスト・エンジニアリング：実践ガイド（2026）

Dev.to

GPT-5.5が登場、DeepSeek V4も。正直、バージョン番号にもううんざりだ

Dev.to

GPT Image 2.0でAI画像ワークフローを構築（最大の欠点も修正）

Dev.to

Max-and-Omnis/Nemotron-3-Super-64B-A12B-Math-REAPのGGUFファイルを公開

Reddit r/LocalLLaMA

テスト時コンピュートの戦略的スケーリング：バンディット学習アプローチ

要点

関連記事

第67回の挑戦：知識管理システムが「卓越の自己成就予言」になってしまうとき

開発者のためのコンテキスト・エンジニアリング：実践ガイド（2026）

GPT-5.5が登場、DeepSeek V4も。正直、バージョン番号にもううんざりだ

GPT Image 2.0でAI画像ワークフローを構築（最大の欠点も修正）

Max-and-Omnis/Nemotron-3-Super-64B-A12B-Math-REAPのGGUFファイルを公開

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer