難易度を考慮したルーティングと不確実性に導かれた統合による適応的マルチ専門家推論

arXiv cs.CL / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、数学問題を予測される難易度と不確実性に基づいて動的に選択された戦略へルーティングする、適応的マルチ専門家推論(AMR)を提案する。
  • AMRは「俊敏なルーティング」コンポーネントに加え、生成の幅を制御する再設定可能なサンプリング機構を用い、その後複数の専門家によって候補解を生成する。
  • 候補を反復的な修正/最終化フェーズで洗練し、正しさを評価するニューラル検証器を用いる。
  • クラスタリングに基づく統合ステップでは、候補間の合意(コンセンサス)と解答の品質の両方を用いて最終解を選択する。
  • GSM8Kで、AMRは元の学習データのみを用いて75.28%の精度を達成し、合成データで学習された多くの比較可能な7Bモデルを上回る。これは、難易度を考慮したルーティングによる頑健性の向上を示している。

Abstract

大規模言語モデル(LLM)は数学推論ベンチマークで強い性能を示しますが、難易度が異なる問題間での性能は一貫性のないばらつきを見せます。本論文では、動的に適応された戦略で推論することで問題の複雑性に焦点を当てる枠組みであるAdaptive Multi-Expert Reasoning(AMR)を述べます。問題文に注目する機敏なルーティングシステムが、問題の難易度と不確実性を予測し、生成の幅を管理するための再構成可能なサンプリング機構を導きます。3つの専門家が候補となる応答を作成し、それらは複数の修正・最終化フェーズの間で変更されます。ニューラル検証器が応答の正しさを評価し、一方でクラスタリングに基づく集約手法が、合意(コンセンサス)と回答品質の組み合わせにより最終の候補回答を特定します。GSM8Kデータセットで評価したところ、AMRは元の学習データのみを使用して75.28%の精度を達成しました。この結果は、合成データで学習された比較可能な7Bモデルの大多数を上回りました。これは、難易度ベースのルーティングと不確実性に基づく集約を用いるモデルが、数学推論モデルの頑健性を向上させるうえで効率的かつ効果的であることを示しています。