推論時における大規模言語モデルの推論精度の向上

arXiv cs.CL / 2026/3/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、追加学習やファインチューニングを行わずに、LLMのマルチステップ推論を推論時の手法によって改善することを調査し、マルチステップ課題における信頼性に焦点を当てている。
  • 制御された条件下で、Chain-of-Thoughtプロンプトを用いて、3つの戦略クラスを比較する。自己一貫性(温度/top-pによる確率的サンプリングと多数決の選択)、デュアルモデルの合意(整合した推論トレースのみに基づいて信頼すること)、自己反省(自己批評と修正)。
  • 実験を通じて、制御したnucleus sampling/temperatureを用いる自己一貫性が最も大きな効果を示し、比較的低い計算コストのオーバーヘッドで、貪欲な単発デコードに比べて精度を約9%〜15%改善する。
  • デュアルモデルの合意アプローチは、2つの独立したモデル間で推論の整合性を検証することで、推論への信頼を高める。そのため、追加の計算が許容できる中程度のリスク設定により適している。
  • 自己反省はわずかな改善しかもたらさず、限定的である可能性を示しており、特に推論に特化していない小規模モデルではその傾向が強い。