大規模言語モデルにおける近道推論の緩和:勾配に着目したトレーニング手法

arXiv cs.CL / 2026/3/24

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模言語モデルが、真の論理推論ではなく、表層パターン照合や記憶に基づく近道戦略によって推論課題を解けてしまう可能性があると主張する。
  • Shortcut-Aware Reasoning Training(SART)として、ShortcutScore、検証目的との勾配の不整合、正解トークンの集中度などの指標を用いて、近道を促進するサンプルを検出する勾配に着目したトレーニング枠組みを提案する。
  • SARTは、勾配外科手術(gradient surgery)などの手法により学習ダイナミクスを変更し、検出された近道シグナルの影響を減らすことで、近道への依存を緩和する。
  • 制御された推論ベンチマークにおいて、SARTは最強のベースラインに対して大幅な改善を報告しており、精度で+16.5%、頑健性で+40.2%を達成するほか、分布シフト下での一般化も向上した。
  • 著者らは、連携するGitHubリポジトリを通じて本手法を再現・適用するための付随コードを提供している。