推論ホップのスケーリングが弱点を露呈：大規模言語モデルにおけるホップ汎化の解明と改善

arXiv cs.CL / 2026/5/4

💬 オピニオンModels & Research

共有:

要点

本研究は、大規模言語モデル（LLM）が推論の「ホップ数」が学習分布を超える状況で、推論アルゴリズムが変わらないにもかかわらず大きく性能が低下する理由を調査している。
エラーは生成トークン全体に一様に分布するのではなく、特定のトークン位置に集中し、そこにはいくつかの重要なエラー型が関わっていることが示されている。
モデル内部の競合メカニズムにより誤った推論系列が強められ、正しい系列が抑えられることを通じて失敗が起きるとして、「erroneous processing heads（ep heads）」と呼ばれる注意ヘッドが特定される。
推論時に個別のep headsを削除することで、しばしば正しい予測が復元されることが報告されており、これが改善策の動機となっている。
複数のタスクとLLMにわたる実験で、テスト時補正（推論プロセス中にep headsを動的に無効化する軽量介入法）が一貫してホップ汎化を改善することが示されている。

Anthropic News

日経XTECH

The Verge

Dev.to

Dev.to