LLMにおける数学的推論の解きほぐし:内部メカニズムを対象とした方法論的調査

arXiv cs.CL / 2026/4/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、実行中の層ごとの挙動を追跡し、LLMが次トークン予測をどのように構成して算術の「推論」を行うかを内部メカニズムの観点から調べます。
  • モデルは算術タスクを早期に認識する一方で、正しい計算結果の生成は最終層での処理に依存することが示されています。
  • 算術が得意なモデルでは、注意(attention)が入力情報を主に伝播し、MLPモジュールがそれを集約するという「分業」が明確に現れる一方、不得意なモデルではこの分業が見られません。
  • 著者らは、成功モデルが難しい算術を、単なる事実の想起ではなくより機能的な推論として処理している可能性を示唆しています。

要旨: 大規模言語モデル(LLM)は目覚ましい能力を示している一方で、推論集約的なタスクを扱うための内部メカニズムは、十分に調査されていません。モデル内部の処理メカニズムの理解を進めるために、本稿では、タスク実行中の内部メカニズムを調べることで、LLMがどのように算術演算を実行するかを検討します。初期復号を用いて、次トークン予測が層をまたいでどのように構築されるかを追跡します。実験の結果、モデルは算術タスクを早い段階で認識するものの、正しい結果の生成が起こるのは最終層においてのみであることが分かりました。特に、算術に長けたモデルでは、注意(attention)モジュールとMLPモジュールの間に役割分担が明確に見られます。すなわち、注意が入力情報を伝播し、MLPがそれを集約します。この役割分担は、算術が得意でないモデルには見られません。さらに、成功したモデルは、より難しい算術タスクを機能的に処理しているように見え、事実の想起を超えた推論能力が示唆されます。