LLMにおける数学的推論の解きほぐし：内部メカニズムを対象とした方法論的調査

arXiv cs.CL / 2026/4/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、実行中の層ごとの挙動を追跡し、LLMが次トークン予測をどのように構成して算術の「推論」を行うかを内部メカニズムの観点から調べます。
モデルは算術タスクを早期に認識する一方で、正しい計算結果の生成は最終層での処理に依存することが示されています。
算術が得意なモデルでは、注意（attention）が入力情報を主に伝播し、MLPモジュールがそれを集約するという「分業」が明確に現れる一方、不得意なモデルではこの分業が見られません。
著者らは、成功モデルが難しい算術を、単なる事実の想起ではなくより機能的な推論として処理している可能性を示唆しています。

要旨: 大規模言語モデル（LLM）は目覚ましい能力を示している一方で、推論集約的なタスクを扱うための内部メカニズムは、十分に調査されていません。モデル内部の処理メカニズムの理解を進めるために、本稿では、タスク実行中の内部メカニズムを調べることで、LLMがどのように算術演算を実行するかを検討します。初期復号を用いて、次トークン予測が層をまたいでどのように構築されるかを追跡します。実験の結果、モデルは算術タスクを早い段階で認識するものの、正しい結果の生成が起こるのは最終層においてのみであることが分かりました。特に、算術に長けたモデルでは、注意（attention）モジュールとMLPモジュールの間に役割分担が明確に見られます。すなわち、注意が入力情報を伝播し、MLPがそれを集約します。この役割分担は、算術が得意でないモデルには見られません。さらに、成功したモデルは、より難しい算術タスクを機能的に処理しているように見え、事実の想起を超えた推論能力が示唆されます。

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

Dev.to

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

Dev.to

デジタル・ソウルを作る：あなたを誰よりも理解するAIを作る残酷な現実

Dev.to

ローカルLLM入門ガイド（Mac - Appleシリコン）

Reddit r/artificial

推論では余裕の8GBが、ファインチューニングでは即死する — 学習が推論の8倍のVRAMを食う理由

Qiita

LLMにおける数学的推論の解きほぐし：内部メカニズムを対象とした方法論的調査

要点

関連記事

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

デジタル・ソウルを作る：あなたを誰よりも理解するAIを作る残酷な現実

ローカルLLM入門ガイド（Mac - Appleシリコン）

推論では余裕の8GBが、ファインチューニングでは即死する — 学習が推論の8倍のVRAMを食う理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer