NeuReasoner: Mixture-of-Neuronsによる説明可能・制御可能・統一的推論への道筋

arXiv cs.CL / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模推論モデルが3つのレベルで反復的な失敗パターンに陥ると主張している——すなわち、ステップ内の誤り、ステップ間の振動・停滞、そしてインスタンス単位の不適切な過度な熟考である。しかし既存研究はこれらの問題を個別に扱っており、統合的には扱われていない。
  • そこで本論文は、Mixture-of-Neurons(MoN)の観点を用いたホワイトボックス解析により、重要なニューロンと、特定の失敗タイプに結び付く変動(フラクチュエーション)パターンを特定する。
  • これらの知見に基づき、著者らはMoN駆動の仕組みによって推論を説明可能かつ制御可能にすることを目的とした、統一的フレームワークであるNeuReasonerを提案する。
  • NeuReasonerは、失敗検出のための軽量MLPと、教師ありファインチューニング(SFT)によって学習された特別なトークンによる自己修正を組み合わせる。推論時にトークンを挿入し、救済的な振る舞いを有効化する。
  • 6つのベンチマークと6種類のバックボーンモデルサイズ(8B〜70B)にわたる実験では、最大27.0%の性能向上と、9つのベースラインに比べてトークン消費を19.6%〜63.3%削減できることが示されている。

要旨: 大規模推論モデル(LRM)は、複雑な推論タスクにおいて近年目覚ましい成功を収めています。しかし、より詳細に精査すると、性能とコストを損なう持続的な失敗モードが明らかになります。I) 手順内(intra-step)レベル:計算または導出の誤りによって特徴づけられるもの。II) 手順間(inter-step)レベル:振動および停滞を伴うもの。III) インスタンス(instance)レベル:不適応な過剰思考を引き起こすもの。既存の取り組みは、統一されることなく孤立したレベルを対象としています。また、それらがブラックボックス的であり、RLへの依存が説明可能性と制御可能性を阻害しています。これらのギャップを埋めるために、我々は詳細なホワイトボックス分析を行い、重要なニューロン(Mixture of Neurons, MoN)と、それぞれの失敗に関連する変動パターンを特定します。これらの知見に基づき、MoNに駆動される、説明可能で制御可能な、かつ統一された推論フレームワークであるNeuReasonerを提案します。技術的には、NeuReasonerは軽量なMLPを用いた失敗検出と、SFTを通じて学習された特別なトークンによる自己修正メカニズムを統合します。推論時には、失敗検出に基づいて特別なトークンを挿入し、制御可能な救済的挙動を作動させます。6つのベンチマークにわたる大規模な評価において、6つのバックボーンモデル(8B〜70B)が、9つの競合するベースラインと比較されます。その結果、NeuReasonerはトークン消費を19.6%〜63.3%削減しつつ、最大27.0%の性能向上を達成します。