推論LLMにおける冗長なリフレクションを減らすためのグラフベースの思考連鎖(Chain-of-Thought)剪定

arXiv cs.CL / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、強化学習ベースの思考連鎖(CoT)が、主に無差別な低影響のチェックや、確立した結論の繰り返しの再検証といった非効率なリフレクションにより、「考えすぎ(overthinking)」を生み得ることを指摘する。
  • 線形のCoTを依存関係エッジを持つ有向非巡回グラフ(DAG)へと変換し、弱いリフレクション分岐を剪定することと、後段での冗長な再チェックを取り除くことの二段階の剪定戦略を提案する。
  • 著者らは、三段階のパイプラインにより剪定ポリシーを蒸留して学習する。すなわち、簡潔に剪定されたトレースに対するSFT、正しくかつ冗長性がより少ない軌跡を選好するためのDPO、そして正確さと効率のバランスを取るための長さペナルティ付きGRPOである。
  • 実験では、平均推論トークンが42%削減される一方で精度は維持または向上しており、本手法が性能を損なうことなく推論効率を改善できることを示唆している。

要旨: RLによってCoTを拡張することは、LLMの推論能力を高めるために広く用いられてきました。しかし、報酬信号が疎であるため、過度に考え込むなどの望ましくない思考パターン、つまり冗長な中間推論コンテンツを生成してしまうことも引き起こし得ます。本研究では、このような冗長性の主要な原因は非効率なリフレクション(内省)であり、多くの場合、次の2つの問題パターンとして現れると主張します。すなわち、無差別なリフレクション(Indiscriminate Reflection)では、推論の途中で広範かつ影響の小さいチェックを行ってしまい、反復的なリフレクション(Repetitive Reflection)では、すでに確立された結論を繰り返し再検証してしまいます。これに対処するために、グラフベースのCoT最適化フレームワークを導入します。具体的には、各線形のCoTを、明示的な依存関係エッジを持つ有向非巡回グラフ(DAG)へ変換し、デュアル(2段階)プルーニング戦略を設計します。分岐レベルのプルーニングでは、弱く寄与するリフレクション分岐を除去し、深さレベルのプルーニングでは、後段での再検証を排除します。この挙動を、3段階のパイプラインで蒸留します。(1)プルーニングされた簡潔なトレース上で方策を初期化するためのSFT、(2)正しいが冗長性の少ない軌跡を優先するためのDPO、(3)長さペナルティ付きのGRPOで、回答の正確さと効率を同時に最適化します。実験の結果、提案手法は平均推論トークン数を42 ext{%}削減しつつ、精度を維持、あるいは向上させることが示されました。