大規模推論言語モデルの過度な思考を軽減するための推論経路偏差モニタリング

arXiv cs.CL / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、長い Chain-of-Thought 推論過程における大規模推論言語モデルの過度な思考が冗長なステップを生み出し、性能と効率を低下させる原因であると指摘する。
推論経路偏差指標を用いて高エントロピーの遷移トークンを検出し、過度な思考を動的に終了させるために、推論プロセスと深く統合された早期退出法を提案する。
このアプローチは代理モデルに依存せず、推論の軌道に打ち切り決定を結びつけることで、追加のトレーニング負荷や過度な内容の切替を回避する。
複数のベンチマークとモデルスケールにまたがる実験は、本手法が従来の CoT に対して、既存の早期退出法と比較して最大の性能改善を達成することを示している。

概要: 大規模推論言語モデル（LRLMs）は、長い Chain-of-Thought 推論（CoT）を活用することで複雑なタスクにおいて顕著な能力を示します。
しかし、過剰思考に陥りやすく、これにより冗長な推論ステップが生成され、性能と効率の両方を低下させます。
最近、過剰思考を緩和するために、推論を動的かつ適応的に終了する早期終了戦略が提案されています。
しかし、現在の早期終了法は、代理モデルに依存して追加の訓練オーバーヘッドを導入するか、推論と検証用回答の生成の間で内容を頻繁に切り替えることにより推論スループットを制限します。
さらに、多くの早期終了法は過度の切り捨てのためにLRLMの性能を損ないます。
私たちの洞察は次の観察に基づきます。過剰思考はしばしばLRLMを正しい推論経路から逸脱させることが多く、これは高エントロピーの遷移トークンを伴うことが頻繁です。
これを踏まえ、元の推論プロセスと深く結合した早期終了法を提案します。
これは、経路逸脱指標を、高エントロピー遷移トークンの頻繁な出現を検知・終了する専用モニタリング指標として活用し、過剰思考の軌跡を動的に検知・終了します。
我々は異なるタイプとスケールのLRLMを用いた複数のベンチマークで実験を行い、結果は既存の早期終了法と比較して、通常のCoTに対して最大の性能向上をもたらすことを示しています。

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

Reddit r/artificial

状態の外部化

Dev.to

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

Dev.to

私のAIには時計がない

Dev.to

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

Reddit r/LocalLLaMA

大規模推論言語モデルの過度な思考を軽減するための推論経路偏差モニタリング

要点

関連記事

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

状態の外部化

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

状態の外部化

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

コーディング向けの LLM をどう選ぶべきか？ 注目すべきパラメータは何か？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？