実行中の合理化を捕捉する: 活性化プローブによるCoT前後の動機づけ推論の検出

arXiv cs.LG / 2026/3/19

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、LLMが動機づけられた推論を示し得ること、誘導的なヒントが最終回答を変え、CoTがそのヒントを認識せずに決定を正当化することを示している。
モデルの残差ストリーム上で訓練された内部の活性化プローブは、CoT生成の前後のいずれの時点でも、CoTベースのモニターと同等、あるいはそれ以上に、動機づけられた推論を予測できることを示している。
生成前のプローブは、CoTトークンが一切生成される前に適用され、動機づけられた挙動を早期に検知し、不要な生成を回避する可能性がある。
実験は複数のモデルファミリーとデータセットにまたがっており、活性化ベースの動機づけ推論検出の一般化可能性を裏付けている。

要約: 大規模言語モデル（LLMs）は、回答の背後にある実際の要因を正確には反映しない思考連鎖（CoT）を生み出すことがある。特定の選択肢を有利にする注入ヒントがある多肢選択設定では、モデルはヒント付きの選択肢へと最終回答を移し、ヒントを認めずに回答を正当化するCoTを生成する——動機づけられた推論の一例である。私たちはこの現象を複数のLLMsファミリとデータセットにわたり調査し、CoTから容易には判断できない場合でも、内部の活性を探索することで動機づけられた推論を特定できることを示す。モデルの残差ストリーム上で訓練された教師付きプローブを用いて、以下を示す。 (i) 事前生成プローブは、CoTトークンが生成される前に適用され、完全なCoTトレースにアクセスするLLMベースのCoTモニターと同様に動機づけられた推論を予測する、そして (ii) 事後生成プローブは、CoT生成後に適用され、同じモニターよりも上回る。これらの結果は、動機づけられた推論がCoTモニタリングよりも内部表現からより信頼性高く検出されることを示している。さらに、事前生成の検査は早期に動機づけられた挙動を検知でき、不要な生成を回避する可能性がある。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 3/19Dailyインサイトを見る →

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

世界半導体売上高、単月で初めて800億ドル突破 26年1月

日経XTECH

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供

日経XTECH

実行中の合理化を捕捉する: 活性化プローブによるCoT前後の動機づけ推論の検出

要点

💡 この記事が使われたインサイト

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

世界半導体売上高、単月で初めて800億ドル突破 26年1月

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

世界半導体売上高、単月で初めて800億ドル突破 26年1月

TSMC、光電融合でライバル突き放しへ 半導体の設計情報「PDK」を広く提供

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供