大規模言語モデルにおける論理推論の知識ベクトル
arXiv cs.CL / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、大規模言語モデルが演繹・帰納・仮説的推論といった異なる論理推論タイプを内部でどのように表現しているかを調べ、それらの表現間の関係を分析します。
- 分析の結果、各推論タイプは線形表現空間上で推論タイプ固有の知識ベクトルとして捉えられる一方で、各ベクトル間の依存性は概して弱いことが示されます。
- 認知科学に基づく動機づけと「あるタイプの推論チェーンが別タイプの推論に利益をもたらし得る」という観察から、著者らは各ベクトルを相補的なものにするための表現洗練手法を提案します。
- 相補性を高める補完的ロスと、固有の特徴の消失を防ぐサブスペース制約ロスを組み合わせた「相補的サブスペース制約付き洗練フレームワーク」により、推論ベクトルを用いたステアリング実験で一貫した性能向上が得られます。
- さらに、メカニズム解釈可能性の分析により、異なる論理推論ベクトル間で共有される特徴と固有の特徴の両方に関する洞察が明らかになります。

