Thinking About Thinking:ポスト学習した言語モデルにおける推論の評価

arXiv cs.CL / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ポスト学習したLLMが「何を学び、どう考えるのか」を本当に理解しているのかを検証し、内部の推論トレースと最終出力の整合性に焦点を当てています。
  • 評価のために、学習した潜在ポリシーへの気づき、ドメインをまたいだ一般化、そして推論トレースと出力のアラインメントという3つの中核的能力を定義しています。
  • 複数のポリシー学習タスクで、SFT、DPO、GRPOによるポスト学習モデルを比較し、各手法が気づき・一般化・トレースと出力の整合性に与える影響を調べています。
  • 結果として、RLで学習したモデルはSFTよりも気づきが高く、構造が類似した新しいタスクへの一般化も強い一方で、推論トレースと最終回答の整合性はしばしば弱いことが示され、とくにGRPOで顕著でした。
  • 本研究は、ポスト学習による性能向上が必ずしも解釈可能で一貫した内部推論につながるとは限らないことを示唆しています。

Abstract

近年の事後学習(post-training)手法の進展により、大規模言語モデル(LLM)は、補助的な計画トークンを生成することで、複雑で論理性の高いタスクに取り組む能力が高まってきました。この発展は、根本的な問いを提起します。すなわち、これらのモデルは自分が「学習」し「思考」している内容を認識しているのでしょうか。これに対処するために、私たちは3つの中核的能力を定義します。(1)学習した潜在ポリシーに対する認識、(2)これらのポリシーのドメインをまたいだ一般化、(3)内部の推論トレースと最終出力の整合です。私たちは、各々が異なるポリシーの学習を必要とするよう設計された複数のタスクにおいて、これらの能力を実験的に評価します。さらに、教師あり微調整(Supervised Fine-Tuning: SFT)、直接ポリシー最適化(Direct Policy Optimization: DPO)、およびグループ相対ポリシー最適化(Group Relative Policy Optimization: GRPO)によって事後学習されたモデルのプロファイルを比較します。私たちの結果は、強化学習(RL)で学習されたモデルが、学習した振る舞いに対する認識がより強く、また構造的に類似した新規タスクへの一般化もSFTモデルよりも優れているだけでなく、多くの場合、推論トレースと最終出力の整合が弱いことを示しています。この効果は、特にGRPOで学習されたモデルにおいて顕著です。