Thinking About Thinking:ポスト学習した言語モデルにおける推論の評価
arXiv cs.CL / 2026/4/29
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ポスト学習したLLMが「何を学び、どう考えるのか」を本当に理解しているのかを検証し、内部の推論トレースと最終出力の整合性に焦点を当てています。
- 評価のために、学習した潜在ポリシーへの気づき、ドメインをまたいだ一般化、そして推論トレースと出力のアラインメントという3つの中核的能力を定義しています。
- 複数のポリシー学習タスクで、SFT、DPO、GRPOによるポスト学習モデルを比較し、各手法が気づき・一般化・トレースと出力の整合性に与える影響を調べています。
- 結果として、RLで学習したモデルはSFTよりも気づきが高く、構造が類似した新しいタスクへの一般化も強い一方で、推論トレースと最終回答の整合性はしばしば弱いことが示され、とくにGRPOで顕著でした。
- 本研究は、ポスト学習による性能向上が必ずしも解釈可能で一貫した内部推論につながるとは限らないことを示唆しています。



