解釈可能なトレースと想定外の結果:トレースに基づく知識蒸留における不整合の検証
arXiv cs.CL / 2026/4/20
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、推論重視型LLMで用いられるチェイン・オブ・ソート(CoT)トレースが、意味的に正しく、かつエンドユーザーにとって理解可能かどうかを検証する。
- QA実験では、最終解答は常に正しいままにしつつ、途中の推論サブステップについて「検証可能に正しい」または「誤った」トレースを組み合わせた微調整用データセットを作成する。
- 結果として、トレースの正しさは最終解答の正誤を十分に予測できず、正しいトレースでも正解となったのは28%にとどまり、誤ったトレースが必ずしも精度低下につながらないことが示される。
- 従来のDeepSeek R1型の冗長なトレースで微調整すると性能は最良になる一方、主観評価では解釈可能性が最も低く、認知負荷も最も高いと判定される。
- 著者らは、モデルの教師データ設計(精度目的)と、ユーザーが解釈するためのトレース設計を切り離すべきだと主張する。



