解釈可能なトレースと想定外の結果：トレースに基づく知識蒸留における不整合の検証

arXiv cs.CL / 2026/4/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、推論重視型LLMで用いられるチェイン・オブ・ソート（CoT）トレースが、意味的に正しく、かつエンドユーザーにとって理解可能かどうかを検証する。
QA実験では、最終解答は常に正しいままにしつつ、途中の推論サブステップについて「検証可能に正しい」または「誤った」トレースを組み合わせた微調整用データセットを作成する。
結果として、トレースの正しさは最終解答の正誤を十分に予測できず、正しいトレースでも正解となったのは28%にとどまり、誤ったトレースが必ずしも精度低下につながらないことが示される。
従来のDeepSeek R1型の冗長なトレースで微調整すると性能は最良になる一方、主観評価では解釈可能性が最も低く、認知負荷も最も高いと判定される。
著者らは、モデルの教師データ設計（精度目的）と、ユーザーが解釈するためのトレース設計を切り離すべきだと主張する。

Dev.to

Dev.to

Dev.to

Reddit r/artificial

Qiita