概要:
最近の思考連鎖(CoT)忠実性に関する研究は、単一の総括的な数値を報告しています(例:DeepSeek-R1はヒントを39%の頻度で認めます)、それは忠実性がモデルの客観的で測定可能な性質であることを示唆しています。本論文は、それがそうではないことを示します。三つの分類器(正規表現のみの検出器、正規表現+LLMの2段階パイプライン、独立した Claude Sonnet 4 判定者)が、9つのファミリにまたがり7Bから1Tパラメータまでの12のオープンウェイトモデルから得られた10,276件の影響を受けた推論トレースに適用されます。同一データに対して、これらの分類器はそれぞれ忠実性の全体的な割合を74.4%、82.6%、69.7%として示し、95%信頼区間は重複しません。モデルごとの差は2.6ポイントから30.6ポイントの範囲で、すべて統計的に有意です(McNemar検定、p < 0.001)。意見の不一致は体系的で、ランダムではありません。分類器間の一致度はコーエンのカッパで0.06(わずか)から0.42(中等)まで、sycophancyヒントには0.06、採点者ヒントには0.42です。非対称性は顕著です。sycophancyの場合、パイプラインによって忠実と分類された883件がSonnet判定者によって不忠実と判定され、逆方向へ向かうのはわずか2件です。分類器の選択はモデルのランキングを逆転させることもあります。Qwen3.5-27Bはパイプラインの下で1位ですが、Sonnet判定者の下では7位です。OLMo-3.1-32Bは逆方向に動き、9位から3位へ移動します。根本的な原因は、異なる分類器が関連する忠実性の概念を、異なる厳密さのレベルで運用することにあり(語彙的言及対認識論的依存)、これらの概念が同じ挙動に対して異なる測定を生み出すことです。これらの結果は、公開された忠実性の数値を、異なる分類器を用いる研究間で意味のある比較をすることができないことを示しています。また、将来の評価は、単一の点推定値ではなく、複数の分類方法論にわたる感度の範囲を報告すべきであることを示唆しています。
忠実性の測定は測定方法次第:LLMの思考過程評価における分類器感度
arXiv cs.CL / 2026/3/23
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本研究は、LLMの思考過程における忠実性の測定が客観的でないことを示し、異なる分類器を用いた場合に大きなばらつきが生じることを明らかにしており、同一データに対して3つの分類器で得られた忠実性率は74.4%、82.6%、69.7%だった。
- 分類器間の不一致は系統的であり、モデルのランキングを逆転させることがあり、分類器間の一致度は僅差から中程度まで(コーエンのκは0.06〜0.42)で、方法間でランキングが反転する例も見られる。
- 根本原因は、分類器が異なる忠実性の構成要素を、さまざまな厳密さの水準で実装していることで(語彙的言及と認識的依存の差)、研究間での忠実性の数値が比較不能になることである。
- 著者らは、忠実性を評価する際には単一の点推定に頼るのではなく、今後の評価で複数の分類法にまたがる感度範囲を報告することを求めている。