私のモデルは正しい理由で困惑（perplexed）しているのか？トークンレベルのパープレキシティによる、LLMのベンチマーク挙動の対比

arXiv cs.CL / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、標準的なLLMベンチマークのスコアは、正しい回答が意図された根底の言語メカニズムによって導かれたのかどうかを示さないため、確認バイアスのリスクがあると主張する。
「数個の“重要（pivotal）”トークンのみが異なる最小限の文ペア」に対して、トークンレベルのパープレキシティ分布を用いる解釈可能性（interpretability）の枠組みを提案する。
このアプローチは、特徴帰属（feature-attribution）に伴う不安定さを避けつつ、仮説駆動の分析を支援することを目的としている。
複数のオープンウェイトLLMを対象に、制御された言語ベンチマークで行った実験では、言語的に重要なトークンが挙動に影響するものの、観測されたパープレキシティの変化を完全には説明できないことが分かった。
これらの結果は、LLMが想定される言語的手がかり以外にも追加のヒューリスティックに依存していることを示唆し、ベンチマーク性能を左右する隠れた要因のさらなる調査を動機づける。

Dev.to

Dev.to

Dev.to

Reddit r/MachineLearning

Towards Data Science