要旨: 線形プローブは、言語モデルが「間違っていると分かっている」出力を生成したときにそれを検出できます。この能力は、欺瞞とリワードハッキングの両方に関係しています。しかし、単一層プローブは脆弱です。最適な層はモデルやタスクによって変わり、また一部の欺瞞タイプではプローブが完全に失敗します。そこで本研究では、複数層のプローブをアンサンブルとして組み合わせることで、単一層プローブが失敗する場合でも強力な性能が回復することを示します。AUROCは、インサイダー取引で+29%、ハーム・プレッシャー知識で+78%向上します。12のモデル(0.5B〜176Bパラメータ)にわたって調べると、プローブの精度はスケールとともに改善し、約10倍のパラメータにつきAUROCが~5%向上することが分かります(R=0.81)。幾何学的には、欺瞞の方向は1つの位置に現れるのではなく、層をまたいで徐々に回転します。これにより、単一層プローブが脆い理由と、多層アンサンブルが成功する理由の両方が説明できます。
線形プローブの精度はモデル規模とともに向上し、マルチレイヤー・アンサンブルによって恩恵を受ける
arXiv cs.LG / 2026/4/16
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 線形プローブは、言語モデルが「誤りであることを知っている」出力を検出する検出器として機能し得るが、先行研究では単一層のプロービングは脆く、ある種の欺瞞(deception)に失敗することが示されている。
- 本研究では、線形プローブのマルチレイヤー・アンサンブルを導入し、個々のプローブが失敗する場合でも強い検出性能を回復できることを示す。これにより、Insider TradingでAUROCが+29%、Harm-Pressure KnowledgeでAUROCが+78%向上する。
- 12種類のモデル規模(0.5B〜176Bパラメータ)にわたる実験では、プローブ精度がモデル規模の増大に伴って一貫して改善することが確認される。改善率は、おおよそ「10倍のパラメータ当たりAUROCで約5%」(R=0.81)である。
- 著者らは主要なメカニズムが幾何学的であると論じている。すなわち、「欺瞞方向(deception directions)」は単一の層に局在するのではなく、層をまたいで徐々に回転するため、単一層プローブの脆弱性とアンサンブルの頑健性の両方が説明できる。




