要旨: 言語モデルを確実にデプロイするには、別個に見えるものの共通の幾何学的基盤を持つ2つの能力が必要です。すなわち、モデルが狙った行動制御を受け入れるかどうかを予測すること、そしてその内部構造が劣化していることを検出することです。本研究では、表現のペアワイズ距離構造の一貫性である幾何学的安定性が、これら両方に対処できることを示します。課題に整合した幾何学的安定性を測定する教師あり Shesha の変種は、35〜69の埋め込みモデルと3つのNLPタスクにわたって、線形ステアラビリティをほぼ完璧な精度で予測します(\rho = 0.89-0.97)。さらに、分類の識別可能性だけでは捉えられない固有のばらつきを捉えています(部分的 \rho = 0.62-0.76)。重要な分離(dissociation)が現れます。すなわち、現実世界のタスクでのステアリングにおいては教師なし安定性がまったく機能せず(\rho \approx 0.10)、制御可能性の予測にはタスク整合が不可欠であることが明らかになります。一方で、教師なし安定性はドリフト検出において優れています。ポストトレーニングのアラインメント中、CKAよりも約2\times大きい幾何学的変化を測定し(Llamaでは最大5.23\times)、さらに73%のモデルでより早い警告を提供し、Procrustesよりも誤警報率を6倍低く保ちます。教師ありおよび教師なしの安定性は、LLMデプロイメントのライフサイクルに対する補完的な診断として機能します。ひとつはデプロイ前の制御可能性評価、もうひとつはデプロイ後のモニタリングです。
幾何学的なカナリア:表現の安定性により操縦可能性を予測しドリフトを検出する
arXiv stat.ML / 2026/4/30
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、「幾何学的安定性」(表現のペア距離構造の一貫性)が、標的に振る舞いを制御できるか(steerability)を予測し、内部構造の劣化(drift)を検出するという2つの課題を同じ幾何学的基盤で扱えることを示す。
- タスクに整合した幾何学的安定性を測る教師ありのShesha系手法は、複数の埋め込みモデルとNLPタスクにわたり、線形操縦可能性をほぼ完全に近い精度で予測し、クラス分離だけに依存する指標を上回る。
- 重要な切り分けとして、現実タスクでの操縦可能性については、教師なしの幾何学的安定性が完全に機能しないため、制御可能性の予測にはタスク整合が不可欠であることが明らかになる。
- ただしドリフト検出では教師なしの安定性が非常に有効で、CKAより大きい幾何学的変化を捉え、ほとんどのモデルでより早い警告を出しつつ、Procrustesより誤報率を大きく下げる。
- 著者らは、教師あり(事前の操縦可能性評価)と教師なし(事後の監視)を組み合わせることで、LLMのデプロイに向けた補完的な診断が可能になると主張する。



