要旨: AIネイティブアプリケーションの一貫性は、それらを支えるモデルエンドポイントの挙動的一貫性に依存します。稼働時間、待機遅延、スループットといった従来の信頼性指標は挙動の変化を捉えません。ウェイト、トークナイザー、量子化、推論エンジン、カーネル、キャッシュ、ルーティング、あるいはハードウェアの更新によって、エンドポイントは「健康な状態」に見えるままでも、実際のモデルアイデンティティが変化することがあります。私たちはブラックボックスの安定性モニタリングシステム、Stability Monitor を紹介します。固定されたプロンプト集合から出力をサンプリングしてエンドポイントを定期的に指紋付け、時間の経過に伴う出力分布を比較します。指紋は、プロンプト全体にわたるエネルギー距離の和に基づく統計量を用いて比較され、置換検定のp値を分布のシフトの証拠として用い、順次集約して変化イベントを検出し、安定期間を定義します。厳密な検証では、Stability Monitor はモデルファミリ、バージョン、推論スタック、量子化、挙動パラメータの変更を検出します。複数の提供者がホストする同じモデルを実世界でモニタリングした場合、提供者間および提供者内で著しい安定性の差異を観測します。
LLMエンドポイントの安定性と識別性のための行動指紋
arXiv cs.AI / 2026/3/20
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- The Stability Monitor は、固定されたプロンプトセットからの出力をサンプリングしてLLMエンドポイントの指紋を取り、時間の経過に伴う挙動の安定性を監視するブラックボックス型のシステムである。
- 出力分布を、プロンプト全体にわたる総エネルギー距離統計量で比較し、時間を跨いで集計された置換検定のp値を用いて変化イベントを検出し、安定期間を定義する。
- 厳密な検証により、モデルファミリ、バージョン、推論スタック、量子化、および挙動パラメータ全体にわたる変化を検出できることが示されている。
- 複数のプロバイダに跨る実世界のモニタリングは、プロバイダ間および同一プロバイダ内の安定性差が顕著であることを示しており、マルチプロバイダ展開における実用的な影響を浮き彫りにしている。




