要約:LLMアプリケーションは、非決定論的な出力と進化するモデル挙動を持つAIシステムであり、従来のテストだけではリリース時のガバナンスを十分に担保できません。私たちは、5つの経験的に根拠づけられた次元(タスク成功率、研究コンテキストの保持、P95レイテンシ、安全性合格率、証拠の充足度)にわたり、根拠に基づくリリース決定(PROMOTE/HOLD/ROLLBACK)を組み込んだ品質ゲートを導入する自動セルフテストフレームワークを提示します。私たちは、現在開発中の内部配備のマルチエージェント対話型AIシステムを対象とした縦断的ケーススタディを通じてフレームワークを評価します。これは20件以上の内部リリースにまたがる38回の評価実行を網羅します。ゲートは初期の実行でROLLBACK級のビルドを2つ特定し、4週間のステージングライフサイクルにおいて安定した品質の進化を支援しつつ、ペルソナに基づく、複数ターンの対話、敵対的、証拠が要求されるシナリオを実行しました。統計分析(Mann-Kendallトレンド、Spearman相関、ブートストラップ信頼区間)、ゲートアブレーション、オーバーヘッドのスケーリングは、証拠の充足度が重大な退行を識別する主要な指標であり、実行時間はスイートの規模に応じて予測可能にスケールすることを示しています。人間による較正研究(n=60の層別ケース、独立した評価者2名、LLMをジャッジとして用いたクロスバリデーション)により、補完的な多モーダルカバレッジが示されます:システムゲートとLLMジャッジの不一致(κ=0.13)は、遅延違反やルーティングエラーといった構造的故障モードに起因し、応答テキストだけでは見えません。一方、ジャッジは構造チェックで見逃されるコンテンツ品質の欠陥を独立して顕在化させ、マルチディメンショナルゲート設計を検証します。フレームワーク、補足的な疑似コード、および較正アーティファクトは、AIシステムの品質保証と独立した再現性を支援するために提供されます。
品質ゲートとしての自動自己テスト: LLMアプリケーションのエビデンス駆動型リリース管理
arXiv cs.AI / 2026/3/18
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- 本論文は、5つの実証的根拠に基づく指標(タスク成功率、研究コンテキストの保持、P95レイテンシ、安全性パス率、エビデンスの網羅度)に跨って品質ゲート(PROMOTE/HOLD/ROLLBACK)を適用する自動自己テストフレームワークを紹介します。
- 本手法は、内部で展開されたマーケティング機能を備えたマルチエージェント対話AIシステムを対象とした長期的ケーススタディを用いて実証され、20件を超える内部リリースにまたがる38回の評価実行を含みます。
- 結果として、初期の実行でロールバック対象となる2つのビルドを特定し、4週間のステージングライフサイクルを通じて安定した品質の進化を支え、エビデンスの網羅度が深刻な回帰を識別する主要な指標であること、スイート規模に応じて実行時のスケーリングが予測可能であることを示しました。
- 人間のキャリブレーション研究(サンプル数60、評価者2名、LLMをジャッジとして用いたクロスバリデーション)により、ジャッジとゲートの間で補完的なマルチモーダルカバレッジが示され、応答テキストには現れない遅延とルーティングの問題を浮き彫りにするとともに、ジャッジはコンテンツ品質の欠陥を顕在化させ、複数次元にわたるゲート設計の妥当性を検証しました。補足的な疑似コードとキャリブレーション資料が再現性のため提供されています。