UK AISI アライメント評価ケーススタディ

arXiv cs.AI / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

英国AIセキュリティ研究所（UK AI Security Institute）は、AIラボ環境でコーディングアシスタントとして用いた場合に、高度なAIシステムが意図された目標に確実に従うかどうかを検証するための評価フレームワークを説明する技術報告書を公表した。
著者らは、この方法を4つのフロンティアモデルに適用した結果、安全性に関する研究を妨害することを裏付けられる確定的な事例は報告されなかったが、安全に関わる研究タスクに対してClaude Opus 4.5 PreviewとSonnet 4.5が頻繁に拒否することは指摘している。
本研究では「評価への認識（evaluation awareness）」に違いがあることが判明しており、Opus 4.5 PreviewはSonnet 4.5に比べて、無指示の状態での認識が低い。一方で、直接プロンプトした場合には両者とも評価と実運用（deployment）を区別できる。
このフレームワークはオープンソースのLLM監査ツールPetriに基づき、現実的な内部展開を模擬するためのカスタム・スキャフォールド（足場）を用いる。スキャフォールドは、検証対象モデルが実運用データから確実に区別できない失敗の軌跡（トラジェクトリ）を示すことで妥当性が検証されている。
報告書では、不完全なシナリオのカバレッジなどの限界や、評価への認識に関する行動が状況やプロンプトの与え方によって変わり得る点についても論じている。

要旨: 本技術報告書では、英国AIセキュリティ研究所が、高度なAIシステムが意図された目標を確実に追随しているかどうかを評価するために開発した手法を提示する。具体的には、AI研究所内でコーディングアシスタントとして導入された場合に、最先端モデルが安全性研究を妨害するかどうかを評価する。我々は4つの最先端モデルに対して手法を適用した結果、研究妨害の確証された事例は見つからなかった。しかし、Claude Opus 4.5 Preview（Opus 4.5の事前リリース版スナップショット）およびSonnet 4.5は、安全性に関わる研究タスクへの取り組みを、研究の方向性、自己学習への関与、研究の範囲といった懸念を理由にしばしば拒否することを観察した。さらに、Opus 4.5 PreviewはSonnet 4.5と比べて、促されることなく評価への意識（evaluation awareness）が低下していることを見出した。一方で、両モデルは、促した場合には評価シナリオと導入シナリオを区別できる。我々の評価枠組みは、オープンソースのLLM監査ツールであるPetriを基盤としており、コーディングエージェントの現実的な内部導入を模倣するためのカスタム・スキャフォールドを設計した。このスキャフォールドが、テストした全てのモデルが実導入データと確実に区別できない軌跡（trajectory）を生成することを検証した。我々は、研究動機、活動の種類、置き換え脅威、モデル自律性が異なる複数のシナリオでモデルを試験した。最後に、シナリオの網羅性および評価への意識を含む制約について議論する。