世界モデルにおける安全性・セキュリティ・認知リスク

arXiv cs.LG / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

世界モデルは、自律ロボティクス、車両、エージェンティックAIのための学習済みシミュレータとしてますます活用されているが、従来のMLの失敗モードとは別に、特有の安全性・セキュリティ・認知リスクを生み出す。
本論文は、攻撃者が訓練データを改ざんし、潜在表現を毒し、さらにロールアウトの誤りが累積する性質を利用して、安全性が重要なデプロイメントで破局的な失敗を引き起こし得ることを説明する。
目標の一般化の誤り、欺瞞的アライメント、報酬ハッキング、自動化バイアス、そしてオペレータが世界モデルの予測を十分に監査できないことによる人間の信頼の誤校正といった、ガバナンス上の論点を強調する。
著者らは、脅威の形式的な枠組み（軌跡の持続性や表現上のリスクを含む）を提示し、5つのプロファイルからなる攻撃者のタクソノミーを定義したうえで、既存の枠組み（MITRE ATLASおよびOWASP LLM Top 10）を拡張して、世界モデルスタック全体を対象にする。
実験的に、軌跡の持続性を伴う敵対的攻撃を示し、GRU-RSSMの派生における増幅効果や、DreamerV3のチェックポイントにおけるアクションのドリフトが確認されたといった影響を報告する。さらに、ハードニング、アライメント・エンジニアリング、NIST AI RMF／EU AI Actのガバナンス、人間の要因設計にまたがる緩和の方向性を示す。

要旨: 世界モデル――環境ダイナミクスの学習された内部シミュレータ――は、ロボティクス、自動運転車、エージェント型AIにおける自律的な意思決定のための基盤として急速に確立しつつあります。しかし、この予測能力は、特有の安全性・セキュリティ・認知上のリスクの一群も同時に引き込みます。攻撃者は学習データを改ざんし、潜在表現を毒し、さらにロールアウト誤差の増幅を悪用して、安全性がクリティカルな導入で壊滅的な失敗を引き起こし得ます。世界モデルを備えたエージェントは、自身の行動の帰結をシミュレートできるため、目標の誤一般化、欺瞞的アラインメント、そして報酬ハッキングがより高い精度で可能になります。さらに、権威ある世界モデルの予測は、オペレータが監査するための手段を欠くことから、自動化バイアスと、人間の信頼の誤校正（ミスキャリブレーション）を助長します。
本論文は世界モデルの全体像を調査し、軌跡の持続性と表現上のリスクに関する形式的な定義を提示し、5つのプロファイルからなる攻撃者の能力分類（タクソノミー）を導入し、MITRE ATLASおよびOWASP LLM Top 10を世界モデルのスタックへ拡張する統一的な脅威モデルを構築します。軌跡持続型の敵対的攻撃に関する実証的な概念実証を提供します（GRU-RSSM: A_1 = 2.26x 増幅、敵対的ファインチューニング下で -59.5% 減少；確率的RSSMプロキシ: A_1 = 0.65x；DreamerV3チェックポイント: 非ゼロのアクション・ドリフトを確認）。
4つの導入シナリオを通じてリスクを例示し、敵対的ハードニング、アラインメント工学、NIST AI RMFおよびEU AI Actのガバナンス、そして人間工学的（ヒューマンファクター）設計にまたがる学際的な緩和策を提案します。著者らは、世界モデルは、飛行制御ソフトウェアや医療機器と同じ厳密さをもって扱われるべき、安全性がクリティカルなインフラストラクチャであると主張します。