コンテンツ安全性を超えて：大規模言語モデルにおける推論脆弱性のリアルタイム監視

arXiv cs.AI / 2026/3/27

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMのセキュリティは出力に対する「コンテンツ安全性」だけにとどまらず、「推論の安全性（reasoning safety）」を含むべきだと主張し、論理的に一貫した、効率的で、操作に耐性のある推論の軌跡を求める。
推論の安全性に関する形式的な定義を提示し、入力の解釈エラー、推論実行エラー、プロセス管理エラーにまたがる危険な推論挙動を9つのカテゴリに分類するタクソノミーを導入する。
ベンチマークおよび推論ハイジャックやサービス拒否（DoS）のような攻撃から収集した、注釈付きの推論チェーン4,111件を対象とする大規模調査により、9つの誤りタイプが実際にすべて生起することを示し、攻撃ごとの解釈可能なシグネチャも生成する。
著者らは「Reasoning Safety Monitor（推論安全性モニタ）」を提案する。これは外部のLLMベースの並列コンポーネントで、推論ステップをリアルタイムに検査し、危険な挙動が検出された場合に対象モデルを中断する。
450チェーンのベンチマークでは、モニタは強い性能を示し（ステップ単位のローカライゼーション精度で最大84.88%、誤りタイプ分類で85.37%）、従来の幻覚検出器や報酬モデルのベースラインを上回る。

要旨: 大規模言語モデル（LLM）は、複雑なタスクを解くために明示的なチェーン・オブ・ソート（CoT）による推論にますます依存するようになっている一方で、推論プロセスそのものの安全性はほとんど対処されていません。LLMの安全性に関する既存研究は、内容の安全性――有害、偏りを含む、または事実に反する出力を検知すること――に焦点を当て、推論チェーンを不透明な中間成果物として扱っています。本研究では、推論の安全性を、直交しており、かつ同様に重要なセキュリティ次元として特定します。これは、モデルの推論軌跡が、論理的に一貫しており、計算効率が高く、対立的な操作に対して耐性があることを要請するものです。私たちは3つの貢献を行います。第一に、推論の安全性を形式的に定義し、入力の解析エラー、推論の実行エラー、プロセス管理エラーを含む、不安全な推論行動の9カテゴリの分類体系（タクソノミー）を導入します。第二に、大規模な有病率調査を実施し、自然な推論ベンチマークおよび4つの対立的攻撃手法（推論ハイジャックとサービス拒否）から合計4111本の推論チェーンに注釈を付けます。その結果、9つのエラータイプすべてが実際に生じており、各攻撃が機構的に解釈可能なシグネチャを誘発することを確認します。第三に、Reasoning Safety Monitor（推論安全モニタ）を提案します。これは、対象モデルと並行して動作する外部のLLMベースのコンポーネントであり、分類体系に埋め込まれたプロンプトを用いて各推論ステップをリアルタイムに検査し、不安全な挙動を検出した場合に割り込み信号を送出します。450チェーンの静的ベンチマークでの評価では、モニタは最大84.88\%のステップレベルのローカライズ精度と、85.37\%のエラータイプ分類精度を達成し、幻覚（ハルシネーション）検出器およびプロセス報酬モデルのベースラインを大幅に上回りました。これらの結果は、推論レベルの監視が必要であり、かつ実際に実現可能であることを示し、大規模推論モデルの安全な導入に向けた基盤的な懸念として推論の安全性を確立します。