回答の前に安全性が崩れる:推論チェーンにおける有害行動検出のベンチマーク化

arXiv cs.CL / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、大規模推論モデルの安全性評価は最終回答だけでなく、多段推論の過程で有害行動がどのように生起するかも扱うべきだと主張している。
  • そのギャップを埋めるため、推論トレースを文レベルでステップ別評価するベンチマーク「HarmThoughts」を提案し、有害推論の挙動を4つの機能グループにまたがる16の行動分類でラベル付けする。
  • データセットは4つのモデルファミリーが生成した1,018本の推論トレースから合計56,931文を収録しており、害がどの段階で伝播していくかを分析できる。
  • HarmThoughtsを用いた評価では、既存の有害行動検出器が推論トレース内の細かな挙動(特に有害の出現・実行に関する微妙なカテゴリ)を文レベルで判定するのが難しいことが示される。
  • 白箱・黒箱の両検出器を比較することで、プロセス段階での安全監視や失敗診断に向けた改善の必要性が浮き彫りになっている。

要旨: 大規模推論モデル(LRM)は複雑で多段階の推論トレースを生成しますが、安全性評価は最終出力に重点が置かれており、危害が推論の過程でどのように生じるかが見落とされています。ジェイルブレイクされた場合、危害はただちに現れるのではなく、拒否の抑制、順守の合理化、危害を伴うタスクの分解、リスクの隠蔽といった、明確な行動ステップを通じて段階的に展開します。しかし、既存のベンチマークは、推論トレース内におけるこの過程を、文レベルの粒度で捉えることをしていません。これは、信頼できる安全性モニタリング、介入、および体系的な故障診断に向けた重要なステップです。このギャップに対処するために、本研究では、推論トレースのステップごとの安全性評価のためのベンチマークであるHarmThoughtsを導入します。\ourdataset は、危害が「何を生成するか」ではなく「どのように伝播するか」を特徴づける4つの機能グループにまたがる、16の有害な推論行動に関する提案タクソノミーに基づいて構築されています。データセットは、4つのモデルファミリーによって生成された1,018件の推論トレースから得られた56,931文で構成されており、それぞれが文レベルでの詳細な行動ラベルで注釈付けされています。HarmThoughts を用いて、推論トレースにおける危害の伝播パターンを分析し、一般的な行動の軌跡や、安全な状態から危険な状態へ推論が移行するドリフト点を特定します。最後に、HarmThoughts 上で有害な推論行動を識別するという課題において、ホワイトボックス検出器とブラックボックス検出器を体系的に比較します。結果として、既存の検出器は、特に危害の発現と実行における微妙なカテゴリにおいて、推論トレース内の精緻な行動検出が難しいことが示されました。これは、プロセスレベルの安全性モニタリングにおける重要なギャップを浮き彫りにします。HarmThoughts は次で公開されています: https://huggingface.co/datasets/ishitakakkar-10/HarmThoughts