SaFeR-Steer:合成ブートストラップとフィードバックダイナミクスによるマルチターンMLLMの進化的アラインメント

arXiv cs.LG / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 本論文は、マルチターンの視覚・テキスト統合(MLLM)の長文脈運用において、学習と実運用の間に不一致があることを指摘し、文脈が更新されることで危険な意図が段階的にエスカレートしうることや、長い対話で安全性が減衰する問題を述べています。
  • 提案手法はSaFeR-Steerで、段階的な合成ブートストラップと、チューターをループに入れたGRPOを組み合わせて、適応的なオンポリシー攻撃下で単一の「学生」モデルをマルチターンにわたって学習させる進化的アラインメント枠組みです。
  • TCSR(Trajectory-based safety)として、軌跡の最小/平均の安全性指標を用いて、遅いターンで起きた安全性の失敗を前のターンへと伝播させ、エスカレーションのパターンそのものを抑えることを狙っています。
  • 2〜10ターンをカバーするSTEERデータセット(STEER-SFT、STEER-RL、STEER-Bench)を公開し、Qwen2.5-VL系モデルを起点にシングルターンとマルチターンの安全性/有用性ベンチマークで大きな改善が得られることを報告しています。
  • コードも公開されており、手法とデータセットが再現や発展研究に使えることを示しています。

Abstract

MLLMは、攻撃者が進化する視覚-テキストの履歴を通じて危険な意図をエスカレートし、長い文脈における安全性の劣化を悪用できるような、多回(multi-turn)環境にますます導入されている。にもかかわらず、安全性のアラインメントは依然として単一ターンのデータや固定テンプレートの対話に支配されており、学習とデプロイの間に不一致が残っている。このギャップを埋めるために、本研究ではSaFeR-Steerを提案する。これは、段階的な合成ブートストラップとtutor-in-the-loop GRPOを組み合わせた、進行型の多回アラインメント枠組みであり、適応的なオンポリシー攻撃の下で単一の学生モデルを訓練する。さらに、後半ターンでの失敗をより前のターンへ伝播させるために、軌跡の最小値/平均の安全性を用いるTCSRも導入する。I. データセット。私たちは、STEER-SFT(12,934)、STEER-RL(2,000)、およびSTEER-Bench(3,227)の対話からなる、多回マルチモーダル安全性データセットSTEERを公開する。対話は2〜10ターンにまたがる。II. 実験。Qwen2.5-VL-3B/7Bから開始して、SaFeR-Steerは、安全性/有用性(Safety/Helpfulness)を単一ターンでも大幅に改善する(3Bで48.30/45.86 -> 81.84/70.77、7Bで56.21/60.32 -> 87.89/77.40)。また、多回ベンチマークでも改善する(3Bで12.55/27.13 -> 55.58/70.27、7Bで24.66/46.48 -> 64.89/72.35)。失敗がより後半のターンへとシフトし、スケーリングだけでは得られない頑健性をもたらす。コードは https://github.com/Ed-Bg/SaFeR-Steer で利用可能。