SaFeR-Steer：合成ブートストラップとフィードバックダイナミクスによるマルチターンMLLMの進化的アラインメント

arXiv cs.LG / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

本論文は、マルチターンの視覚・テキスト統合（MLLM）の長文脈運用において、学習と実運用の間に不一致があることを指摘し、文脈が更新されることで危険な意図が段階的にエスカレートしうることや、長い対話で安全性が減衰する問題を述べています。
提案手法はSaFeR-Steerで、段階的な合成ブートストラップと、チューターをループに入れたGRPOを組み合わせて、適応的なオンポリシー攻撃下で単一の「学生」モデルをマルチターンにわたって学習させる進化的アラインメント枠組みです。
TCSR（Trajectory-based safety）として、軌跡の最小／平均の安全性指標を用いて、遅いターンで起きた安全性の失敗を前のターンへと伝播させ、エスカレーションのパターンそのものを抑えることを狙っています。
2〜10ターンをカバーするSTEERデータセット（STEER-SFT、STEER-RL、STEER-Bench）を公開し、Qwen2.5-VL系モデルを起点にシングルターンとマルチターンの安全性／有用性ベンチマークで大きな改善が得られることを報告しています。
コードも公開されており、手法とデータセットが再現や発展研究に使えることを示しています。

Abstract

MLLMは、攻撃者が進化する視覚-テキストの履歴を通じて危険な意図をエスカレートし、長い文脈における安全性の劣化を悪用できるような、多回（multi-turn）環境にますます導入されている。にもかかわらず、安全性のアラインメントは依然として単一ターンのデータや固定テンプレートの対話に支配されており、学習とデプロイの間に不一致が残っている。このギャップを埋めるために、本研究ではSaFeR-Steerを提案する。これは、段階的な合成ブートストラップとtutor-in-the-loop GRPOを組み合わせた、進行型の多回アラインメント枠組みであり、適応的なオンポリシー攻撃の下で単一の学生モデルを訓練する。さらに、後半ターンでの失敗をより前のターンへ伝播させるために、軌跡の最小値／平均の安全性を用いるTCSRも導入する。I. データセット。私たちは、STEER-SFT（12,934）、STEER-RL（2,000）、およびSTEER-Bench（3,227）の対話からなる、多回マルチモーダル安全性データセットSTEERを公開する。対話は2〜10ターンにまたがる。II. 実験。Qwen2.5-VL-3B/7Bから開始して、SaFeR-Steerは、安全性／有用性（Safety/Helpfulness）を単一ターンでも大幅に改善する（3Bで48.30/45.86 -> 81.84/70.77、7Bで56.21/60.32 -> 87.89/77.40）。また、多回ベンチマークでも改善する（3Bで12.55/27.13 -> 55.58/70.27、7Bで24.66/46.48 -> 64.89/72.35）。失敗がより後半のターンへとシフトし、スケーリングだけでは得られない頑健性をもたらす。コードは https://github.com/Ed-Bg/SaFeR-Steer で利用可能。