SaFeR-Steer:合成ブートストラップとフィードバックダイナミクスによるマルチターンMLLMの進化的アラインメント
arXiv cs.LG / 2026/4/21
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- 本論文は、マルチターンの視覚・テキスト統合(MLLM)の長文脈運用において、学習と実運用の間に不一致があることを指摘し、文脈が更新されることで危険な意図が段階的にエスカレートしうることや、長い対話で安全性が減衰する問題を述べています。
- 提案手法はSaFeR-Steerで、段階的な合成ブートストラップと、チューターをループに入れたGRPOを組み合わせて、適応的なオンポリシー攻撃下で単一の「学生」モデルをマルチターンにわたって学習させる進化的アラインメント枠組みです。
- TCSR(Trajectory-based safety)として、軌跡の最小/平均の安全性指標を用いて、遅いターンで起きた安全性の失敗を前のターンへと伝播させ、エスカレーションのパターンそのものを抑えることを狙っています。
- 2〜10ターンをカバーするSTEERデータセット(STEER-SFT、STEER-RL、STEER-Bench)を公開し、Qwen2.5-VL系モデルを起点にシングルターンとマルチターンの安全性/有用性ベンチマークで大きな改善が得られることを報告しています。
- コードも公開されており、手法とデータセットが再現や発展研究に使えることを示しています。




