SafeRoPE：整流フロートランスフォーマにおける安全生成のためのリスク特異的なヘッド別埋め込み回転

arXiv cs.CV / 2026/4/3

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、整流フロー型トランスフォーマのテキスト-to-画像モデル（例：MMDiT）を分析し、危険な意味論が、少数の安全クリティカルなヘッドにおける、識別可能な低次元の注意サブスペースに集中していることを示す。
危険な埋め込みをヘッドごとに分解し、入力ベクトルをこれらの危険サブスペースへ射影することで、潜在リスクスコア（LRS）を算出する手法 SafeRoPE を提案する。
SafeRoPE は、クエリ／キーのベクトルに対する Rotary Positional Embedding（RoPE）へのターゲット型のヘッド別摂動を適用し、不安全な概念を抑制しつつ、有益な内容と全体の画像品質を維持する。
LRS によるリスク推定と、RoPE に基づくリスク特異的な回転を組み合わせることで、SafeRoPE は、微調整や、適応が難しいトランスフォーマ系拡散モデルに対する注意モジュレーションのような高コストな手法を使わずに、軽量かつきめ細かな安全性の低減を実現する。
著者らは、MMDiT における安全な生成に関し、有害コンテンツの低減と有用性の維持の間の最先端のトレードオフを達成するための広範な実験結果を報告しており、GitHub でコードを公開している。