生成なしでの評価:CSAMへの応用を含む有害なモデル特化の非生成的アセスメント

arXiv cs.LG / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • この論文は、オープンウェイトの生成モデルを「有害な特化」について監査する際に、従来のプロンプトベースの生成評価だけではプラットフォーム規模でスケールさせにくいことを指摘している。
  • 「Evaluation without Generation(生成なしでの評価)」を提案し、CSAMのように出力の生成が法的・倫理的に制約される場合は、出力ではなくパラメータや内部表現といった“モデルの状態”から能力を推定すべきだと主張している。
  • 著者らは「Gaussian probing(ガウス・プロービング)」を導入し、ガウス潜在アンサンブルへの応答を測定することで、LoRAアダプタがモデルの内部表現にどのような摂動を与えるかを特徴づける。
  • その結果、Gaussian probingは出力をサンプリングすることなく、無害な特化と有害な特化を信頼性高く識別できると報告されている。
  • さらに、CSAM専門モデルの検出など高リスク領域で有効であるだけでなく、重みリスケーリングのような敵対的操作にも頑健であることが示されている。