推論構造が推論モデルの安全アライメントに重要である

arXiv cs.AI / 2026/4/22

📰 ニュースModels & Research

要点

  • 本論文は、大規模推論モデルにおける安全リスクは生成内容だけでなく、モデルの推論構造に起因すると主張しています。
  • 推論の組み立て方(構造)を明示的に変えることで、安全性を高められると論じています。
  • 提案手法AltTrainは、複雑な強化学習(RL)や報酬設計ではなく、教師あり微調整によって推論構造を変更するポストトレーニングです。
  • 複数の推論モデル基盤やモデル規模での実験により、推論・QA・要約・多言語の各タスクで強い安全アライメントと頑健な汎化が確認されています。