奇妙な一般化は妙に脆い
arXiv cs.CL / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 論文では「奇妙な一般化」を扱う。これは、(不正確なコードのような)狭い領域で微調整されたモデルが、その領域の外側では、想定外で潜在的に安全でない挙動(たとえば広範なミスアラインメント)を示す現象である。
- 著者らは、追加のモデルやデータセットを用いた拡張的な再現を通じて、この現象が起こり得ること、そして危険になり得ることを確認しつつも、同時にそれが非常に脆い(特定のモデル/データセットの組み合わせでのみ現れる)ことを示している。
- 著者らは、学習中およびプロンプト時の単純な介入によってこの効果を除去できることを見いだし、それが設定全体にわたって頑健ではないことを示す。
- 最も効果的な修正は、一般化された挙動が明示的に期待される挙動になるようにする、プロンプトベースの文脈変更である。ただし、より一般的な介入でもなお影響を減らせる場合がある。
- 全体として、本研究はこの脅威の安全性に関する性質を明確化し、比較的実装しやすい一連の緩和アプローチを提案している。




