大規模言語モデルは、区別された統一メカニズムにより有害なコンテンツを生成する

arXiv cs.CL / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ターゲットされた重みのプルーニング（枝刈り）を用いて、内部における有害行動がどのように整理されているかを検証し、LLMの安全対策が脆い理由を明らかにすることを目的とする。
有害コンテンツの生成は、複数の害の種類にまたがって共有される、コンパクトな重みの部分集合に依存しており、良性の能力とは異なることを見出す。
整合（アラインメント）されたモデルは、非整合なモデルよりも「害を生む」重みをより強く圧縮している。これは、表面的なガードレールが回避可能であっても、整合は有害表現を内部で変化させていることを示唆する。
著者らは、この圧縮を「創発的ミスアラインメント（emergent misalignment）」と結び付ける。すなわち、狭い単一領域での微調整が、圧縮された有害能力の重みを活性化し、それがより広範な不適切行動へと一般化し得ると主張する。
狭い領域で有害に関連する重みをプルーニングすると、創発的ミスアラインメントが大幅に低減される。また、有害生成能力は、モデルが有害なコンテンツを認識したり説明したりする能力とは切り離されているように見える。

note

note

note

note

note