LLMのデトックス:データセット自体からのアプローチ

arXiv cs.CL / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、既存のLLMデトックス手法が主に学習後や推論時に対処する一方で、毒性の根本原因である事前学習データセット中の有害コンテンツにはほとんど踏み込んでいないと主張しています。
  • 研究では、SoCD(Soft Contrastive Decoding)を用いて意味を保ちながら生データ内の有害スパンを特定・書き換えることで、HSPD(Hierarchical Semantic-Preserving Detoxification)によるコーパスの直接デトックスを提案しています。
  • 解毒済みコーパスは、ファインチューニング等の学習パイプラインにそのまま置き換えて利用でき、事前学習で学習される毒性を根本的に減らすことを狙っています。
  • GPT2-XLの実験では、毒性確率(Toxicity Probability)を0.42から0.18へ、最大毒性期待値(Expected Maximum Toxicity)を0.43から0.20へ低減できたと報告されています。
  • LLaMA2-7B、OPT-6.7B、Falcon-7Bでも一貫して高い結果が示され、意味を保つコーパス全体の書き換えが下流の毒性を抑えつつデータ有用性を維持できる可能性が示唆されています。

要旨: 大規模言語モデルに対する既存の脱毒化手法は、主に事後学習(post-training)段階や推論時刻(inference time)に焦点を当てている一方で、毒性の源であるデータセットそのものに取り組むものはほとんどありません。学習ベース、または制御可能なデコード手法は、モデルが本来備える毒性を完全には抑制できません。一方で、事前学習データセットを脱毒化することで、学習中にモデルが身に付ける毒性を根本的に低減できます。そこで我々は、提案するHSPD(階層的意味保持型脱毒化)パイプラインにおいて、SoCD(Soft Contrastive Decoding)を用いて生のコーパスに直接脱毒化を試みます。SoCDは、意味を保持しつつ、生データ中の有毒なスパンを特定し書き換えるようにLLMを導きます。これにより、微調整やその他の学習のために元のコーパスをそのまま差し替えできる脱毒化済みコーパスが得られます。GPT2-XLでは、HSPDは最先端の脱毒化を達成し、有毒性確率(Toxicity Probability: TP)を0.42から0.18へ、期待最大有毒性(Expected Maximum Toxicity: EMT)を0.43から0.20へ低減しました。さらに、LLaMA2-7B、OPT-6.7B、Falcon-7Bにおいても、一貫して最良クラスの結果が得られることを検証しました。これらの知見は、HSPDによる意味保持型のコーパス全体書き換えが、データの有用性を維持しつつ下流での毒性を効果的に抑制し、またデータの出所レベルでの対処をシームレスに可能にするため、後続のモデル挙動調整にかかるコストを削減できることを示しています。(コードは以下で公開されています: https://github.com/ntsw2001/data_detox_for_llm)