Amnesia: 大規模言語モデルにおける敵対的セマンティック層特化活性化の誘導
arXiv cs.AI / 2026/3/12
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- Amnesiaは、内部トランスフォーマー状態を標的とする軽量な活性化空間敵対攻撃で、オープンウェイトのLLMにおける安全機構を回避します。
- 微調整や追加のトレーニングを要せず、最先端のオープンウェイトLLMの評価時に有害な内容を誘発し得ます。
- レッドチーミング実験は、既存の安全対策が回避可能であることを示し、現在のアラインメントと安全対策の脆弱性を浮き彫りにします。
- 本研究の成果は、オープンウェイトLLMに対するより頑健なセキュリティ対策の必要性と、それらの悪用を防ぐ継続的な研究の重要性を強調します。
警告: 本論文にはレッドチーミング実験が含まれており、改ざんされたLLMの応答の例が含まれており、不快または動揺させる可能性があります。
大規模言語モデル(LLMs)は、有害なコンテンツを生成する可能性があり、巧妙なフィッシングメールの作成や有害なコンピュータウイルスのコード作成の支援などが含まれます。したがって、安全で責任ある応答生成を確保することが極めて重要です。 有害または不適切な内容の生成リスクを低減するため、研究者らは人間のフィードバックを用いた強化学習など、LLMの出力を人間の価値観や嗜好に合わせる手法を開発しています。しかし、これらの対策がLLMsが興味深い応答を生成するのを防ぐのに十分かどうかはまだ不確定です。
本研究では、内部トランスフォーマー状態を操作して既存の安全機構を回避する、軽量な活性化空間の敵対攻撃であるAmnesiaを提案します。最先端のオープンウェイトLLMsに対する実験分析を通じて、我々の攻撃が既存の安全対策を効果的に回避し、微調整や追加のトレーニングを必要とせず有害コンテンツの生成を可能にすることを示します。我々のベンチマークデータセットでの実験は、提案された攻撃がLLMsにさまざまな反社会的行動を誘発し得ることを示しています。これらの所見は、オープンウェイトLLMsにおけるより頑健なセキュリティ対策の緊急性を強調し、それらの潜在的な悪用を防ぐための継続的な研究の重要性を強調しています。